特斯拉纯视觉不动摇，马斯克干掉雷达、地图、ISP的底气找到了

【特斯拉纯视觉不动摇，马斯克干掉雷达、地图、ISP的底气找到了】这是“汽车人参考”第392篇原创内容
“赋能智能电动汽车组织和个人成长”
近段时间， BEV感知算法频频出现在顶级会论文中，得到了行业广泛关注，正好借助BEV感知这个热点，结合AIDay上AndrejKarpathy的分享，特斯拉纯视觉的技术路线图已经清晰地呈现出来，而汽车人参考对马斯克接连干掉激光雷达、高精地图、毫米波雷达、ISP也有了更多的认知。

文章图片
StepOne：九头蛇统一网络架构
特斯拉Hydranet“九头蛇”把感知神经网络架构分为了Backbone（主干）、Neck（颈部）、Head（头部）三段， Backbone和Neck作为主干，进行特征提取，而Head再根据任务的具体类型，给出输出。

文章图片
这个架构已经被大多数自动驾驶公司所采用，这样设计的好处是，不必为众多的感知任务（包括车辆、行人检测，车道线分割，红绿灯检测等等）单独设计神经网络。
先通过Backbone和Neck主干提取这些任务通用性特征，最终到多头（Multi-head）去优化不同任务的性能，输出多头但共享主干，即“九头蛇” 。
在这个架构下，作为首创的特斯拉，很轻易就能建立战略控制点，通过Head种类的数量（超过1000个），来拉大走这条路线的玩家的差距。
StepTwo：BEV干掉激光雷达和毫米波雷达
摄像头感知的是2D数据，但自动驾驶的规划和控制算法，都是在笛卡尔坐标系中展开，传感器的信息经过传感器融合后，需要转换到以自车为中心的坐标系中（VehicleCoordinateSystem ， VCS），即呈现出的是一个鸟瞰视角BEV（BirdsEyeView）。
特斯拉另辟蹊径，省去了从2D图像平面向3D自车空间的复杂转换环节，引入BEVLayer ，作为单独的一个网络层，加到了整体“九头蛇”神经网络中。

文章图片
BEV本质上是一个多相机融合框架，有了这一层网络，所有摄像头的拼接在空间上就统一了，也不需要做后融合，且目标在网络识别前或识别过程中，就自动地加入了位置信息。
感知输出直接进行规划和控制，即通过BEV感知层，让摄像头像人的利用眼睛一样，具备从2D图像平面向3D自车空间的自动转换能力。
这一步，直接让马斯克可以自信地说，特斯拉自动驾驶可以不依赖激光雷达和毫米波雷达提供的三维世界信息，采用视觉摄像头就可精准将向量信息提取出来。
StepThree：时空序列干掉高精地图
九头蛇HydraNet实现了网络的统一，而多相机融合框架BEV实现了空间上的统一，进一步，特斯拉通过引入时空序列，实现时空上的统一。
具体地，特斯拉引入了时空序列特征层，通过使用具有时间维度的视频片段而非静态的图像来训练神经网络，使得感知模型具有短时间的记忆能力，即赋予了网络“短期记忆” 。

文章图片
短期记忆可以实现帧间连续的感知，意味着特斯拉可以选择性地对局部地图进行读写，特别是针对视野盲区和遮挡部分，在时间和空间上串到一起。
也就是神经网络拥有了实时的局部地图构建的能力，所以不需要高精地图就可实现自动驾驶。
StepFour：光子照相机干掉ISP
图像信号处理器ISP（ImageSignalProcessing）是摄像头的关键组成部分，将CMOS传感器获取到的原始图像，进行白平衡、动态范围调整、滤波等操作，以获得更高质量的图像，给人看或者给机器看。