押注纯视觉路线，特斯拉凭什么？

【押注纯视觉路线，特斯拉凭什么？】自动驾驶，尽管在近期受到了全世界的强力监管和舆论压力，但却因市场潜力巨大和需求迫切，其始终是当前众多科技企业和汽车企业投入天量资源去攻克的技术“皇冠” 。
此前，有自动驾驶技术专家告诉采访人员，自动驾驶路线一般分为纯视觉和雷达+视觉+高精地图，两种路线各有利弊。以特斯拉押注的纯视觉路线来说，其犹如人的眼睛和大脑，但需要攻克的主要难点在于如何在各种光线条件下准确做出判断，这需要极其强大的算力和神经计算网络， “难度非常大。 ”

文章图片
“凡尔赛”的是，特斯拉还真就选择了“一力破十巧”的道路，算力不够？实践不够？那就统统补上。北京时间8月20日，特斯拉在人工智能日（AIDay）上公布了特斯拉纯视觉方案FSD的进展和神经网络自动驾驶训练，以及D1芯片、Dojo超级计算机等先进技术，目的就在于攻克自己立下的“FLAG”：用纯视觉方案实现自动驾驶。

文章图片
在这场用黑色幕布，黑色现场氛围，充满硬核科技感的发布会上，马斯克表示，特斯拉正在打造一个处理原始信息的神经元网络， “特斯拉正在从零开始，高效构建一个‘合成动物’ 。我们可以将汽车比作一种动物，它能够感知环境，并可以智能地进行自主活动。所有零部件都将由特斯拉自主研发，包括车身所用的机械部件和神经元系统的电子部件。 ”
随后，特斯拉展示了实现纯视觉方案必不可少的多任务学习HydraNets神经网络架构——它可以将8个摄像头获取的画面拼接起来，通过人工或自动标注车道、车辆、信号灯、障碍物等周围环境和动静物体，让系统逐帧分析视频画面，了解物体的纵深、速度等信息，再将这些数据交给车队学习。

文章图片

文章图片
但在这个过程中，特斯拉却发现了几个问题：这些环境参数和空间追踪数据很难通过C++基础架构实现拼接；一些空间数据的输出质量不高；不同摄像头获取的物体信息不同，拼合时很难整体把握。
为解决上述问题，特斯拉开发了“矢量空间”（VectorSpace）技术，同时兼具了非凸优化算法（Non-convex）和高维度两大优势。据悉，该技术可以通过8个摄像头输入的数据为基础绘制3D鸟瞰视图，形成4D空间和时间标签的“路网” ，以呈现道路等信息，帮助车辆把握驾驶环境，并使其更精确地寻找最优驾驶路径。

文章图片
但这又会引发另一个问题，随着所需处理数据的指数级增长，特斯拉迫切需要提高训练神经网络的算力，而目前所有量产计算机都无法充分满足特斯拉的需求，于是，特斯拉D1芯片和Dojo超级计算机应运而生。
其中，特斯拉D1芯片采用分布式结构和7纳米工艺，搭载500亿个晶体管和354个训练节点。以此为基础，特斯拉使用1500个D1芯片，共53万个训练节点，组成了Dojo超级计算机训练模块，配合特斯拉独创的连接方式，让Dojo的算力高达9PFlOPs（9千万亿次）。实际应用中，特斯拉将以120个训练模块组装成ExaPOD ，使其成为世界上首屈一指的人工智能训练计算机。与业内其他产品相比，其在相同成本下性能可提升4倍，同能耗下性能可提高1.3倍，占用空间则节省5倍。