特斯拉FSD:世界首个端到端,真的遥遥领先?

“这是世界上第一个端到端AI自动驾驶系统。”

日前马斯克在做FSD Beta V12的试驾直播时,他这样自豪地作出介绍。

在45分钟的试驾路程里,马斯克仅接管了一次。

马斯克这根魔法棒,是要打中国车企“遥遥领先”的嘴脸吗?

从2020年10月开始推送FSD Beta给到早鸟用户,FSD一直以小步快走的研发进度来完成迭代,其中几天前马斯克展示的已是第12个大版本。

熟悉马斯克作风的朋友应该记得,几乎每年他都要说一遍“今年将落地FSD”。

面对V12版,马斯克在今年6月底时同样说到,“FSD V12将取消Beta测试版,向所有用户推送。”

能为该表态提供支持理据的,是这次FSD采用了端到端的技术路线。

今年5月,马斯克对外透露V12版本将采用端到端的新方案。

接着7月初,马斯克在2023年世界人工智能大会发表演讲,他声称L4/L5级自动驾驶将在今年晚些时候实现,从中不难看出马斯克对于V12版表现的信心之足。

7月底他再次透露,已测试了FSD Beta的V12 Alpha版。

到了8月2日,马斯克表示特斯拉正在开发FSD最后一块拼图的“车辆控制”,同时他透露在用上端到端方案后,使得原本30万行以上的C++控制代码,直接减少了约2个数量级。

当时他还“凡尔赛”说到,“特斯拉正在训练这些神经网络,目前让我们进展受限的是训练计算规模,而不是受限于工程师。”

8月26日,这套基于端到端方案的FSD Beta V12终于面世。

在Beta V12的首秀里,马斯克选择的是搭载Hardware 3.0硬件的老款Model S。

在其算力只有144TOPS的背景下,特斯拉试图给“唯算力论”的中国车企好好上一课。

此外马斯克指出,这次试驾所遇到的建筑、道路标志都是从未见过的。

选择一条未曾跑过的线路来完成Beta V12版本的全球亮相,你相信吗?

在马斯克试驾的45分钟内,Beta V12版本的表现都比较顺利,例如在通过相对复杂的环岛时,Model S都能平顺完成入弯。

只是在前车驶离以后,Model S在进弯过程中并未作出加速,而是一直保持较低速度来入弯,效率方面是有点低。

马斯克表示,“团队从未对环形路口的概念进行编程,我们刚刚向它展示了一堆关于环形交叉路口的视频。”

另外在一段由两旁路障围蔽起来的施工区域里,Model S在这样只能容下单一车辆的通道里也能平稳通过,这多少也能看出Beta V12在应对不规则道路时,识别障碍物及处理路径规划之精准。

照此来看,Beta V12达到“能用”的水平问题不大。

至于马斯克唯一作出接管的地方,是在十字路口等红绿灯来继续直行的时候,Model S却在识别到对面左转信号灯变绿了以后,突然启动起来,这时马斯克连忙刹停了车辆。

对此,是Model S对本次红绿灯的意图判断失准了。

马斯克当即表示,“我们再多喂一些交通信号灯的视频,问题就能解决了。”

他还补充说到,FSD V12仍在进行测试,这也是为什么V12迟迟没有发布的原因。

总结这场Beta V12的首秀,特斯拉在北美向来路况简单的背景下,轻松展示了自身的高阶实力。

尽管是路况简单,但在低算力、且没有用到高精地图和激光雷达的基础上,Beta V12能有如此高的行驶连续性及稳定度,这般表现想要吊打多数新势力品牌亦不难。

更重要的是,别忘了这是“世界上首个采用端到端”的智驾系统首秀。

马斯克强调,“V12系统从头到尾都是通过AI实现,我们没有编程。”

“没有让程序员写一行代码来识别道路、行人等,让特斯拉在停车标志处停车或等待另一辆车,我们全部交给了神经网络。”

FSD V12通过大量高质量驾驶视频训练,借此省去了数十万行代码。

马斯克还表示,所有推理决策都是在HW3硬件上完成,推理计算功率约为100瓦,所有推理完全在本地进行,无需网络连接。

至于该系统可能的存在问题,马斯克提到因为特斯拉总部所在的加州几乎不下雨,因此需要借助世界各地不同天气条件的驾驶视频进行训练。

FSD的强,无人否认。

但这次号称“世界首个端到端”的案例展示,还是引起了不少人的怀疑。

特斯拉真的是第一次跑这条线路吗?

它真的是完全端到端吗?

这都无法验证,唯一办法只能是查程序代码了。

大家不相信特斯拉的端到端,是有原因的。

简单来说,端到端是只需输入原始数据,即可输出最终结果,这意味着把自动驾驶里关于感知、预测和规划的三大部分统一为一个整体。

更进一步来看,一般自动驾驶系统还有着更细分的系统架构,这包括探测、跟踪、静态环境建图、高精地图定位、目标物轨迹预测、本车轨迹规划和运动控制等不同部分。

正因为中间子模块的繁多,业界一直对于打通中间环节的端到端有着较强热衷。

此前上海人工智能实验室青年科学家李弘扬团队发表的一篇论文,首次提出了“UniAD感知决策一体方案”的自动驾驶通用模型。

该论文获得了“CVPR 2023最佳论文”,这是CVPR(国际计算机视觉与模式识别会议)40年来,首次授予自动驾驶领域最佳论文的奖项。

过去,自动驾驶系统是用人工规则和显式连接来打通子模块。

如今UniAD则是使用了一个巨大的Transformer网络,将跟踪、建图、轨迹预测、占据栅格预测统一起来,并且使用不依赖高精地图的Planning作为一个最终目标输出。

如果FSD V12真的是采用了端到端方案,那么这也将是UniAD的首次落地。

但为什么大家觉得这不太靠谱?

因为尽管端到端省去了中间环节,变得更加高效,但此举也意味着AI模型将成为一个黑盒子。

一旦出错了,人工将很难找到对应模块来完成调整优化。

反之过去各个子模块串联的形式,虽然运作起来相对低效,但能够确保中间过程可追踪,从而提供各个模块单独优化的可能性。

归根到底,省去中间过程来提升效率不是终极目的,最重要的应该是,实现智驾系统100%安全率。

此前吴新宙就说过,他认为“运动控制”是个数学优化问题,很长时间还是会基于人工规则来解决。

“你把原来的东西全扔掉,这是非常傻的一件事。”

当时吴新宙斩钉截铁说到,“在控制层面,我们肯定不会上到端到端模型。”

至于规划部分,吴新宙认为,用大模型来提升智驾能力天花板的这条路可以走通,小鹏已经在做了。

相比于吴新宙的谨慎,马斯克无疑是更加大胆的。

他说到,“没有代码行,并不意味着它不可控,现在只需拥有数据,你仍然可以实现控制。”

FSD V12是否真是如此可靠,只能走着瞧了。

通过这次直播,特斯拉再次演绎了FSD实力的遥遥领先。

能够在算力只有144TOPS的芯片上,实现如此高完成度的智驾表现,此举已然充分表明了特斯拉算法能力之突出。

与之同时,马斯克再次表达了对视觉路线的看法,他认为激光雷达并非最佳选择,数字神经网络+摄像头组合使用的效果才是更好。

凭这两点,多少打脸了现时自称“遥遥领先”的中国车企。

在工程能力层面,特斯拉的强是毋庸置疑的,但要说未来FSD真有机会入华以后,其表现能否这么突出,这可能还是会存在一定差距。

毕竟中国路况跟北美的差异太大了,FSD在国内遇到的城市泛化挑战并不小。

此前吴新宙也说过,FSD要想在中国落地,需要组建几百人的研发团队,然后和中国车企一样去做大量本地化测试,一个一个城市去改进体验。

他认为,“我们走的路,特斯拉一步都少不了。”

值得一提的是,8月中旬特斯拉中国表示已在国内建立了数据中心,所有在中国大陆市场销售车辆所产生的数据,都将存储在中国境内。

此外业内还传出,特斯拉计划在中国成立一支数据标注团队,规模约上百人,为训练FSD算法作准备。

FSD落地中国的步伐,应该是越来越近了。

在加快落地中国的同时,特斯拉FSD还朝着更深入的能力方向推进。

就在上月,Dojo超级计算机已正式投产,根据官方规划,明年2月特斯拉算力规模将进入全球TOP 5,明年10月算力总规模达到100 Exa-Flops。

在算力规模得到大幅提升,Dojo能帮助特斯拉处理海量视频数据,加速FSD系统的迭代速度。

需要注意的是,该算力战还是一场“烧钱”战役。

特斯拉表示,将在今明两年分别投资超20亿美元,以增强其计算能力来满足发展自动驾驶技术需要。

有多少中国车企能跟进这般耗资战?

有多少新势力还能继续忍受更大的亏损?

正因如此,你大概就不难理解为什么小鹏愿意“卖身”给大众和滴滴,另外华为也选择跟茅台签署深化战略合作协议的原因了。

来到当下,智驾战已推进到了深水区域。

一方面,是由中国车企主战的城区NOA部分,“开城多少”成为了2023年余下几个月的主要看点。

另一方面,是由特斯拉引领的算法深度优化,以及扩展超级计算机算力规模的高维度玩法。

尽管双方重点不完全相符,但当中的难度和烧钱程度亦不容小觑。

至于谁的选择更有成效,这可能要等到FSD真的入华以后才能比个高低了。