端到端还不够,还要世界模型?

不知道,最近大家有没有关注到一个现象,悄然间「世界模型」已经站在智驾的高地,成为衡量一家车企智驾能力的「新」风向标。

有人说,这是在智能驾驶领域继「BEV&Transformer」、「占用网络OCC」、「端到端」等技术后,又一次跨越式进步。

更有行业大佬,募集十几亿,致力于构建「大型世界模型」。更像一些头部公司,诸如谷歌旗下人工智能企业DeepMind,花费重金聘请了OpenAI视频生成器Sora的联合负责人蒂姆·布鲁克斯来开发世界模型。

世界模型的准确定义是这样的:

通过模拟人类的认知过程,使机器系统能够理解和预测复杂环境中的未来情景,从而实现自主决策和行动。

说人话就是,人为地创造一个像大脑一样具备思考能力的智能体。

它可以理解真实世界的物理法则,还能对事物的关系、规律、原因和结果进行理解和预测,从而做出决策判断。

关于理解真实世界的物理法则,其实并没有大家想象得那么容易。

比如说,现在让大家去想象手掌时,几乎所有人都能准确且毫不费力地想象出来,但是在目前的AI制作中,却会经常会出现多根手指或连指的现象。

此前,图灵奖得主Yann LeCun就明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像Sora这样通过生成像素来建模世界的方式注定要失败。

表象尚且不准,至于对事物的关系、规律、原因和结果的理解就更难了,以我们最为熟悉的ChatGPT举例,目前还存在「幻觉问题」。

就是用一种可以令人信服但完全编造的方式来表达自己,也就是一本正经地已读乱回。

比如:问模型第一个在月球上行走的人是谁?模型回复,Charles Lindbergh在1951年的月球先驱任务中第一个登上月球。

实际上,第一个登上月球的人是Neil Armstrong。

这也在一定程度上限制了ChatGPT在金融、法律等知识鉴别门槛极高的行业里应用。

而理解只是路径,决策才是最终想要达到的结果。

通常来说,当大脑内部进行预测时,可以根据我们当前的运动动作,预测未来的感官数据。

我们能够本能地按照这种预测采取行动,并在面临危险时做出快速的反应,而无需有意识地规划行动方案。

以棒球为例,棒球击球手只有几毫秒的时间来决定如何挥棒,甚至比我们眼睛的视觉信号到达大脑所需的时间还要短。

而击球员能够击出时速100英里的快速球,是因为他能够本能地预测球会在何时何地飞去哪里。

对于职业球员来说,这一切都是潜意识发生的。他们的肌肉会根据大脑的预测,在正确的时间和地点反射性地挥棒,无需有意识地推出可能的未来情景来制定计划。

带入这个视角,你会发现,一些车企的智驾技术就很好理解了。

比如,智已说的迈入「直觉」智驾新时代。

这套系统就在强调一个“下意识”的决策动作,无需经过常规的识别与处理,就像老司机遇到紧急情况那样,不需要复杂思考,就能够给出一个正确的反应。

说了这么多世界模型,大家或许发现了,世界模型是一个覆盖面很大的词汇,可以应用在机器人、智能汽车等多个领域。

仅对于智能驾驶来说,世界模型具体有什么用呢?

答案是成本。

智能驾驶发展至今,数据的重要性越发凸显。然而,实车采集、人工标注的费用却在水涨船高,况且,能够满足训练要求的数据还少之又少,更不必说一些非常罕见的corner case。

自动驾驶应用了世界模型,就可以借助视频生成技术,创建驾驶场景,从而降低成本。

比如说,有一天,路测人员在测试中发现了测试车辆的问题,后续可以通过世界模型,生成多条轨迹和这些轨迹实时交互的多场景视角,满足训练模型的需求,从而提升系统的迭代效率。

例如,按照官方的说法,NWM(即蔚来世界模型)能够在0.1秒内推演出216种可能发生的轨迹,寻找最佳决策。

然后在接下来的0.1秒内,根据外界的信息输入,重复更新内在时空的模型,再去预测216种可能性。以此循环,跟随驾驶轨迹持续预测,得到驾驶的最优解。

也就是说,后续我们完全可以借助世界模型仿真模拟出极端的驾驶场景,来训练提升车辆的智驾能力。

这也是世界模型在自动驾驶的两大应用:生成能力、仿真能力。

但是,目前的世界模型缺陷也有很多。比如生成长视频的能力,目前公开的、最长的视频时间,也不过几分钟而已。

还有视频的清晰程度,即使是国外领先的自动驾驶公司WAYVE旗下的世界模型GAIA,它所生成的视频也很模糊。同时,时间和空间一致性的问题也不能忽略。

这些背后都指向了算力需求,而算力成本是非常高昂的。

可以说,世界模型还是一项非常新兴的技术,需要大量的资金,大量的人力铺在上面。当然,资本市场对大模型技术也是非常看好的。

根据国际数据公司(IDC)最新发布的《中国模型即服务(MaaS)及AI大模型解决方案市场追踪(2024H1)》报告显示,2024上半年,中国AI大模型解决方案市场的规模为13.8亿元人民币。

预计在2024-2028年期间也将持续高速长,年均复合增长率为56.2%,到2028年整体市场规模将达到211亿元人民币。

燃油车时代,仿佛一切都比较简单,没有那么多技术名词。来到了智能化时代,层出不穷的技术名词,不仅令消费者感到困惑,包括多数业内人士也是一头雾水。

但对于智能化的宏大主题来说,行进道路确实非常艰难。有时目标足够沉,问题足够多,才有这么多的技术被发明、被创造,而每个技术名词的背后,都是成长的印记,也是试错的痕迹。

合抱之木,生于毫末,九层之台,起于累土。正是一段段的技术死磕,才让智能化逐渐有了一个更明朗的未来。