在过去几年里,智能驾驶领域的发展重心经历了多次显著的转变。起初,竞争主要集中在硬件层面,例如是否采用激光雷达、安装多少个摄像头以及算力达到多少 TOPS。随后,随着大模型时代的到来,竞争焦点转向了端到端、VLA(视觉-语言-行为)和 World Model(世界模型)等技术路径。

如今,越来越多的公司意识到,仅仅拥有更大的模型已不足以形成代际优势。真正决定技术上限的关键在于模型、数据、算力和芯片之间能否构建一个持续迭代的闭环。这也促使越来越多的汽车制造商选择自主研发。

特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的整个链条。在中国,小鹏、蔚来和理想等车企也在不断向更底层技术延伸。理想汽车在其今年发布的 L8 和 L9 车型上已经采用了自主研发的马赫 M100 芯片。这款采用数据流架构的芯片被理想视为人工智能领域的重要技术方向。同时,理想也在马赫 M100 芯片上运行了自主研发的马赫 VLA 模型。

然而,对于整个行业而言,更值得关注的问题并非“是否自研”,而是这些投入究竟能解决哪些具体问题。

带着这一疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了交流。他们分享了理想对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系以及人工智能基础设施背后的设计理念。以下为部分访谈内容的整理和编辑:

问:为了在第四季度达到特斯拉 FSD V14 的效果,理想汽车还需要在哪些方面进行努力?

詹锟: 我认为追赶 FSD 主要体现在两个层面。

首先是基础体验,具体包括三个方面:安全感、效率和舒适度是否能达到 FSD 的同等水平。FSD 在安全感、效率和舒适度方面表现出色,这是其基本功。即使在不处理极端复杂路况的情况下,也能达到这样的基本水平。

其次是能力层面,这方面追赶的难度更大。例如,特斯拉能够识别并礼让特殊车辆,能在极窄的通行环境中实现精准感知,并能识别交警的指挥动作,这些能力非常强大。

能力层面存在架构升级的机会。为什么某些能力只有特斯拉拥有?这可能与过去的范式限制有关,也可能与架构或数据有关。我们在这些方面进行了大量的尝试。

问:我理解马赫 VLA 是一个技术体系,而非单一模型。例如,Mind-Edge 是服务于智能座舱的端侧模型。那么,目前的智能驾驶模型中是否还包含“L”(Language,语言)这一部分?

詹锟: 当前自动驾驶的架构普遍存在一个趋势,即整合 VLA(视觉-语言-行为模型)和 World Model(世界模型)。

从长远来看,所有技术路线都会朝着这个方向发展。无论是 VLA 还是 World Model,其内部的 Prompt(提示)都离不开语言。因此,语言部分是必然存在的,关键在于如何使用语言。

我认为,对于机器智能而言,基于视觉(Vision Based)的理解方式更为合理,它能够更好地实现对空间、三维空间以及环境的感知与服务。语言同样具有价值,它有助于理解环境、交通状况、指令以及进行复杂的决策思考。

展望未来,基于视觉和语言的原生基础模型,可能将成为长期发展趋势。

谢炎: 如果要实现 L3、L4 级别自动驾驶,并解决更泛化的问题,模型需要具备类似人类的思考能力。在这种情况下,语言的重要性将日益凸显,这也是未来需要巨大算力的原因之一。

如果模型仅具备视觉和动作(Vision and Action)能力,即使拥有大量数据,也可能在遇到分布外(out-of-distribution)的情况时不知所措。就像动物即使学会了所有常见情况,也可能在面对从未见过的情形时完全无法应对,不知道该如何做出正确的选择。

我们认为,越是向 L3、L4 级别迈进,所要解决的问题就越接近那些极端罕见的情况(90%、95%、98%之后的问题),这些问题需要模型具备类似人类的思考能力。而语言模型是获得类似人类推理和思考能力的重要来源。例如,理解交警的手势意图,是让你通行还是停止,这并非仅仅通过收集或生成数据就能解决的问题。

问:随着理想汽车车队规模的不断扩大,从内部来看,数据的边际效应是否出现了衰减?你们是如何定义有价值的数据的?

詹锟: 首先,数据的量必须足够庞大,其本质是为了收集更多的 Corner Case(长尾场景)。目前,业界存在多种方法,例如在车端部署先进的 neural trigger(神经网络触发器),以判断场景的难易程度,并将关键数据回传。这也是特斯拉在数据方面表现强大的原因之一。

其次,数据的质量至关重要,主要体现在行为质量方面。目前,业界逐渐趋向于端到端的范式,无论是 VLA(视觉-语言-行为模型)、World Model(世界模型)还是 Vision-Action(视觉-动作模型),其核心都离不开对 Action(行为)的准确把握,因此行为质量变得尤为重要,行为的清晰度和一致性至关重要。

至于数据规模扩大后边际效应是否衰减的问题,只要模型能力在不断提升,并且我们朝着满分目标迈进,就必然会呈现“对数曲线”的增长趋势,即增长速度逐渐放缓,绝不可能线性增长。所有从事人工智能的公司都面临同样的情况。虽然越到后期,数据收敛的速度确实会变慢,但我们希望通过规模化来加速这一进程。

问:马赫 M100 芯片能够支持多种 AI 应用场景。从长远来看,比如五年后或再往后两代产品,理想汽车车内的算力中心是否有可能全部采用自主研发的马赫芯片?

谢炎: 尽管业内存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于 AI 算力部分,其他部分的融合并非那么关键。因为座舱系统和 AI 智能驾驶系统可以完全独立运行,但 AI 算力可以集中处理,这样可以大幅提高效率。

我们的路线图最终目标是构建一个车内 AI 计算中心,所有 AI 任务都可以在该中心进行计算。这类似于在笔记本上运行某个程序,但实际计算发生在云端的 Token Provider Server(Token 供应服务器)。车内也类似,将有一个 Token Server(Token 服务器)。

这个 Token Server 的优势在于:第一,效率极高。第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能保证不被其他任务干扰,这是软硬件协同设计才能实现的目标。

问:是否因为 M100 采用了数据流架构的 AI 推理芯片,所以相较于其他厂商的自动驾驶芯片,它对带宽的需求较低,但对片上存储的需求更高?

谢炎: 我们对带宽的要求确实较低,但这并非设计 SRAM 容量(非显存)的直接原因。目前 HBM(高带宽内存)非常流行,许多人认为带宽越高越好。但计算、带宽、SRAM 等都需要晶体管资源来实现,最终的设计是成本、综合性能等多方面权衡后的结果。

不同的架构设计,仅仅依靠一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终比拼的是整个比赛的策略和执行。

问:为什么目前大算力芯片方案,例如英伟达、小鹏和理想自研的芯片,都没有实现芯片级的舱驾融合,反而高通在低算力芯片上实现了这一功能?这是什么原因?

谢炎: 从本质上讲,座舱(舱)和智能驾驶(驾)是两个独立的系统。特别是对于高端 L3 向 L4 发展的智能驾驶系统,需要一个更高确定性的系统,包括专属的内存和计算资源。在这种情况下,融合的意义就大大降低了,因为资源无法实时切换,实时切换会影响确定性。如果朝着越来越专用的方向发展,融合的价值就不大了——你只是将芯片集成在一起,但资源仍然是分开的,并不能降低成本,甚至可能影响效率。

你看现在那些舱驾融合系统,它们实际上还是分开的,无法实现“一会儿跑这个,一会儿跑那个”。如果做不到这一点,将两个芯片集成到一块芯片中,晶体管数量可能不变,只是节省了一次封装的成本。对于中低端芯片来说,这部分成本可以节省,但节省的幅度也有限。

我的观点是,随着智能驾驶技术越来越高端化,舱驾融合这件事的意义可能并不大。如果将这些芯片做得更近,在一块板上实现高度集成化的方案是可以的,不一定非要集成到一块芯片中,也可以是多块芯片放在同一块板上。

问:自研芯片需要具备哪些条件?例如销量、营收和研发投入。目前自动驾驶迭代速度很快,芯片要持续迭代需要什么样的条件?

谢炎: 芯片的早期投入确实不小,可能每年需要数亿元。

第一个条件是达到一定的营收规模。对于车企而言,年营收达到 1000 亿元以上,研发投入至少占 10%,即每年有数十亿到上百亿的投入,才有可能支撑芯片的研发。第二个条件是,你研发的芯片所解决的问题,必须能够显著提升产品的能力。

很多人认为芯片需要巨大的出货量才能摊薄成本。其实,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如 Livis 使用两颗马赫 M100,总面积约为 800 平方毫米。而一部高端手机芯片的面积约为 100 平方毫米,因此一辆车的智能驾驶芯片面积相当于 8 部手机的芯片面积。

这样计算下来,几十万辆车所需的晶圆面积非常大,完全可以摊薄芯片的制造成本。所以,不能仅以单颗芯片的数量来衡量成本。

问:动态数据流编译器究竟难在哪里?花了多长时间才攻克?

谢炎: 在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器的工作了,在芯片流片之前,已经成功运行了许多模型。

数据流是一种完全不同的架构,它要解决的问题非常类似于超级计算机或大规模计算机集群所面临的问题——当规模扩大到几十万台计算机、上百万个核心时,它们之间的通信和协作是一个巨大的挑战,无法依靠一个中央管理员来管理如此庞大的数量。传统的冯·诺依曼架构的调度方式在这种规模下是不可行的,这是一个超大规模并行调度的难题。