过去几年,智能驾驶行业的竞争焦点经历了显著转变。最初,竞争集中在硬件层面,如是否搭载激光雷达、配备多少个摄像头以及算力达到多少TOPS。随后,随着大模型时代的到来,竞争转向了端到端、VLA(视觉-语言-动作)以及World Model(世界模型)等技术路径。

如今,越来越多的公司认识到,单纯拥有更大的模型已不足以形成代际优势,真正决定技术上限的关键在于模型、数据、算力和芯片之间能否构建一个持续优化的闭环。这也是为何越来越多的汽车制造商选择自主研发。

特斯拉在数据采集、训练基础设施、FSD模型乃至Dojo和自研芯片等全链条均实现了自主可控。在中国,小鹏、蔚来和理想等车企也在不断向更底层技术进行延伸。理想汽车在其今年发布的L8和L9车型中已采用了自主研发的马赫M100芯片,该芯片采用了数据流架构,被理想视为AI领域的重要技术方向。同时,理想也在马赫M100上运行了其自研的马赫VLA模型。

然而,对于整个行业而言,更值得关注的并非“是否进行自研”,而是这些投入究竟能够解决哪些实际问题。

带着这一疑问,我们与理想汽车自动驾驶负责人詹锟和芯片负责人谢炎进行了深入交流。他们就理想在下一代自动驾驶技术路线上的判断,以及自研芯片、数据体系和AI基础设施背后的设计理念进行了阐述。以下为部分访谈摘要,经过编辑整理:

问:为了在第四季度达到特斯拉FSD V14的性能水平,理想汽车还需要在哪些方面进行努力?

**詹锟:**我认为追赶FSD的水平可以从两个层面来看。

第一是基础体验,这主要体现在三个方面:安全性、效率和舒适度。FSD在这些基础体验上表现出色,其安全性令人放心,效率高且乘坐舒适。即便不处理极端复杂的路况,达到这样的基本功水平也是我们的目标。

第二是高级能力,这一点同样难以超越。例如,特斯拉在面对特殊车辆时的礼让行为、在极窄空间内的精准感知能力,以及对交警指挥的识别,都显示出其强大的能力。

这些高级能力可能与架构的升级有关。为什么某些能力只有特斯拉拥有?这或许是因为过去的技术范式限制了这些能力的实现,原因可能涉及架构设计和数据积累。我们在这些方面进行了大量的探索。

问:我理解马赫VLA是一整套技术体系,而非单个模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,在目前的智能驾驶模型中,是否还包含“L”(语言)这一组成部分?

**詹锟:**当前自动驾驶的架构普遍呈现出将VLA(视觉-语言-行为模型)与World Model(世界模型)融合的趋势。

从长远来看,所有技术路线都会朝这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到语言。因此,语言部分是必然存在的,关键在于如何运用它。

就机器智能而言,我认为基于视觉(Vision Based)的方案更为合理,它能更好地理解空间、三维环境并服务于环境感知。语言无疑是有价值的,它有助于理解环境、交通规则、指令,以及进行复杂的思考和决策。

从长远来看,基于视觉和语言的原生基础模型,很可能是未来的发展趋势。

**谢炎:**如果目标是实现L3、L4级别的自动驾驶,需要解决更广泛的泛化问题,那么模型就必须具备类似人类的思考能力。在这种情况下,语言的重要性将愈发凸显,这也是未来需要巨大算力的原因之一。

如果模型仅具备视觉和动作能力,即使拥有大量数据,在遇到分布之外的特殊情况时,也可能不知所措。就好比一个动物,即使学会了所有常见情况,面对从未见过的情形也可能束手无策,无法做出正确的选择。

我们认为,越是向L3、L4级别发展,需要解决的问题就越接近那90%、95%、98%之后的部分——那些前所未见的问题,这就要求模型具备像人类一样的思考能力。而获得类似人类的推理和思考能力,其来源正是语言模型。例如,理解交警的手势,判断其意图是让你通行还是停止,这并非仅仅通过收集或生成数据就能解决的问题。

问:随着理想汽车车队规模的不断扩大,从理想内部来看,数据的边际效应是否出现了衰减?你们是如何定义“价值数据”的?

**詹锟:**首先,数据的规模必须足够庞大,其核心目的是收集更多Corner Case(长尾场景)。目前,业界有多种方法可以在车辆端部署优秀的神经网络触发器,以判断场景的难度,并将关键数据回传。这也是特斯拉在这一领域表现强大的原因之一。

其次,数据的质量至关重要,主要体现在行为的质量上。目前,业界逐渐趋向于端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),其基础都是对行为的准确理解。因此,行为数据的质量,包括其清晰度和一致性,变得尤为重要。

关于数据规模增大后边际效应是否衰减的问题,只要模型在不断提升,并且我们追求达到100分的性能,那么其增长曲线必然是“对数曲线”,呈现逐渐放缓的趋势,而非线性增长。任何一家AI公司都面临这样的情况。尽管后期数据带来的收敛速度确实会变慢,但我们依然希望通过规模化来加速这一过程。

问:马赫M100芯片能够支持多种AI场景的运行。展望未来五年或更长远的几代产品,理想汽车车内的算力中心是否有可能完全采用自主研发的马赫芯片?

**谢炎:**虽然业内存在“舱驾一体”的说法,但我们认为,舱驾一体最核心的部分在于AI算力。其他部分的整合并非那么关键。座舱系统和AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,这样可以大大提高效率。

我们的路线图最终设想是构建一个车内的AI计算中心,所有AI任务都可以在这个中心进行计算。这类似于在笔记本电脑上运行某些应用,其AI计算并非在笔记本本地完成,而是在Token Provider Server(Token供应服务器)上进行。车内也类似,将设立一个Token Server(Token服务器)。

这个Token Server的优势在于:第一,效率极高。第二,能够实现不同任务之间的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能保证不被其他任务侵占,这是通过软硬件协同设计才能实现的。

问:是否因为M100采用了数据流架构的AI推理芯片,所以相较于其他厂商的自动驾驶芯片,其对带宽的需求较低,而对片上存储的需求则更高?

**谢炎:**我们对带宽的要求确实较低,但这并非设计SRAM容量(非显存)的直接原因。当前HBM(高带宽内存)非常流行,许多人认为带宽越高越好。但计算、带宽、SRAM等都需要晶体管来实现,最终的设计是基于成本、综合性能等多方面因素权衡后的选择。

不同的架构设计,仅仅依靠一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重各有优势,但胜负并非由单一指标决定,最终比拼的是整个比赛的综合表现。

问:为何目前市面上大算力芯片方案,例如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上进行了尝试?这是出于何种原因?

**谢炎:**本质上,座舱和智能驾驶是两个独立的系统。特别是对于追求L3向L4级别发展的智能驾驶,需要一个更高确定性的系统,其内存和计算资源需要专属使用,此时融合的意义就大大降低了。因为资源无法进行实时切换,实时切换会影响其确定性。如果发展方向是资源越来越独占,那么融合的价值就不大了——即便将两个芯片集成在一起,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省幅度有限。

我们看到,目前所谓的舱驾融合系统,实际上仍然是分开运行的。它们无法做到在不同任务间快速切换。将两个芯片集成到同一颗芯片上,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省的幅度并不显著。

我的观点是,随着智能驾驶技术的发展,尤其是向更高端的L3、L4级别迈进,舱驾融合的意义将逐渐减弱。如果能将这些芯片设计得更紧凑,在一块电路板上实现小型化集成方案,这是可行的,并不一定需要集成到同一颗芯片中,也可以是将多颗芯片放置在一起。

问:自研芯片需要具备哪些条件?例如销量、营收和研发投入。考虑到目前自动驾驶迭代速度很快,芯片要实现持续迭代,又需要哪些支持?

**谢炎:**芯片的初期投入确实相当可观,可能每年需要数亿元。

首先,需要达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年有数十亿到上百亿的资金,才能支撑芯片的持续研发投入。其次,自研芯片所解决的问题,必须能够显著提升产品的竞争力。

许多人认为芯片需要巨大的出货量才能实现成本摊薄。实际上,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如理想L7/L8/L9搭载的Livis系统使用了两颗马赫M100,总面积约为800平方毫米。而一部高端手机芯片的面积大约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部高端手机的芯片面积。

如此计算下来,几十万辆车的销量所需的晶圆面积非常庞大,足以有效摊薄成本。因此,成本不能仅仅用芯片的单颗数量来衡量。

问:动态数据流编译器究竟难在哪里?攻克这一难题花费了多长时间?

**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器的工作,并在流片前成功运行了许多模型。

数据流架构与传统架构完全不同,它所要解决的问题类似于超级计算机或大规模计算机集群所面临的挑战——当规模扩展到数十万台计算机、上百万个核心时,如何实现它们之间的通信和协作,而无需一个中央管理员来管理如此庞大的核心数量。传统的冯·诺依曼架构调度方式在这种规模下是不可行的,这是一个超大规模并行调度的难题。