Momenta R7量产首发,物理AI不再是概念

模型上新

Momenta 在北京车展正式发布 R7 强化学习世界模型并宣布量产首发,这是全球首个将世界模型大规模落地到智能驾驶的案例,标志着物理 AI 从论文走向了车轮上的现实。

Momenta R7 量产首发:物理 AI 终于不只是 PPT 上的概念了

昨天(4 月 25 日),北京国际车展,Momenta 正式宣布 R7 强化学习世界模型实现量产首发。

一句话概括这件事的分量:这是全球范围内,第一次有公司把「世界模型」这个被学术界和产业界反复讨论了两年多的概念,真正塞进了量产车里。不是 demo,不是限定场景的技术验证,而是已经交付超过 70 款车型、累计定点超 200 款的规模化落地。

这个节点值得认真聊聊。

Momenta R7 强化学习世界模型发布会现场,CEO 曹旭东与三位合伙人同台

世界模型到底在解决什么问题

先说背景。过去几年智能驾驶的主流范式,本质上是一个感知-规划-控制的流水线:摄像头和雷达负责「看见」,感知模块把原始数据变成结构化信息(车道线在哪、前车距离多少),然后规划模块基于规则或学习到的策略做决策。

这套方案能跑,但天花板很明显。

举个例子:前方一辆货车急刹,旁边车道有辆车正在加速超车。传统方案能识别出这两个目标的位置和速度,但它很难「推演」接下来 2-3 秒世界会变成什么样——那辆超车的车会不会突然变道?货车后面会不会有行人窜出来?这些需要对物理世界的因果关系有深层理解,而不仅仅是对当前帧做目标检测。

这就是世界模型要解决的事。

如果说大语言模型(LLM)的核心能力是 Next Token Prediction——通过预测下一个词来压缩人类语言的常识和逻辑,那世界模型做的就是 World Model Prediction——预测物理世界下一个时刻的状态。前者让 AI 学会了「说人话」,后者要让 AI 学会「理解物理世界怎么运转」。

这个类比是 Momenta CEO 曹旭东在发布会上提出的,坦率说,这可能是目前对世界模型最直觉化的解释之一。

R7 的三层架构:从预训练到强化学习

Momenta 合伙人、研发 SVP 夏炎在发布会上拆解了 R7 的技术架构。整个世界模型分三层,层层递进:

第一层:世界模型预训练

用海量真实驾驶数据做预训练,把物理规律、驾驶常识、因果关系压缩进模型参数里。

这一步和 LLM 的预训练逻辑高度一致——GPT 系列通过吃掉互联网上的文本数据来学习语言规律,Momenta 的世界模型则通过吃掉海量驾驶场景数据来学习物理规律。区别在于,文本是一维序列,而驾驶场景是三维空间加上时间维度的四维数据,复杂度高了不止一个量级。

这一层解决的是「基础认知」问题:车辆在湿滑路面刹车距离会变长、行人走到路边可能会过马路、大货车有视觉盲区……这些人类驾驶员靠经验积累的常识,模型要从数据中自己学出来。

第二层:世界模型仿真

把训练好的世界模型用于闭环仿真——让系统能够推演「如果我做了不同的决策,世界会怎么变化」。

这一层的价值在于解决长尾场景问题。智能驾驶最难的不是 99% 的常规场景,而是那 1% 的极端情况:逆行的电动车、突然掉落的货物、施工区域的临时改道。这些场景在真实道路上出现的概率很低,但一旦处理不好就是事故。

传统做法是靠路测里程去「碰」这些场景,效率极低。有了世界模型仿真,系统可以在虚拟环境中高效生成和推演这些长尾场景,评估自身在各种极端情况下的表现。这有点像 AlphaGo 在虚拟棋盘上自我对弈——不需要等真实对手,自己就能快速迭代。

第三层:在世界模型中做强化学习

这是 R7 最核心的创新点,也是名字里「强化学习」三个字的由来。

前两层搭好了一个高度真实的虚拟训练场,第三层就是让 AI 在这个训练场里反复探索、试错、优化。强化学习的逻辑大家都熟悉——给一个奖励函数,让 agent 自己摸索出最优策略。但强化学习对环境的真实度要求极高,环境不够真实,学出来的策略到了真实世界就会「水土不服」。

这就是为什么前两层是基础:预训练保证了世界模型对物理规律的理解足够深,仿真层保证了虚拟环境足够逼真。在这个基础上做强化学习,AI 才能学到真正可迁移到现实世界的驾驶策略。

用一个不太严谨但足够直觉的类比:第一层是让 AI 读完了所有驾校教材,第二层是给它造了一个无限逼真的模拟驾驶器,第三层是让它在模拟器里练了几百万小时。

Momenta R7 三层世界模型架构示意图,展示从预训练到仿真到强化学习的递进关系

量产数据说话

技术架构讲得再漂亮,最终要看落地。

Momenta 给出的数据是:已成功交付超过 70 款量产车型,累计定点车型数超过 200 款。本次北京车展上,超过 20 个品牌、共 60 余款车型搭载了 Momenta 的智能辅助驾驶方案,覆盖自主品牌和中外合资品牌。

这组数字的含金量在于「量产」二字。智能驾驶行业不缺技术 demo,缺的是能过车规、能上产线、能在几十个品牌几百款车型上稳定运行的工程化能力。70 款已交付、200 款定点,说明 Momenta 的方案已经通过了主机厂最严苛的验证流程。

做个对比:目前全球范围内,能拿出类似量产规模的智驾供应商屈指可数。特斯拉的 FSD 只服务自家车型;华为的 ADS 主要绑定问界和部分合作品牌;Mobileye 的量产规模大但技术路线偏传统。Momenta 走的是「广撒网」的 Tier 1 路线,同时在技术上押注了世界模型这个更前沿的方向,这个组合在行业里确实比较少见。

为什么是现在

世界模型的概念不新。Yann LeCun 早在 2022 年就在反复鼓吹世界模型是通往 AGI 的关键路径,学术界相关论文更是汗牛充栋。但为什么直到 2026 年春天,才有人真正把它做到量产?

几个条件在最近一两年才同时成熟:

  • 算力。世界模型的训练和推理对算力的需求远超传统感知模型。车端芯片的算力在过去两年有了显著提升,英伟达 Orin/Thor、地平线征程 6 等平台让车端运行复杂模型成为可能。

  • 数据。世界模型需要海量、多样、高质量的驾驶数据。Momenta 通过量产车型的数据回传,已经积累了足够规模的数据飞轮——车卖得越多,数据越多,模型越好,反过来又能拿到更多车型定点。

  • Scaling Law 在物理 AI 领域的验证。过去一年,越来越多的实验表明,类似 LLM 领域的 Scaling Law 在世界模型上同样成立——更多数据、更大模型、更多算力,确实能带来可预测的性能提升。这给了产业界足够的信心去做大规模投入。

  • 强化学习的工程化突破。从 DeepSeek-R1 到 OpenAI 的 o 系列模型,强化学习在 2025 年经历了一轮工程化的大爆发。这些经验和方法论可以迁移到物理 AI 领域,降低了落地门槛。

「从看见到理解」意味着什么

Momenta 官方用了一个说法:智能驾驶从「看见世界」到「理解世界」的跨越。

这不只是营销话术。传统感知方案本质上是在做模式匹配——这个像素块是车、那个像素块是行人。世界模型做的是因果推理——这辆车正在加速,前方有红灯,所以它大概率会在 50 米内开始减速;如果它没减速,那可能是刹车失灵或者驾驶员走神,我需要提前做好避让准备。

这种能力的差距,在简单场景下可能体现不出来,但在复杂博弈场景下会非常明显。比如在没有红绿灯的路口,多辆车需要互相博弈通行顺序;比如在狭窄的城中村道路,需要和行人、电动车、三轮车在有限空间里「谈判」。这些场景需要的不是更精确的目标检测,而是对其他交通参与者意图的预判和对物理世界规律的深层理解。

这也是为什么 Momenta 把这次发布定义为「物理 AI 序章」——R7 是第一步,但绝不是终点。如果世界模型的路线被验证可行,它的应用范围远不止自动驾驶:机器人、工业自动化、甚至游戏和仿真,任何需要 AI 理解和预测物理世界的场景都可能受益。

冷静看几个问题

当然,也不能只听好的。几个值得关注的问题:

车端推理的算力约束。世界模型的推理计算量远大于传统方案,在车端有限的算力预算下,模型能做到多大、推理能做到多快,直接决定了实际体验。Momenta 没有公布 R7 在车端的具体推理延迟和算力占用数据,这一点后续需要关注。

仿真到现实的 gap。在世界模型中做强化学习,核心假设是仿真环境足够逼真。但 sim-to-real gap 是机器人和自动驾驶领域的老问题了,世界模型能把这个 gap 缩小到什么程度,还需要大规模路测数据来验证。

安全兜底机制。世界模型是端到端的思路,决策过程的可解释性天然弱于传统的模块化方案。在安全关键的驾驶场景中,如何设计兜底机制、如何满足法规要求,是所有走端到端路线的公司都需要回答的问题。

行业格局的变化

把视角拉远一点看,Momenta R7 的发布是 2026 年智能驾驶行业一个重要的信号:世界模型路线正在从学术共识变成产业共识。

特斯拉的 FSD V13 已经在用类似的端到端思路;华为在去年底也透露了世界模型相关的研发进展;小鹏、蔚来等新势力都在加大对世界模型的投入。但 Momenta 是第一个明确打出「世界模型量产」旗号的,而且有 70+ 款交付车型的数据背书。

这对整个行业的影响可能是:世界模型从「要不要做」变成了「怎么做」和「多快能做出来」的问题。那些还在犹豫的主机厂和供应商,可能会加速跟进。

对开发者来说,物理 AI 正在成为一个越来越值得关注的方向。世界模型的训练需要大规模的数据处理、分布式训练、仿真环境搭建等基础设施,这些都是技术密集型的工程挑战。如果你在做相关方向的研究或开发,Momenta R7 的落地至少证明了一件事:这条路走得通,而且已经有人走到了量产阶段。


物理 AI 的故事才刚开始。R7 是序章,但序章已经足够让人认真对待这个方向了。


参考来源