AI 快讯蔚来世界模型大更新:70万车主同步升级,直出方向盘信号
模型上新

蔚来世界模型大更新:70万车主同步升级,直出方向盘信号

2026-06-18T04:04:53.110Z

蔚来今日开启世界模型全新版本推送,升级为「世界模型+监督微调+闭环强化学习」三层训练框架,国内首次实现智驾直出方向盘和踏板信号,连4年前的老车主也能升级。

蔚来世界模型全新版本今日推送:70万车主同步升级,端到端运动学建模上车

6月18日,蔚来正式开始推送世界模型(NWM)全新版本。这次更新覆盖超70万用户,最远能追溯到2022年买车的Banyan平台老用户——这意味着4年前花钱买车的人,今天能拿到和2026款ES9几乎一致的智驾体验。

这件事本身就值得拎出来说一句。在新势力普遍把新功能当作新车独占卖点的当下,蔚来这种「不分平台一起升」的做法,本质上是用统一的模型架构去摊薄硬件代差。当然,能这么做的前提是NX9031这套底层硬件留了足够的余量。

三层训练框架:监督微调补上了什么

上一版NWM的核心是「世界模型 + 闭环强化学习」。世界模型负责长时序推理,能在100ms内推演216种轨迹可能;闭环强化学习负责在仿真环境里反复试错,让模型理解驾驶常识。

但这套架构跑了大半年,蔚来团队应该是发现了一个老问题:强化学习能让模型「不出事」,却不一定能让模型「开得像人」。RL的奖励函数再怎么精雕细琢,本质上还是在做指标优化,最后训练出来的策略往往是「合规但生硬」——刹车点准,但刹得不舒服;变道时机对,但姿态不像老司机。

这次升级加进来的中间层,就是监督微调(SFT)。三层结构变成:

  • 世界模型:理解物理世界、推演未来,提供生成式的场景表征
  • 监督微调:用高质量人类驾驶行为数据做精细的行为雕刻
  • 闭环强化学习:在仿真世界里跑出下限、保障合规

熟悉LLM训练流程的人对这个组合不会陌生——基本就是Pre-train → SFT → RLHF的自动驾驶版翻译。SFT这一层的价值在于,它直接把「类人行为」作为模仿目标灌进模型,不绕弯路。RL擅长的是从0分跑到80分,SFT擅长的是把80分的「机器味」磨成90分的「人味」。

蔚来官方的说法是,三层框架让模型「同时具备下限高、拟人、合规」三个特性。翻译一下:RL保下限,SFT给拟人,世界模型负责合规和泛化。各司其职。

直出方向盘和踏板:拿掉中间那根轨迹

这次版本最硬核的技术点,是国内首个直接输出方向盘转角和加减速踏板信号的智驾系统。

要理解这件事的分量,得先看传统智驾的链路:

传感器输入 → 感知 → 预测 → 规划(输出轨迹)→ 控制(轨迹→方向盘+踏板)→ 车辆执行

即便是所谓「端到端」的方案,绝大多数也只是把感知-预测-规划合并到一个模型里,最后吐出的还是一条采样轨迹,再交给一个独立的控制模块去翻译成方向盘转角和踏板开度。

问题在哪?轨迹是一种「中间表征」。它假设车辆能够精确跟踪这条轨迹,但实车上的横向动力学、轮胎抓地、坡度风阻全是变量,控制器再厉害也会有跟踪误差。更麻烦的是,轨迹规划层并不知道控制层能跟得多准,于是规划出来的「最优轨迹」在执行时往往打折扣。

蔚来的做法是把轨迹这一层直接拿掉,让模型从传感器数据一路推到方向盘转角和踏板信号——这才是真正意义上的端到端运动学建模。

好处有三个:

  1. 路径更短:少一层中间表征,信息损耗更小
  2. 延迟更低:减少一次推理-翻译的转换
  3. 控车更细腻:模型在训练时直接看到「人类是怎么打方向、怎么踩刹车」的,学到的是端到端的运动闭环

这跟当年机器翻译从「短语统计 → 神经端到端」的跃迁逻辑一模一样:中间表征越多,误差累积越大;让模型自己学完整的映射,效果反而更好。

当然代价也明显——可解释性下降,调试难度上升。失败模式不再是「规划层判断错了」或者「控制层超调了」,而是一个黑盒里的某个梯度方向不对。蔚来敢推这套,多半是闭环仿真(NSim)那一套数据基建撑得住。

天空路牌识别:把高精地图的最后一块功能也吃掉

潮汐车道、可变车道这类场景,过去是高精地图最后的护城河之一——因为它们的规则是动态的,靠预先标注的地图根本搞不定,必须实时识别头顶上方那块电子路牌当下的指示。

蔚来这次宣称是车企自研里首个实现潮汐车道、可变车道天空路牌实时识别的智驾系统。在不依赖高精地图、不依赖增强导航的前提下,硬靠摄像头+模型把这层语义抽出来。

这事的意义在于,它进一步压缩了「图商方案」的生存空间。当模型能从原始像素里读懂路牌的实时含义,地图供应商提供的「车道级先验」就只剩下冗余校验的价值。

拟人感和误刹车:一对矛盾指标

官方还甩出一个有点意思的提法:误刹车与风险干预这两个相互矛盾的指标,同时做到「行业领先」

做过ADAS的都懂这俩为什么矛盾。要降低风险干预(漏检),系统就得更激进地把可疑目标当真目标处理,结果就是误刹车(误检)上升;反过来要降低误刹车,就得提高触发阈值,漏检自然增多。这是一对天生的trade-off。

传统方案里,工程师只能在ROC曲线上挑一个相对舒服的工作点。要让两个指标同时往下走,唯一的办法是把整条ROC曲线整体压低,也就是模型本身的判别能力要有质变。

蔚来给出的解法是世界模型的长时序预判能力——简单说,不再依赖「这一帧的目标够不够危险」来决策,而是「这个目标在未来3秒内的行为可能性」来决策。预判越准,工作点选择空间越大。

这一点上,世界模型相比纯感知端到端确实有结构性优势。它天生就是为「想象未来」设计的。

顺便聊聊:为什么车企扎堆世界模型

2024年下半年开始,世界模型基本成了智驾圈的政治正确——蔚来NWM、理想MindVLA、小鹏XNGP的下一代架构,都在往这个方向收敛。

根本原因是端到端方案撞到了天花板。纯模仿学习(IL)的端到端,依赖海量驾驶视频做行为克隆,但路上的corner case永远刷不完,而且模仿学习有个致命的分布漂移问题——模型自己开偏一点点,就进入了训练数据从未见过的状态空间,越开越偏。

世界模型的解法是「在脑子里开车」。把驾驶过程拆成「想象一步 → 评估 → 行动」的循环,让模型在仿真世界里反复跑长尾场景。本质上是用生成式模型造数据,喂强化学习。

蔚来的优势是NSim这套生成式仿真模型铺得早,加上群体智能拉回来的真实场景数据,形成了一个相对完整的数据飞轮。这次SFT层能做精细行为雕刻,前提也是「高质量人类驾驶行为数据」够多够干净。

一点小评价

这次更新里,「直出方向盘和踏板」是最值得关注的技术细节,因为它真正改变了智驾的控制范式。SFT补进训练框架是工程意义上的稳健选择,称不上惊艳但很对路。天空路牌识别更多是产品层面的差异化卖点。

70万用户同步升级、4年老车主一起吃肉,这个调性在国内厂商里算是相当克制和体面的做法。当然,蔚来真正要回答的问题,是从「拟人辅助驾驶」走到「真正放手开」中间那一段——SFT和RL组合能不能跨过去,下一年才能见分晓。

顺带一提,对于想做多模型对比、把这类智驾模型推理输出和大语言模型规划层接起来的开发者,OpenAI Hub(openai-hub.com)一个Key就能调GPT、Claude、Gemini、DeepSeek全家桶,国内直连、兼容OpenAI格式,可以省掉好几套SDK的接入麻烦。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: