蔚来今日开启世界模型全新版本推送，升级为「世界模型+监督微调+闭环强化学习」三层训练框架，国内首次实现智驾直出方向盘和踏板信号，连4年前的老车主也能升级。

蔚来世界模型全新版本今日推送：70万车主同步升级，端到端运动学建模上车

6月18日，蔚来正式开始推送世界模型（NWM）全新版本。这次更新覆盖超70万用户，最远能追溯到2022年买车的Banyan平台老用户——这意味着4年前花钱买车的人，今天能拿到和2026款ES9几乎一致的智驾体验。

这件事本身就值得拎出来说一句。在新势力普遍把新功能当作新车独占卖点的当下，蔚来这种「不分平台一起升」的做法，本质上是用统一的模型架构去摊薄硬件代差。当然，能这么做的前提是NX9031这套底层硬件留了足够的余量。

三层训练框架：监督微调补上了什么

上一版NWM的核心是「世界模型 + 闭环强化学习」。世界模型负责长时序推理，能在100ms内推演216种轨迹可能；闭环强化学习负责在仿真环境里反复试错，让模型理解驾驶常识。

但这套架构跑了大半年，蔚来团队应该是发现了一个老问题：强化学习能让模型「不出事」，却不一定能让模型「开得像人」。RL的奖励函数再怎么精雕细琢，本质上还是在做指标优化，最后训练出来的策略往往是「合规但生硬」——刹车点准，但刹得不舒服；变道时机对，但姿态不像老司机。

这次升级加进来的中间层，就是监督微调（SFT）。三层结构变成：

世界模型：理解物理世界、推演未来，提供生成式的场景表征
监督微调：用高质量人类驾驶行为数据做精细的行为雕刻
闭环强化学习：在仿真世界里跑出下限、保障合规

熟悉LLM训练流程的人对这个组合不会陌生——基本就是Pre-train → SFT → RLHF的自动驾驶版翻译。SFT这一层的价值在于，它直接把「类人行为」作为模仿目标灌进模型，不绕弯路。RL擅长的是从0分跑到80分，SFT擅长的是把80分的「机器味」磨成90分的「人味」。

蔚来官方的说法是，三层框架让模型「同时具备下限高、拟人、合规」三个特性。翻译一下：RL保下限，SFT给拟人，世界模型负责合规和泛化。各司其职。

直出方向盘和踏板：拿掉中间那根轨迹

这次版本最硬核的技术点，是国内首个直接输出方向盘转角和加减速踏板信号的智驾系统。

要理解这件事的分量，得先看传统智驾的链路：

传感器输入 → 感知 → 预测 → 规划（输出轨迹）→ 控制（轨迹→方向盘+踏板）→ 车辆执行

即便是所谓「端到端」的方案，绝大多数也只是把感知-预测-规划合并到一个模型里，最后吐出的还是一条采样轨迹，再交给一个独立的控制模块去翻译成方向盘转角和踏板开度。

问题在哪？轨迹是一种「中间表征」。它假设车辆能够精确跟踪这条轨迹，但实车上的横向动力学、轮胎抓地、坡度风阻全是变量，控制器再厉害也会有跟踪误差。更麻烦的是，轨迹规划层并不知道控制层能跟得多准，于是规划出来的「最优轨迹」在执行时往往打折扣。

蔚来的做法是把轨迹这一层直接拿掉，让模型从传感器数据一路推到方向盘转角和踏板信号——这才是真正意义上的端到端运动学建模。

好处有三个：

路径更短：少一层中间表征，信息损耗更小
延迟更低：减少一次推理-翻译的转换
控车更细腻：模型在训练时直接看到「人类是怎么打方向、怎么踩刹车」的，学到的是端到端的运动闭环

这跟当年机器翻译从「短语统计 → 神经端到端」的跃迁逻辑一模一样：中间表征越多，误差累积越大；让模型自己学完整的映射，效果反而更好。

当然代价也明显——可解释性下降，调试难度上升。失败模式不再是「规划层判断错了」或者「控制层超调了」，而是一个黑盒里的某个梯度方向不对。蔚来敢推这套，多半是闭环仿真（NSim）那一套数据基建撑得住。

天空路牌识别：把高精地图的最后一块功能也吃掉

潮汐车道、可变车道这类场景，过去是高精地图最后的护城河之一——因为它们的规则是动态的，靠预先标注的地图根本搞不定，必须实时识别头顶上方那块电子路牌当下的指示。

蔚来这次宣称是车企自研里首个实现潮汐车道、可变车道天空路牌实时识别的智驾系统。在不依赖高精地图、不依赖增强导航的前提下，硬靠摄像头+模型把这层语义抽出来。

这事的意义在于，它进一步压缩了「图商方案」的生存空间。当模型能从原始像素里读懂路牌的实时含义，地图供应商提供的「车道级先验」就只剩下冗余校验的价值。

拟人感和误刹车：一对矛盾指标

官方还甩出一个有点意思的提法：误刹车与风险干预这两个相互矛盾的指标，同时做到「行业领先」。

做过ADAS的都懂这俩为什么矛盾。要降低风险干预（漏检），系统就得更激进地把可疑目标当真目标处理，结果就是误刹车（误检）上升；反过来要降低误刹车，就得提高触发阈值，漏检自然增多。这是一对天生的trade-off。

传统方案里，工程师只能在ROC曲线上挑一个相对舒服的工作点。要让两个指标同时往下走，唯一的办法是把整条ROC曲线整体压低，也就是模型本身的判别能力要有质变。

蔚来给出的解法是世界模型的长时序预判能力——简单说，不再依赖「这一帧的目标够不够危险」来决策，而是「这个目标在未来3秒内的行为可能性」来决策。预判越准，工作点选择空间越大。

这一点上，世界模型相比纯感知端到端确实有结构性优势。它天生就是为「想象未来」设计的。

顺便聊聊：为什么车企扎堆世界模型

2024年下半年开始，世界模型基本成了智驾圈的政治正确——蔚来NWM、理想MindVLA、小鹏XNGP的下一代架构，都在往这个方向收敛。

根本原因是端到端方案撞到了天花板。纯模仿学习（IL）的端到端，依赖海量驾驶视频做行为克隆，但路上的corner case永远刷不完，而且模仿学习有个致命的分布漂移问题——模型自己开偏一点点，就进入了训练数据从未见过的状态空间，越开越偏。

世界模型的解法是「在脑子里开车」。把驾驶过程拆成「想象一步 → 评估 → 行动」的循环，让模型在仿真世界里反复跑长尾场景。本质上是用生成式模型造数据，喂强化学习。

蔚来的优势是NSim这套生成式仿真模型铺得早，加上群体智能拉回来的真实场景数据，形成了一个相对完整的数据飞轮。这次SFT层能做精细行为雕刻，前提也是「高质量人类驾驶行为数据」够多够干净。

一点小评价

这次更新里，「直出方向盘和踏板」是最值得关注的技术细节，因为它真正改变了智驾的控制范式。SFT补进训练框架是工程意义上的稳健选择，称不上惊艳但很对路。天空路牌识别更多是产品层面的差异化卖点。

70万用户同步升级、4年老车主一起吃肉，这个调性在国内厂商里算是相当克制和体面的做法。当然，蔚来真正要回答的问题，是从「拟人辅助驾驶」走到「真正放手开」中间那一段——SFT和RL组合能不能跨过去，下一年才能见分晓。

顺带一提，对于想做多模型对比、把这类智驾模型推理输出和大语言模型规划层接起来的开发者，OpenAI Hub（openai-hub.com）一个Key就能调GPT、Claude、Gemini、DeepSeek全家桶，国内直连、兼容OpenAI格式，可以省掉好几套SDK的接入麻烦。

参考来源

蔚来世界模型全新版本开启推送：超70万用户同步升级，4年前车主也能升 - IT之家：6月18日推送官方信息一手报道
蔚来ES9官宣首发蔚来世界模型全新版本，6月同步推送至Banyan - IT之家：5月预告稿，详述三层训练框架和端到端运动学建模背景
踏实用、放心开，「蔚来世界模型NWM」全新版本正式推送 - 知乎专栏：蔚来官方技术解读，含「世界模型+闭环强化学习」研发范式说明

蔚来世界模型大更新：70万车主同步升级，直出方向盘信号

蔚来世界模型全新版本今日推送：70万车主同步升级，端到端运动学建模上车

三层训练框架：监督微调补上了什么

直出方向盘和踏板：拿掉中间那根轨迹

天空路牌识别：把高精地图的最后一块功能也吃掉

拟人感和误刹车：一对矛盾指标

顺便聊聊：为什么车企扎堆世界模型

一点小评价

参考来源

相关推荐

腾讯给Agent发了张邮箱身份证：Agently Mail上线

科创板第五套标准放行大模型，智谱、MiniMax回A加速

ChatGPT定时任务上线：精准调度、周期执行，Pulse两周后退场

联系我们