AI 快讯小鹏 X-Mind 发布:把"老司机的预判"塞进车端芯片
模型上新

小鹏 X-Mind 发布:把"老司机的预判"塞进车端芯片

2026-06-29T11:04:47.971Z
小鹏 X-Mind 发布:把"老司机的预判"塞进车端芯片

小鹏集团 6 月 29 日发布 X-Mind 技术框架,通过把预测性世界模型嵌入大型驾驶模型,让车载智能体在行动前先推演未来。12 帧未来场景压成 96 个 Token,这是小鹏对 VLA 2.0 算力瓶颈的正面回答。

6 月 29 日,小鹏集团甩出了一份名为 X-Mind 的技术框架,核心动作只有一个:把一个会"预测未来"的世界模型,塞进车端跑的大型驾驶模型里。

这件事翻译成开发者听得懂的话是这样的——传统 VLA(Visual-Language-Action)模型看到画面、做出动作,中间那一步推理基本是黑盒。X-Mind 要做的,是在"看"和"动"之间显式插入一段时空推演:先想象接下来几秒路上会发生什么,再据此规划自车轨迹。小鹏管这套机制叫视觉思维链(Visual CoT),并且把它压缩到了能在车规级芯片上实时跑起来的程度。

这是小鹏继 4 月发布生成式世界模型 X-World、再到 720 亿参数云端基座模型之后,整个物理 AI 体系拼图里最关键的一块。X-World 解决的是"在云端造一个仿真器",X-Mind 要解决的则是"把预测能力压到车端芯片上量产"。两者一外一内,差别就是论文和上路的差别。

X-Mind 技术框架架构示意图,预测性世界模型嵌入大型驾驶模型

不是又一个 VLA,是 VLA 上长出来的新器官

要理解 X-Mind 的价值,得先看清楚现在 VLA 模型卡在哪儿。

过去一年,端到端自动驾驶圈基本被两条路线占满。一条是直接用原始图像或视频喂给大模型,让它端到端输出动作,问题是上下文太长,车规芯片吃不消;另一条是用 3D 高斯溅射(3DGS)重建场景作为中间表示,质量是高,但推理延迟劝退量产。小鹏自己在 4 月发布 X-World 技术报告时也承认过:3DGS 在自动驾驶仿真测试中,一旦车辆出现大幅变道、绕行这种偏离原采集轨迹的行为,重建就开始崩。

X-Mind 的解法是另起一条路:既不用高清图像,也不做 3D 重建,而是构建一种叫"认知画布"的中间表示。

这块画布上有什么?小鹏列了四样东西:

  • 鸟瞰图(BEV)布局下的物理场景元素,包括车道线、障碍物
  • 动态交通灯状态
  • 自适应导航意图
  • 合规车速轮廓

注意这里面没有一个是纹理细节。换句话说,X-Mind 主动放弃了"还原世界长什么样",转而只保留"世界怎么运转"所需的核心语义先验。这个取舍是工程上的关键选择——做自动驾驶决策的时候,路面上那块广告牌的像素清晰度真的不重要,重要的是它前面那辆车下一秒会不会突然刹车。

12 帧未来,压到 96 个 Token

小鹏在技术细节上甩出了一个相当激进的数字:通过深度压缩自编码器(DC-AE),把 12 帧的未来世界推演压缩到仅 96 个 Token。

这个数量级是什么概念?粗算一下,常规视觉 Transformer 处理一帧 224×224 图像,光是图像 patch 就要几百个 token;3DGS 表示的场景则动辄上万。X-Mind 把 12 帧未来直接压到了两位数,意味着自回归推理的成本一下子降到能接受的区间。

小鹏给这块用的网络结构叫"循环块扩散机制"(recurrent block diffusion),在单次前向传播中、在不同的内部层上执行渐进式去噪步骤,最终生成紧凑的抽象草图。这块草图就是规划器的输入,规划器基于这套预期的物理未来推演,得出最优自车轨迹。

感知输入 → 大型驾驶模型
             ↓
        预测世界模型(循环块扩散)
             ↓
        96 Tokens 思维草图(BEV + 交通灯 + 导航意图 + 车速轮廓)
             ↓
           规划器 → 自车轨迹

这套流程跟传统 VLA 最大的区别在于"显式时空推演"。传统模型是看图直接做动作,X-Mind 是看图先想动作之后会发生什么、再决定动作。一句话总结就是,从应激反射变成了带预判的决策。

这个东西到底有没有用

小鹏给的对比实验数据有两个口径。

精度上,相比传统 VLA 模型,X-Mind 在横向和纵向的轨迹预测误差(ADE)都有显著降低,尤其是在复杂长尾场景下。这个不奇怪——一旦模型能预测前车急刹、匝道汇入这类高动态场景的演化,规划自然能提前介入。小鹏列举的几个典型场景包括十字路口博弈、匝道汇入、前车急刹,都是国内城区 NGP 里最容易接管的地方。

效率上,X-Mind 比原始图像方案和 3DGS 方案的推理延迟都低得多。这一条才是真正决定能不能上车的——再聪明的模型,跑不进 100 毫秒以内的预算,就只能停留在 PPT 里。小鹏明确说这套架构"具备了在资源受限的车规级芯片上量产落地的可行性",结合 6 月 11 日 G7 上首发的三颗自研图灵 AI 芯片(单颗有效算力是英伟达 Orin 的三倍、三颗协同 2200 TOPS),软硬件耦合的路线已经很清楚了。

要给 X-Mind 一个判断:它不是颠覆性的范式革命,而是一次精准的工程取舍。从学术贡献角度看,"用抽象草图代替高保真表征"这件事 Wayve、Waabi 之前都做过类似尝试;X-Mind 的价值在于把这条思路真正压到了能量产的尺寸,并且和已经在云端跑通的 X-World 形成了"训练-验证-部署"的完整闭环。

X-Mind 在复杂路口场景下的预测推演可视化

物理 AI 三件套:X-World、X-Foresight、X-Mind

X-Mind 发布之后,小鹏的物理 AI 基座模型技术体系也终于完整了。三个模型对应三种核心能力:

  • X-World:可控生成。基于视频扩散(构建于 WAN 2.2 之上),生成符合物理约束的未来多视角视频,用于闭环仿真测试、在线强化学习、数据生成。这是 4 月发布的,目前小鹏的仿真场景从一年前的 3 万增加到 50 多万个,每日仿真测试里程等效 3000 万公里实车。
  • X-Foresight:长时序推演。
  • X-Mind:主动思考。今天发布的这个,把推演压缩到车端能跑的尺寸。

三者配合的逻辑是:X-World 在云端造一个"现实世界模拟器",给 VLA 模型提供训练和验证环境;X-Mind 把推演能力蒸馏到车端,让车在实际行驶中具备类似的预判能力。这是一条相当务实的"云端训练-车端部署"路径。

何小鹏 6 月 26 日在微博上提的另一件事也值得放在一起看——联合国 WP29 缔约国会议批准了 DCAS UNR 171 series 02(对应城区 NGP 类功能的国际法规),他用的措辞是"VLA 2.0 走向全球进入确定模式"。法规通了、世界模型上车、自研芯片量产,这三件事凑齐,意味着小鹏接下来要把这套系统推向海外市场。X-World 本身就具备生成海外数据用于模型训练的能力,加速全球化落地几乎是写在路线图上的下一步。

和行业对手比,小鹏现在在哪儿

横向比一下。特斯拉 FSD 的世界模型路线主要靠超大规模视频数据 + 端到端神经网络,预测能力是隐式嵌入的,没有显式"思维链"这一层。Wayve 的 GAIA 系列是生成式世界模型代表作,但更偏研究性质,工程化部署节奏比小鹏慢。国内华为 ADS、理想 MindVLA、蔚来 NWM 也都在做类似事情,但公开披露的技术细节都不如小鹏这次完整——尤其是"12 帧压成 96 Token"这种具体到能让同行直接对标的数字。

X-Mind 的真正看点其实不是"预见未来"这个 slogan(这种话所有家都在说),而是它给出的工程化方案——尤其是抽象草图这条路。这条路如果跑通了,会影响整个端侧自动驾驶大模型的设计范式:是继续在原始视觉表征上做大力出奇迹,还是退一步、找一个对决策更友好的中间表示。

小鹏选了后者,并且给出了完整的技术证据链:720 亿参数的云端基座模型验证 Scaling Law、X-World 提供仿真和数据飞轮、X-Mind 完成车端落地。这种"先在云端不计成本造大模型,再蒸馏到车端"的玩法,跟语言大模型领域过去两年走过的路径几乎是一模一样的。从这个意义上说,自动驾驶正在被强行拉进 LLM 的发展节奏。

给开发者的几个观察点

如果你在做自动驾驶相关研发,X-Mind 这次释放的信息里有几个值得拿出来单独说的点:

  1. DC-AE 在驾驶场景的应用。深度压缩自编码器之前主要在图像生成领域用得多,把它用在驾驶决策的中间表示上是一个新方向。96 个 Token 表达 12 帧未来场景的压缩比,给后续做端侧 VLA 的团队提供了一个可以对标的数字。

  2. 循环块扩散机制。单次前向传播完成多步去噪,这个 trick 在车规芯片这种延迟敏感场景下价值很高。值得关注后续是否会出技术论文披露细节。

  3. 认知画布的语义先验设计。BEV 布局 + 交通灯 + 导航意图 + 车速轮廓这四个维度的选择,本身就是一份关于"自动驾驶决策到底需要哪些信息"的工程经验总结。开源社区做类似工作的项目可以参考。

  4. 物理 AI 体系的整合度。X-World 的训练数据反哺、X-Mind 的车端部署、自研芯片的算力支撑,整套链路打通之后,迭代速度会显著高于纯依赖供应商方案的车企。这是供应链垂直整合在 AI 时代的具体体现。

最后值得提一句的是模型生态。现在国内做大模型应用的开发者,调用各家闭源模型基本是常态需求,OpenAI Hub 这类聚合平台用一个 Key 就能切 GPT、Claude、Gemini、DeepSeek 全家桶,国内直连、兼容 OpenAI 格式,省去维护多份 SDK 和账号的麻烦。虽然 X-Mind 这种自动驾驶专用模型并不会通过 API 对外开放,但小鹏在底层用大语言模型做认知推理、用世界模型做场景生成的整体思路,对做 Agent、机器人、具身智能的同行都有参考价值。

X-Mind 不是一个故事,是一份产品交付节点。从 4 月 X-World 论文、6 月 11 日 G7 量产首发图灵芯片、6 月 26 日何小鹏喊出 VLA 2.0 走向全球,到 6 月 29 日这次 X-Mind 框架公开,三个月时间里小鹏把整套技术体系一块一块码齐了。剩下的就看真实用户用起来怎么样——预见未来这件事,最终还是要靠路上跑出来的数据说话。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: