小鹏发布 X-Mind 预测性世界模型：12 帧未来压成 96 Token 上车

小鹏集团 6 月 29 日发布 X-Mind 技术框架，通过把预测性世界模型嵌入大型驾驶模型，让车载智能体在行动前先推演未来。12 帧未来场景压成 96 个 Token，这是小鹏对 VLA 2.0 算力瓶颈的正面回答。

6 月 29 日，小鹏集团甩出了一份名为 X-Mind 的技术框架，核心动作只有一个：把一个会"预测未来"的世界模型，塞进车端跑的大型驾驶模型里。

这件事翻译成开发者听得懂的话是这样的——传统 VLA（Visual-Language-Action）模型看到画面、做出动作，中间那一步推理基本是黑盒。X-Mind 要做的，是在"看"和"动"之间显式插入一段时空推演：先想象接下来几秒路上会发生什么，再据此规划自车轨迹。小鹏管这套机制叫视觉思维链（Visual CoT），并且把它压缩到了能在车规级芯片上实时跑起来的程度。

这是小鹏继 4 月发布生成式世界模型 X-World、再到 720 亿参数云端基座模型之后，整个物理 AI 体系拼图里最关键的一块。X-World 解决的是"在云端造一个仿真器"，X-Mind 要解决的则是"把预测能力压到车端芯片上量产"。两者一外一内，差别就是论文和上路的差别。

X-Mind 技术框架架构示意图，预测性世界模型嵌入大型驾驶模型

不是又一个 VLA，是 VLA 上长出来的新器官

要理解 X-Mind 的价值，得先看清楚现在 VLA 模型卡在哪儿。

过去一年，端到端自动驾驶圈基本被两条路线占满。一条是直接用原始图像或视频喂给大模型，让它端到端输出动作，问题是上下文太长，车规芯片吃不消；另一条是用 3D 高斯溅射（3DGS）重建场景作为中间表示，质量是高，但推理延迟劝退量产。小鹏自己在 4 月发布 X-World 技术报告时也承认过：3DGS 在自动驾驶仿真测试中，一旦车辆出现大幅变道、绕行这种偏离原采集轨迹的行为，重建就开始崩。

X-Mind 的解法是另起一条路：既不用高清图像，也不做 3D 重建，而是构建一种叫"认知画布"的中间表示。

这块画布上有什么？小鹏列了四样东西：

鸟瞰图（BEV）布局下的物理场景元素，包括车道线、障碍物
动态交通灯状态
自适应导航意图
合规车速轮廓

注意这里面没有一个是纹理细节。换句话说，X-Mind 主动放弃了"还原世界长什么样"，转而只保留"世界怎么运转"所需的核心语义先验。这个取舍是工程上的关键选择——做自动驾驶决策的时候，路面上那块广告牌的像素清晰度真的不重要，重要的是它前面那辆车下一秒会不会突然刹车。

12 帧未来，压到 96 个 Token

小鹏在技术细节上甩出了一个相当激进的数字：通过深度压缩自编码器（DC-AE），把 12 帧的未来世界推演压缩到仅 96 个 Token。

这个数量级是什么概念？粗算一下，常规视觉 Transformer 处理一帧 224×224 图像，光是图像 patch 就要几百个 token；3DGS 表示的场景则动辄上万。X-Mind 把 12 帧未来直接压到了两位数，意味着自回归推理的成本一下子降到能接受的区间。

小鹏给这块用的网络结构叫"循环块扩散机制"（recurrent block diffusion），在单次前向传播中、在不同的内部层上执行渐进式去噪步骤，最终生成紧凑的抽象草图。这块草图就是规划器的输入，规划器基于这套预期的物理未来推演，得出最优自车轨迹。

感知输入 → 大型驾驶模型
             ↓
        预测世界模型（循环块扩散）
             ↓
        96 Tokens 思维草图（BEV + 交通灯 + 导航意图 + 车速轮廓）
             ↓
           规划器 → 自车轨迹

这套流程跟传统 VLA 最大的区别在于"显式时空推演"。传统模型是看图直接做动作，X-Mind 是看图先想动作之后会发生什么、再决定动作。一句话总结就是，从应激反射变成了带预判的决策。

这个东西到底有没有用

小鹏给的对比实验数据有两个口径。

精度上，相比传统 VLA 模型，X-Mind 在横向和纵向的轨迹预测误差（ADE）都有显著降低，尤其是在复杂长尾场景下。这个不奇怪——一旦模型能预测前车急刹、匝道汇入这类高动态场景的演化，规划自然能提前介入。小鹏列举的几个典型场景包括十字路口博弈、匝道汇入、前车急刹，都是国内城区 NGP 里最容易接管的地方。

效率上，X-Mind 比原始图像方案和 3DGS 方案的推理延迟都低得多。这一条才是真正决定能不能上车的——再聪明的模型，跑不进 100 毫秒以内的预算，就只能停留在 PPT 里。小鹏明确说这套架构"具备了在资源受限的车规级芯片上量产落地的可行性"，结合 6 月 11 日 G7 上首发的三颗自研图灵 AI 芯片（单颗有效算力是英伟达 Orin 的三倍、三颗协同 2200 TOPS），软硬件耦合的路线已经很清楚了。

要给 X-Mind 一个判断：它不是颠覆性的范式革命，而是一次精准的工程取舍。从学术贡献角度看，"用抽象草图代替高保真表征"这件事 Wayve、Waabi 之前都做过类似尝试；X-Mind 的价值在于把这条思路真正压到了能量产的尺寸，并且和已经在云端跑通的 X-World 形成了"训练-验证-部署"的完整闭环。

X-Mind 在复杂路口场景下的预测推演可视化

物理 AI 三件套：X-World、X-Foresight、X-Mind

X-Mind 发布之后，小鹏的物理 AI 基座模型技术体系也终于完整了。三个模型对应三种核心能力：

X-World：可控生成。基于视频扩散（构建于 WAN 2.2 之上），生成符合物理约束的未来多视角视频，用于闭环仿真测试、在线强化学习、数据生成。这是 4 月发布的，目前小鹏的仿真场景从一年前的 3 万增加到 50 多万个，每日仿真测试里程等效 3000 万公里实车。
X-Foresight：长时序推演。
X-Mind：主动思考。今天发布的这个，把推演压缩到车端能跑的尺寸。

三者配合的逻辑是：X-World 在云端造一个"现实世界模拟器"，给 VLA 模型提供训练和验证环境；X-Mind 把推演能力蒸馏到车端，让车在实际行驶中具备类似的预判能力。这是一条相当务实的"云端训练-车端部署"路径。

何小鹏 6 月 26 日在微博上提的另一件事也值得放在一起看——联合国 WP29 缔约国会议批准了 DCAS UNR 171 series 02（对应城区 NGP 类功能的国际法规），他用的措辞是"VLA 2.0 走向全球进入确定模式"。法规通了、世界模型上车、自研芯片量产，这三件事凑齐，意味着小鹏接下来要把这套系统推向海外市场。X-World 本身就具备生成海外数据用于模型训练的能力，加速全球化落地几乎是写在路线图上的下一步。

和行业对手比，小鹏现在在哪儿

横向比一下。特斯拉 FSD 的世界模型路线主要靠超大规模视频数据 + 端到端神经网络，预测能力是隐式嵌入的，没有显式"思维链"这一层。Wayve 的 GAIA 系列是生成式世界模型代表作，但更偏研究性质，工程化部署节奏比小鹏慢。国内华为 ADS、理想 MindVLA、蔚来 NWM 也都在做类似事情，但公开披露的技术细节都不如小鹏这次完整——尤其是"12 帧压成 96 Token"这种具体到能让同行直接对标的数字。

X-Mind 的真正看点其实不是"预见未来"这个 slogan（这种话所有家都在说），而是它给出的工程化方案——尤其是抽象草图这条路。这条路如果跑通了，会影响整个端侧自动驾驶大模型的设计范式：是继续在原始视觉表征上做大力出奇迹，还是退一步、找一个对决策更友好的中间表示。

小鹏选了后者，并且给出了完整的技术证据链：720 亿参数的云端基座模型验证 Scaling Law、X-World 提供仿真和数据飞轮、X-Mind 完成车端落地。这种"先在云端不计成本造大模型，再蒸馏到车端"的玩法，跟语言大模型领域过去两年走过的路径几乎是一模一样的。从这个意义上说，自动驾驶正在被强行拉进 LLM 的发展节奏。

给开发者的几个观察点

如果你在做自动驾驶相关研发，X-Mind 这次释放的信息里有几个值得拿出来单独说的点：

DC-AE 在驾驶场景的应用。深度压缩自编码器之前主要在图像生成领域用得多，把它用在驾驶决策的中间表示上是一个新方向。96 个 Token 表达 12 帧未来场景的压缩比，给后续做端侧 VLA 的团队提供了一个可以对标的数字。
循环块扩散机制。单次前向传播完成多步去噪，这个 trick 在车规芯片这种延迟敏感场景下价值很高。值得关注后续是否会出技术论文披露细节。
认知画布的语义先验设计。BEV 布局 + 交通灯 + 导航意图 + 车速轮廓这四个维度的选择，本身就是一份关于"自动驾驶决策到底需要哪些信息"的工程经验总结。开源社区做类似工作的项目可以参考。
物理 AI 体系的整合度。X-World 的训练数据反哺、X-Mind 的车端部署、自研芯片的算力支撑，整套链路打通之后，迭代速度会显著高于纯依赖供应商方案的车企。这是供应链垂直整合在 AI 时代的具体体现。

最后值得提一句的是模型生态。现在国内做大模型应用的开发者，调用各家闭源模型基本是常态需求，OpenAI Hub 这类聚合平台用一个 Key 就能切 GPT、Claude、Gemini、DeepSeek 全家桶，国内直连、兼容 OpenAI 格式，省去维护多份 SDK 和账号的麻烦。虽然 X-Mind 这种自动驾驶专用模型并不会通过 API 对外开放，但小鹏在底层用大语言模型做认知推理、用世界模型做场景生成的整体思路，对做 Agent、机器人、具身智能的同行都有参考价值。

X-Mind 不是一个故事，是一份产品交付节点。从 4 月 X-World 论文、6 月 11 日 G7 量产首发图灵芯片、6 月 26 日何小鹏喊出 VLA 2.0 走向全球，到 6 月 29 日这次 X-Mind 框架公开，三个月时间里小鹏把整套技术体系一块一块码齐了。剩下的就看真实用户用起来怎么样——预见未来这件事，最终还是要靠路上跑出来的数据说话。

参考来源

IT之家：小鹏集团发布 X-Mind，宣称让自动驾驶拥有"预见未来"的大脑 - 本次 X-Mind 发布的核心报道，包含架构、压缩比、实验数据等关键细节
知乎专栏：小鹏在 CVPR 上公开世界模型家底 - 小鹏 CVPR 2025 演讲技术细节解读，含双重目标并线学习等内容

小鹏 X-Mind 发布：把"老司机的预判"塞进车端芯片

不是又一个 VLA，是 VLA 上长出来的新器官

12 帧未来，压到 96 个 Token

这个东西到底有没有用

物理 AI 三件套：X-World、X-Foresight、X-Mind

和行业对手比，小鹏现在在哪儿

给开发者的几个观察点

参考来源

相关推荐

Agnes AI 把视频创作免费做到底：Pavo 平台上线，一句话出片

百度开源 Unlimited OCR：500M 激活干翻千亿大模型

芬兰押注AI重构公共部门：2031年裁员与提效并行

联系我们