微软研究院最新提出Next-Latent Prediction方法，在next-token预测之外让Transformer预测自身下一个潜在状态，推理速度最高提升3.3倍，同时显著增强长程推理能力。

微软抛出NextLat：让Transformer不再"目光短浅"，长程推理和推理速度一起拿

这两天 r/MachineLearning 上一篇微软研究院的预印本被翻出来反复讨论，标题很挑衅——Next-Token Prediction is Myopic（下一个 token 预测是近视的）。微软研究院联合外部研究者抛出一个叫 Next-Latent Prediction（NextLat） 的自监督训练目标，核心思路一句话能讲清楚：除了让 Transformer 预测下一个 token，还让它预测自己下一步的隐状态（latent state）。

听起来像是给模型加了一个"自我预言"的辅助任务，但实际带来的收益不止一点点：作者在博客里给出的数据是，在 reasoning 和 planning 任务上泛化能力明显提升，更狠的是——通过 self-speculative decoding，推理速度最高能拉到 3.3 倍。

为什么说 Next-Token 是"近视"的

先把问题摆清楚。标准的 GPT 类模型训练目标就一个：给定前 t 个 token，预测第 t+1 个 token 的分布，做 cross-entropy。这套范式跑了七八年，撑起了从 GPT-2 到 GPT-5、Claude 4.5 整条产品线。但它有个老问题——监督信号过于稀疏。

一个 one-hot 的 token 标签，从信息论的角度看也就 log|V| 比特，词表 10 万的话差不多 17 比特。可一个隐藏层向量动辄 4096、8192 维，承载的信息远不止这点。也就是说，模型在每一步训练里被"打分"的维度，跟它内部表征的维度严重不匹配。

更要命的是，这种逐 token 的目标天然鼓励模型走"贪心捷径"：只要把下一个词预测对就行，至于隐状态里有没有压缩出一个稳定的、可用于长程规划的世界模型？训练目标根本不 care。这就是论文里说的 myopic（短视）——模型可以在 next-token 上做得很好，但内部世界模型是松散的、片段化的。

业界这两年其实一直在试图打破这个限制。Meta 的 JEPA 系列、Yann LeCun 反复念叨的"在表征空间里预测而不是像素空间"，方向都是一致的：别在输出空间里死磕，去隐空间里学结构。NextLat 走的是同一条路，但巧妙的地方在于，它不是要替换 next-token prediction，而是叠加在上面，几乎零成本接入现有架构。

NextLat 具体做了什么

机制其实非常干净。设当前隐状态为 h_t，输入的下一个 token 是 x_{t+1}，标准 Transformer 会算出下一个隐状态 h_{t+1}。NextLat 引入一个辅助预测头，让模型用 (h_t, x_{t+1}) 去直接预测 h_{t+1}，然后跟真实计算出来的 h_{t+1} 做匹配（论文里用的是类似 cosine similarity 之类的隐空间损失）。

训练总目标变成：

L_total = L_next_token + λ · L_next_latent

看起来就是加了一个 auxiliary loss，但带来的效果链路挺有意思：

表征压缩：为了让自己能预测自己下一步会变成什么样，模型必须把历史压成一个紧凑的 belief state。否则隐状态里全是噪声，下一步根本预测不准。这等于强行逼出了一个内部世界模型。
更稠密的监督：相比 17 比特的 token 监督，预测一个高维向量本身就提供了多得多的梯度信号。这解释了为什么数据效率会上去——同样的 token 数，模型学到的东西更多。
递归 lookahead 解锁：既然模型能从 h_t 预测 h_{t+1}，那它就能从 h_{t+1} 再预测 h_{t+2}……理论上可以递归地往前"看"好几步。这正是推理加速的来源。

3.3 倍加速怎么来的：Self-Speculative Decoding

这是我觉得整篇工作里最实用的部分。Speculative decoding 大家都熟，常规做法是用一个小 draft 模型快速猜几个 token，再用大模型一次性验证，验证通过的就接受。问题是你得额外训练或部署一个 draft 模型，工程上挺烦。

NextLat 的做法是自己当自己的 draft：因为模型已经学会了预测自己的下一个隐状态，那就直接用 latent 预测头递归走几步，得到 h_{t+1}, h_{t+2}, h_{t+3} 的预估，然后用 LM head 解出对应的候选 token；再让完整 Transformer 跑一次 forward 做验证，接受能对上的部分。

好处很明显：

无需额外模型，部署链路不变；
不需要 reward model 或对齐，draft 和主模型同源；
在论文报告的设定下能拿到 2.x ~ 3.3x 的端到端加速，且生成质量与主模型完全等价（speculative decoding 的数学保证）。

对比 Medusa、EAGLE 这类需要额外训练 draft head 的方案，NextLat 因为是预训练阶段就把这个能力内建进去了，部署侧就是"打开开关"的事。

长程推理上的提升来自哪里

光快还不够，benchmark 才是硬通货。作者在博客里展示了几类任务：

算法推理（如 graph traversal、algorithmic reasoning 那一套合成任务）：NextLat 在 OOD 长度泛化上明显甩开 baseline。这是 next-token 模型的老大难——训到长度 32，测到长度 64 就崩。
规划类任务（迷宫、blocksworld 之类）：体现得最明显，毕竟规划本来就需要内部走多步推演。
常规语言建模：perplexity 不掉，甚至略好。也就是说辅助目标没有伤害主任务。

值得说一句：这套思路跟最近几个月学界的另一条线索——latent reasoning / continuous chain-of-thought——其实是相通的。今年早些时候 Meta 那篇 Coconut（在隐空间做 CoT 而不是吐 token）也是同一个直觉：token 空间太离散、太窄，真正的"思考"应该在 latent 里发生。NextLat 把这个思想做进了预训练目标，而不是 inference 期间的 trick，地基打得更深一些。

一点冷静的判断

我对这个工作整体是看好的，但有几个地方需要打问号：

第一，辅助 loss 的 λ 怎么调？预印本目前给的实验规模还不算大，到了 70B、200B 这种规模，λ 是会变得无关紧要还是变成关键超参，不好说。Auxiliary loss 在大模型上经常出现"小模型有效、大模型消失"的尴尬。

第二，latent 目标的崩塌风险。预测自己的下一步隐状态，本质上是 self-distillation 的一种，理论上有 representation collapse 的风险（所有 h 趋同）。论文里应该用了 stop-gradient 之类的技巧，但稳定性能否在大规模 RL 后训练里保持，需要更多验证。

第三，和 MoE、长上下文的兼容性。目前主流前沿模型基本都是 MoE + 1M context 起步，NextLat 这套加在 dense 模型上看起来很顺，但放到 MoE 的 router 噪声里、放到滑动窗口注意力里，是不是还能这么干净，需要工程实测。

不过这些都是工程化的问题，不影响核心 idea 的价值。预测隐空间 vs 预测 token，本来就是过去一年里被反复争论的话题，NextLat 提供了一个低侵入、易复现的样本，而且把加速这个最实在的好处一起带上了——这一点在当下 GPU 紧张、推理成本高企的环境里，吸引力是实打实的。

对开发者意味着什么

短期内你不会看到 GPT-6 或者 Claude 5 直接挂上 NextLat 这个名字，但这种"在 latent 空间里加自监督目标"的思路，大概率会被各家在下一轮预训练里吸收进去——尤其是开源阵营。DeepSeek、Qwen 这种动作很快的团队，复现一个 NextLat 变体可能就是几周的事。

如果你在做小模型预训练或者垂类模型微调，更值得关注：

在你现有的训练 pipeline 里加一个 latent prediction head 成本极低；
对数据效率不高的场景（垂直领域语料少）特别有意义；
self-speculative decoding 可以直接降推理成本。

代码作者已经放了 GitHub 仓库，跑通一个最小复现的 demo 应该不难。等社区把 7B 量级的复现跑出来，这套方法是不是真的 scalable，答案就会清楚很多。

说到调用各类前沿模型做对比实验，OpenAI Hub 一个 Key 就能横跨 GPT、Claude、Gemini、DeepSeek，国内直连，兼容 OpenAI 格式，省去你切换 SDK 的麻烦——做长程推理 benchmark 的时候挺顺手。

参考来源

Reddit r/MachineLearning：Next-Latent Prediction Transformers 讨论帖 — 微软研究院预印本的最初讨论与作者自述
GitHub: Jayden NextLat 代码仓库 — 作者公开的实现代码与训练脚本入口

微软抛出NextLat：让Transformer学会预测自己的下一个隐状态

微软抛出NextLat：让Transformer不再"目光短浅"，长程推理和推理速度一起拿

为什么说 Next-Token 是"近视"的

NextLat 具体做了什么

3.3 倍加速怎么来的：Self-Speculative Decoding

长程推理上的提升来自哪里

一点冷静的判断

对开发者意味着什么

参考来源

相关推荐

OpenAI 憋了半年的 GPT-Bidi-1，要让语音模式学会被打断

Anthropic踩了刹车：Agent SDK按Token计费暂时搁置

Grok 4.3 登陆 Bedrock，xAI 终于挤进 AWS 模型货架

联系我们