AI 快讯微软抛出NextLat:让Transformer学会预测自己的下一个隐状态
模型上新

微软抛出NextLat:让Transformer学会预测自己的下一个隐状态

2026-06-17T10:04:46.309Z

微软研究院最新提出Next-Latent Prediction方法,在next-token预测之外让Transformer预测自身下一个潜在状态,推理速度最高提升3.3倍,同时显著增强长程推理能力。

微软抛出NextLat:让Transformer不再"目光短浅",长程推理和推理速度一起拿

这两天 r/MachineLearning 上一篇微软研究院的预印本被翻出来反复讨论,标题很挑衅——Next-Token Prediction is Myopic(下一个 token 预测是近视的)。微软研究院联合外部研究者抛出一个叫 Next-Latent Prediction(NextLat) 的自监督训练目标,核心思路一句话能讲清楚:除了让 Transformer 预测下一个 token,还让它预测自己下一步的隐状态(latent state)

听起来像是给模型加了一个"自我预言"的辅助任务,但实际带来的收益不止一点点:作者在博客里给出的数据是,在 reasoning 和 planning 任务上泛化能力明显提升,更狠的是——通过 self-speculative decoding,推理速度最高能拉到 3.3 倍

为什么说 Next-Token 是"近视"的

先把问题摆清楚。标准的 GPT 类模型训练目标就一个:给定前 t 个 token,预测第 t+1 个 token 的分布,做 cross-entropy。这套范式跑了七八年,撑起了从 GPT-2 到 GPT-5、Claude 4.5 整条产品线。但它有个老问题——监督信号过于稀疏

一个 one-hot 的 token 标签,从信息论的角度看也就 log|V| 比特,词表 10 万的话差不多 17 比特。可一个隐藏层向量动辄 4096、8192 维,承载的信息远不止这点。也就是说,模型在每一步训练里被"打分"的维度,跟它内部表征的维度严重不匹配。

更要命的是,这种逐 token 的目标天然鼓励模型走"贪心捷径":只要把下一个词预测对就行,至于隐状态里有没有压缩出一个稳定的、可用于长程规划的世界模型?训练目标根本不 care。这就是论文里说的 myopic(短视)——模型可以在 next-token 上做得很好,但内部世界模型是松散的、片段化的。

业界这两年其实一直在试图打破这个限制。Meta 的 JEPA 系列、Yann LeCun 反复念叨的"在表征空间里预测而不是像素空间",方向都是一致的:别在输出空间里死磕,去隐空间里学结构。NextLat 走的是同一条路,但巧妙的地方在于,它不是要替换 next-token prediction,而是叠加在上面,几乎零成本接入现有架构。

NextLat 具体做了什么

机制其实非常干净。设当前隐状态为 h_t,输入的下一个 token 是 x_{t+1},标准 Transformer 会算出下一个隐状态 h_{t+1}。NextLat 引入一个辅助预测头,让模型用 (h_t, x_{t+1}) 去直接预测 h_{t+1},然后跟真实计算出来的 h_{t+1} 做匹配(论文里用的是类似 cosine similarity 之类的隐空间损失)。

训练总目标变成:

L_total = L_next_token + λ · L_next_latent

看起来就是加了一个 auxiliary loss,但带来的效果链路挺有意思:

  • 表征压缩:为了让自己能预测自己下一步会变成什么样,模型必须把历史压成一个紧凑的 belief state。否则隐状态里全是噪声,下一步根本预测不准。这等于强行逼出了一个内部世界模型。
  • 更稠密的监督:相比 17 比特的 token 监督,预测一个高维向量本身就提供了多得多的梯度信号。这解释了为什么数据效率会上去——同样的 token 数,模型学到的东西更多。
  • 递归 lookahead 解锁:既然模型能从 h_t 预测 h_{t+1},那它就能从 h_{t+1} 再预测 h_{t+2}……理论上可以递归地往前"看"好几步。这正是推理加速的来源。

3.3 倍加速怎么来的:Self-Speculative Decoding

这是我觉得整篇工作里最实用的部分。Speculative decoding 大家都熟,常规做法是用一个小 draft 模型快速猜几个 token,再用大模型一次性验证,验证通过的就接受。问题是你得额外训练或部署一个 draft 模型,工程上挺烦。

NextLat 的做法是自己当自己的 draft:因为模型已经学会了预测自己的下一个隐状态,那就直接用 latent 预测头递归走几步,得到 h_{t+1}, h_{t+2}, h_{t+3} 的预估,然后用 LM head 解出对应的候选 token;再让完整 Transformer 跑一次 forward 做验证,接受能对上的部分。

好处很明显:

  1. 无需额外模型,部署链路不变;
  2. 不需要 reward model 或对齐,draft 和主模型同源;
  3. 在论文报告的设定下能拿到 2.x ~ 3.3x 的端到端加速,且生成质量与主模型完全等价(speculative decoding 的数学保证)。

对比 Medusa、EAGLE 这类需要额外训练 draft head 的方案,NextLat 因为是预训练阶段就把这个能力内建进去了,部署侧就是"打开开关"的事。

长程推理上的提升来自哪里

光快还不够,benchmark 才是硬通货。作者在博客里展示了几类任务:

  • 算法推理(如 graph traversal、algorithmic reasoning 那一套合成任务):NextLat 在 OOD 长度泛化上明显甩开 baseline。这是 next-token 模型的老大难——训到长度 32,测到长度 64 就崩。
  • 规划类任务(迷宫、blocksworld 之类):体现得最明显,毕竟规划本来就需要内部走多步推演。
  • 常规语言建模:perplexity 不掉,甚至略好。也就是说辅助目标没有伤害主任务。

值得说一句:这套思路跟最近几个月学界的另一条线索——latent reasoning / continuous chain-of-thought——其实是相通的。今年早些时候 Meta 那篇 Coconut(在隐空间做 CoT 而不是吐 token)也是同一个直觉:token 空间太离散、太窄,真正的"思考"应该在 latent 里发生。NextLat 把这个思想做进了预训练目标,而不是 inference 期间的 trick,地基打得更深一些。

一点冷静的判断

我对这个工作整体是看好的,但有几个地方需要打问号:

第一,辅助 loss 的 λ 怎么调?预印本目前给的实验规模还不算大,到了 70B、200B 这种规模,λ 是会变得无关紧要还是变成关键超参,不好说。Auxiliary loss 在大模型上经常出现"小模型有效、大模型消失"的尴尬。

第二,latent 目标的崩塌风险。预测自己的下一步隐状态,本质上是 self-distillation 的一种,理论上有 representation collapse 的风险(所有 h 趋同)。论文里应该用了 stop-gradient 之类的技巧,但稳定性能否在大规模 RL 后训练里保持,需要更多验证。

第三,和 MoE、长上下文的兼容性。目前主流前沿模型基本都是 MoE + 1M context 起步,NextLat 这套加在 dense 模型上看起来很顺,但放到 MoE 的 router 噪声里、放到滑动窗口注意力里,是不是还能这么干净,需要工程实测。

不过这些都是工程化的问题,不影响核心 idea 的价值。预测隐空间 vs 预测 token,本来就是过去一年里被反复争论的话题,NextLat 提供了一个低侵入、易复现的样本,而且把加速这个最实在的好处一起带上了——这一点在当下 GPU 紧张、推理成本高企的环境里,吸引力是实打实的。

对开发者意味着什么

短期内你不会看到 GPT-6 或者 Claude 5 直接挂上 NextLat 这个名字,但这种"在 latent 空间里加自监督目标"的思路,大概率会被各家在下一轮预训练里吸收进去——尤其是开源阵营。DeepSeek、Qwen 这种动作很快的团队,复现一个 NextLat 变体可能就是几周的事。

如果你在做小模型预训练或者垂类模型微调,更值得关注:

  • 在你现有的训练 pipeline 里加一个 latent prediction head 成本极低;
  • 对数据效率不高的场景(垂直领域语料少)特别有意义;
  • self-speculative decoding 可以直接降推理成本。

代码作者已经放了 GitHub 仓库,跑通一个最小复现的 demo 应该不难。等社区把 7B 量级的复现跑出来,这套方法是不是真的 scalable,答案就会清楚很多。

说到调用各类前沿模型做对比实验,OpenAI Hub 一个 Key 就能横跨 GPT、Claude、Gemini、DeepSeek,国内直连,兼容 OpenAI 格式,省去你切换 SDK 的麻烦——做长程推理 benchmark 的时候挺顺手。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: