谷歌 DiffusionGemma 发布：文本扩散模型本地推理快 4 倍

谷歌 DeepMind 本周开源 DiffusionGemma，把图像扩散模型的并行去噪思路搬到了文本上。260 亿参数 MoE 架构，H100 单卡破千 token/秒，但谷歌自己也承认：这是一款"为速度刻意妥协质量"的实验性模型。

6 月 11 日，谷歌 DeepMind 把 DiffusionGemma 扔进了 Gemma 家族——这是一款不走自回归路线的开放权重文本模型，借的是图像扩散的思路：先在"画布"上铺 256 个占位符，再多轮迭代去噪，让文字一块块浮现出来。

官方给的数据很扎眼：单张 H100 突破 1000 token/秒，RTX 5090 也能跑到 700+ token/秒，DGX Station 上甚至能到 2000 token/秒，约为同尺寸自回归模型的 4 倍。Apache 2.0 协议，权重已经挂在 Hugging Face 上。

但别急着拍手——谷歌在公告里说得很坦白：这是一款"为了把速度推到极限而刻意妥协质量"的实验性模型。换句话说，它不是来取代 Gemma 4 标准版的，是来探路的。

DiffusionGemma 文本扩散生成示意图，与传统自回归对比

从"打字机"到"印刷机"

要理解这事的意义，得先看清楚自回归模型卡在哪。

GPT、Gemini、Claude 这些主流大模型，本质上都是"打字机"——前一个 token 出来了才能预测下一个，严格按从左到右顺序生成。这种范式在云端跑大 batch 的时候效率不错，多个请求可以拼在一起填满 GPU。但本地场景就尴尬了：单用户、单请求，token 一个一个挤，GPU 大部分时间在等内存带宽，算力根本喂不饱。

这也是为什么消费级显卡跑 LLM，瓶颈往往不是 FLOPs 而是 HBM 带宽。你那张 RTX 5090 算力够用，但 token 还是一个个往外蹦。

DiffusionGemma 走的是另一条路。它一次前向传播并行处理一整块 token（最多 256 个），通过多轮迭代去噪逐步修正。谷歌用了个挺贴切的比喻：自回归是打字机，扩散是印刷机——印刷机一次压一整页。

这种做法有几个直接好处：

并行度拉满：Tensor Core 的并行算力终于能吃满了，NVIDIA 在配套博文里特意点了这一点；
支持双向注意力：每个 token 生成时能看到段落里所有其他 token，不再是单向"只能往回看"；
自带纠错：迭代过程中模型可以对已经写出来的内容回头改，而不是错了就将错就错往下写。

第三点尤其有意思。传统自回归一旦走偏，要么硬着头皮编下去（幻觉），要么靠 beam search 之类的事后补救。扩散模型在生成中途就能整段重新评估，理论上对一致性是利好。

26B 参数，跑起来只用 3.8B

架构上 DiffusionGemma 名义参数 260 亿，但每步只激活约 38 亿——典型的 MoE 设计，多个专家子网络并排，模型按需挑几个上场。

这套组合拳的结果是：量化之后，18GB 显存的消费级高端 GPU 就能跑。也就是说，一张 4090（24GB）或者 5090 完全 hold 得住，不用云、不用 8 卡服务器、不用排队。

基准成绩谷歌也放了一些，混合参半：

代码：LiveCodeBench 30.9%，BigCodeBench 45.4%，HumanEval 89.6%——和 Gemini 2.0 Flash-Lite 互有胜负；
数学：AIME 2025 拿到 23.3%，反而超过了对比模型的 20.0%；
科学推理：GPQA Diamond 只有 40.4%，对比模型是 56.5%；
复杂推理：BIG-Bench Extra Hard 15.0%，对手 21.0%。

看得出来扩散架构在结构化任务（代码、数学）上挺有潜力，但在需要长链条推理、世界知识检索的任务上还顶不住。这也符合扩散模型的特性——擅长并行修正局部，弱在严格的因果链。

扩散文本不是新故事，但这次有点不一样

说实话，文本扩散这条路被人探了好几年了。Stanford 的 Diffusion-LM、Meta 的一些尝试、字节去年也放过类似研究。它一直没成主流，原因很明确：自然语言比图像更依赖语法顺序、上下文连贯、事实约束。图像里几个像素噪点没人在意，但文字里一个 token 错位整句就废。

DiffusionGemma 让人有点意外的地方在于：它是第一次有大厂用工业级权重把这条路跑通到能用的程度，并且明确给出了"速度优势在哪个区间成立"的边界条件。

谷歌很罕见地把适用场景和不适用场景都列出来了：

适合用：

本地、单用户、专属 GPU 的低延迟交互；
行内文字编辑、代码补全、需要快速反复试验的工作流；
非线性文本生成——比如填中间的代码、生成氨基酸序列、构造数学图形这种需要双向上下文的任务。

不适合用：

高 QPS 的云端大规模服务——并行解码的边际效益会快速递减；
共享内存架构（比如 Apple Silicon 的 Mac）——自回归本来就不太受带宽限制，扩散加速效果会打折；
对文字质量要求极高的正式产品输出——这种场景老老实实用 Gemma 4 标准版。

这段话翻译过来就是：DiffusionGemma 不是普适解，它是给 inline coding assistant、本地 IDE 插件、隐私敏感的桌面应用准备的尖刀。

速度数据怎么看

NVIDIA 测了一组数：H100 上约 1000 token/s，DGX Station 约 2000 token/s（这个数有不同口径，谷歌公告里给的是 800），DGX Spark 约 150 token/s，RTX 5090 突破 700 token/s。采样速度 1479 token/s，初始开销 0.84 秒。

这里要划个重点：4 倍加速是单请求、专属 GPU场景下的对比。如果你拿这个数去对比云端 vLLM batch 拉满之后的吞吐，那不公平也没意义。扩散的优势就是把单流速度推到极限，云端 batch 场景该用自回归还得用自回归。

另外 0.84 秒的初始开销也得注意——256 个占位符同时迭代意味着即使你只想生成一句话，最低延迟也下不去。短输出场景下，自回归的 first token latency 可能反而更优。

不同硬件平台上 DiffusionGemma 的 token/s 对比图

对开发者意味着什么

往大了说，这是大模型架构层面少见的一次非渐进式探索。过去两年大家卷的是 MoE、卷的是上下文长度、卷的是 RL 后训练，主干架构都是 Transformer 自回归这一套。DiffusionGemma 不一定能颠覆什么，但它至少证明了：在特定场景下，确实存在一条速度提升 4 倍的工程路径。

对开发者来说，几个值得关注的方向：

本地 AI 工具链：Cursor、Continue、Cline 这类编辑器辅助工具，最痛的就是云端延迟和隐私问题。一个能在本地 4090 上跑 700 token/s 的模型，对实时补全是质变；
填空类任务：双向注意力天然适合 fill-in-the-middle，比传统自回归靠 FIM token 模拟更优雅；
结构化生成：JSON、SQL、表格、数学符号这些有明确结构约束的输出，扩散的全局视野有先天优势；
Agent 内部循环：Agent 经常需要短而快的工具调用决策，扩散模型的高吞吐配合自纠错可能是个不错的拍档。

但短板也别忽视：质量打了折，长文本一致性还没充分验证，事实准确性社区独立评测还得等一阵。生产环境上线之前，老老实实拿自己的真实负载跑一遍 A/B。

还有个伏笔

值得一提的是，Reddit 上有用户提到 NVIDIA 也几乎同时放了一个扩散模型。再加上 Gemini Diffusion 的研究基础——这次 DiffusionGemma 显然是那条线的开源版本——可以看出谷歌和 NVIDIA 都在把这条路当成正经赛道在投。

如果扩散文本能在 6-12 个月内把质量差距收敛到自回归同尺寸模型的 5% 以内，那本地 AI 部署的格局可能要重写。如果收敛不了，那它会留在"本地 IDE 插件"这个细分生态里，作为一个高速补充存在。

DiffusionGemma 的权重已经在 Hugging Face 上线，Apache 2.0 协议，可以直接拉下来试。OpenAI Hub（openai-hub.com）作为一个 Key 调所有主流模型的聚合平台，后续也会跟进开源模型生态的相关支持，目前对 Gemma 系列、Claude、GPT、DeepSeek 等已经覆盖到位。

速度这件事，开发者会用脚投票。

参考来源

Reddit r/LocalLLaMA：DiffusionGemma 4x faster text generation 讨论 — 社区第一波实测反馈和与 NVIDIA 同期扩散模型的对比讨论
IT 之家：谷歌推出 DiffusionGemma 文本扩散模型 — 国内媒体对发布会的中文整理，含 benchmark 详细数据
Hugging Face：DiffusionGemma 模型权重 — 模型权重下载与官方 model card（Apache 2.0 许可证）

谷歌祭出 DiffusionGemma：扩散模型杀进文本生成，本地推理快 4 倍

从"打字机"到"印刷机"

26B 参数，跑起来只用 3.8B

扩散文本不是新故事，但这次有点不一样

速度数据怎么看

对开发者意味着什么

还有个伏笔

参考来源

相关推荐

谷歌把 Gemma 4 塞进 Mac：AI Edge Gallery 登陆 macOS

支付宝要塞进一个叫"阿宝"的Agent，蚂蚁这次想抄AI原生的近路

小米 MIX Fold 5 首发澎湃 OS4：AI 不再是噱头层的事

联系我们