Google DeepMind 发布 DiffusionGemma：文本生成速度提升 4 倍

Google DeepMind今天放出DiffusionGemma实验版开源模型，把图像扩散那套并行生成的思路搬到了文本上，单次吐出整块token而非逐字生成，相比同尺寸自回归模型推理快约4倍，NVIDIA同步完成RTX全家桶的优化适配。

谷歌把扩散模型搬进了文本生成

今天（6月10日）凌晨，Google DeepMind 在官方博客挂出了 DiffusionGemma——一个走扩散路线的实验性开源文本模型。官方给出的核心数字只有一个：相同尺寸下，文本生成速度比传统自回归模型快 4 倍。

这不是谷歌第一次在扩散语言模型上下注。回头看 2025 年 I/O 上首次亮相的 Gemini Diffusion 闭源 demo，跑出过 1479 tokens/s 的离谱速度，但那东西一直关在 AI Studio 里没放出来。整整一年之后，DeepMind 终于决定把这条技术路线开源化、Gemma 化，丢给社区折腾——这是过去一年 Gemma 家族下载量破 4 亿、衍生模型超 10 万个之后，DeepMind 顺手做的一次架构层面的试水。

DiffusionGemma 与传统自回归模型的生成方式对比示意图

为什么扩散能跑得比自回归快

要理解 DiffusionGemma 的意义，得先回到自回归（autoregressive）这个 LLM 标配的范式上。GPT、Claude、Llama、Qwen，所有你叫得上名字的主流大模型，干的都是同一件事：给定前面 N 个 token，预测第 N+1 个。一个字一个字往外蹦，蹦完一个再算一次注意力。

这个范式的天花板很清楚：

延迟天然受限。生成 1000 个 token，就要做 1000 次前向传播，没法并行
批量推理友好，单用户体验糟糕。一个人用的时候 GPU 利用率低得可怜
错误会沿序列传播。前面写错了一个词，后面只能将错就错

扩散模型走的是另一条路。它从一段被高度噪声化的"乱码"开始，通过若干步迭代去噪，最终还原成一段连贯文本。关键在于：每一步去噪都是对整段文本并行完成的。换句话说，DiffusionGemma 不是一字一字写，而是先打个糊糊的草稿，再一遍遍润色——每一遍都同时润色所有位置。

这套思路在图像生成那边早就被 Stable Diffusion 们玩透了，但放到离散的文本 token 上一直不顺利，主要卡在两点：一是离散空间的扩散过程怎么定义，二是文本对局部一致性的要求远比图像苛刻——图像糊一块还能看，文本错一个介词就崩了。DeepMind 这次的版本，是把过去两年学术界的几条工程优化（mask-based diffusion、self-conditioning、可变步数采样）整合在 Gemma 架构上的一次工程化收敛。

4 倍速度从哪里来

谷歌官方博客给出的对比是同参数量级下的 Gemma 自回归模型。需要拆开看：

1. 并行解码带来的吞吐红利

一次推理可以同时生成一整个 block 的 token——根据 NVIDIA 那篇适配博客的描述，DiffusionGemma 是 "outputs whole blocks of text"，不是逐 token 流式输出。这对单用户场景（developer 本地跑、IDE 内联补全、agent 任务）是降维打击，因为这类场景的瓶颈本来就是 latency 而不是 throughput。

2. 步数远少于 token 数

传统自回归生成 1000 token 要 1000 步。DiffusionGemma 在去噪步数上做了大量压缩，典型配置下几十步就能输出整段。算下来每步要做更重的计算，但总步数大幅减少，端到端依然更快。

3. RTX 端侧优化压榨硬件

NVIDIA 几乎是和 DeepMind 同步官宣，已经把 DiffusionGemma 在 GeForce RTX、RTX PRO 工作站、以及 DGX Spark 三条产品线上做了内核级优化。RTX 的 Tensor Core 在做并行 token 推理时的利用率，比逐字自回归高出一大截。这意味着开发者在自己的 4090、5090 上跑 DiffusionGemma，体感会比同尺寸 Gemma 流畅得多。

NVIDIA RTX 平台上 DiffusionGemma 的延迟对比柱状图

它真的能用吗：质量这关

速度故事讲完，问题是质量。扩散语言模型过去几年一直在学术界打转、迟迟没有走向生产，核心原因就是写出来的东西不够"顺"。

参考去年 Gemini Diffusion 在 HumanEval 上 89.6% 的成绩——和 Gemini 2.0 Flash-Lite 的 90.2% 基本打平。这个分数挺有意思：扩散模型在强结构性任务（代码、数学、JSON 这种有明确语法约束的）上表现接近甚至持平自回归，但在自由长文本生成（创意写作、长对话）上还是会暴露问题——主要是长程一致性和前后呼应。

DiffusionGemma 作为 Gemma 家族里第一个非自回归成员，目前定位明确是"实验性"。从博客措辞看，谷歌也没打算让它取代主线 Gemma，更像是给社区一个新玩具：

适合做：代码补全、结构化输出、约束生成、低延迟交互式应用
不太适合：长文创作、复杂多轮推理、需要严格事实性的问答

这定位其实挺务实。扩散模型的"块输出"特性，意味着它对 prompt 的整体语义把握可能更好（因为它一开始就在所有位置上同时思考），但代价是失去了自回归那种"边写边调整"的灵活度。

对开发者意味着什么

这事的实际影响要分两层看。

短期：又一个能本地跑的开源模型，但场景特殊。 DiffusionGemma 已经放上 Hugging Face，权重开源，本地推理友好。如果你正在做需要低延迟、流式响应不那么重要、输出有结构约束的应用——比如 IDE 里的代码块补全、表单填充、批量数据清洗——这个模型值得跑一下 benchmark。在 RTX 4090 这一档消费级显卡上的体感优势，会比纸面数字更明显。

长期：自回归不是唯一答案。 过去三年所有人都默认 Transformer + autoregressive = LLM，但今年从 Mamba 类 SSM 到现在的扩散语言模型，可以看到大厂在悄悄探索范式外的可能性。DiffusionGemma 把这条路从论文推进到了开源生产可用，意义不在于它今天能干什么，而在于它把扩散语言模型这个赛道的下限抬高了。

顺带提一句，OpenAI Hub 这边主线模型（GPT、Claude、Gemini、DeepSeek）的 API 聚合还是常态服务，但 Gemma 这种本地优先的开源模型，更建议大家直接拉权重在自己机器上玩——毕竟扩散模型的低延迟优势，得在端侧才能完整吃到。

还需要看清楚的几件事

上下文长度：官方目前没披露 DiffusionGemma 的最大上下文，扩散模型在长上下文下的计算开销缩放规律和自回归不同，这块得等社区实测
微调生态：Gemma 系列的杀手锏是社区微调，DiffusionGemma 能不能复刻这一套（LoRA、QLoRA、各种领域适配）还要看 DeepMind 后续放出的训练脚本
量化兼容性：扩散模型的多步推理对量化误差更敏感，INT4/INT8 量化后会不会掉点，是它能不能真正下沉到消费级硬件的关键

这几个问题，估计未来一两周 Hugging Face 上的讨论区会有答案。DiffusionGemma 今天放出来的更像是一个"工程预览版"，真正的考验是接下来三个月社区拿它能跑出什么花样。