Google DeepMind 开源 DiffusionGemma，用扩散技术颠覆传统自回归文本生成范式。H100 实测突破 1000 tokens/s，消费级 RTX 5090 也能跑到 700 tokens/s，但质量换速度的取舍值得开发者仔细掂量。

扩散模型杀入文本生成：Google 开源 DiffusionGemma，速度提升 4 倍

Google DeepMind 本月开源了 DiffusionGemma，一个用扩散技术做文本生成的实验性模型。在单张 H100 上实测输出速度超过 1000 tokens/s，比同级别自回归模型快 4 倍。

这不是小修小补。它直接挑战了 GPT、Claude、Gemini 这些主流大模型的底层架构逻辑。

自回归的瓶颈：打字机困境

先说清楚问题在哪。

当前几乎所有主流 LLM 都是自回归架构——模型像打字机一样，从左到右一个 token 一个 token 往外蹦。GPT-4o、Claude 3.5、Gemini 2.5，全是这个路子。

这套架构在云端批量推理时效率很高，多个请求可以攒成一批一起算。但换到本地单机跑，问题就暴露了：

延迟高：生成 1000 个 token 就得跑 1000 次前向传播
GPU 利用率低：单请求时大量算力在空转
能耗浪费：每个 token 都要过一遍完整的注意力计算

简单说，自回归模型是为云端大规模服务设计的。拿来做本地实时交互，天然吃亏。

扩散的思路：从打字机到印刷机

DiffusionGemma 换了个玩法。

它借鉴了图像生成扩散模型的思路——Stable Diffusion、DALL-E 3 那套。但把连续像素空间换成了离散的 token 空间，Google 叫它「离散文本扩散」（Discrete Text Diffusion）。

具体怎么工作的：

初始化：在「画布」上放 256 个随机占位 token
迭代去噪：通过多轮前向传播，逐步把噪声 token 修正成有意义的文字
并行输出：每次前向传播同时处理整个 256 token 块

DiffusionGemma 扩散生成过程示意图，展示从随机噪声到清晰文本的迭代过程

打个比方：自回归是打字机，一个字母一个字母敲；DiffusionGemma 是印刷机，一版 256 个字符同时印出来。

这带来一个关键优势——并行度拉满。单次前向传播就能输出一整块文本，GPU 的并行计算能力终于能充分发挥。

实测数据：快是真的快

NVIDIA 官方跑了一组 benchmark：

| 硬件 | 单请求输出速度 | |------|---------------| | H100 | ~1000 tokens/s | | DGX Station | ~800 tokens/s | | GeForce RTX 5090 | >700 tokens/s | | DGX Spark | ~150 tokens/s |

做个对比：同参数量级的自回归模型在 H100 上单请求大概 200-300 tokens/s。DiffusionGemma 快了 3-4 倍。

更值得注意的是 RTX 5090 的数据。消费级显卡跑到 700 tokens/s，意味着本地开发者不用租云 GPU 也能获得相当流畅的交互体验。

架构细节：MoE + 量化压到 18GB 显存

DiffusionGemma 名义上是 260 亿参数，但实际推理时只激活 38 亿。

这靠的是 MoE（Mixture of Experts）架构。模型内部有多个「专家」子网络，推理时动态路由，只调用最相关的几个专家参与计算。其他专家在旁边待机，不占算力。

再加上量化压缩，整个模型可以塞进 18GB 显存。这意味着 RTX 4090、5090 这类高端消费卡都能跑，不需要专业的 A100、H100。

另一个架构亮点是双向注意力。自回归模型只能往前看——生成第 N 个 token 时只能参考前 N-1 个。DiffusionGemma 不一样，每个 token 生成时可以同时看整个 256 token 窗口内的所有位置。

这对某些任务特别有用：

行内编辑：改中间一个词，不用重新生成整段
代码补全：填充函数中间的逻辑，前后上下文都能参考
结构化生成：JSON、表格这类非线性文本

质量换速度：必须说清楚的代价

Google 在官宣博客里罕见地主动泼冷水：

「这是一款为了把速度推到极限而刻意妥协质量的实验性模型」

说人话：DiffusionGemma 的输出质量不如标准 Gemma 4。

这不是 bug，是设计取舍。扩散模型的迭代去噪过程天然会引入一定的「模糊性」——每一步修正都是概率性的，最终结果不如自回归那样确定性强。

具体表现：

复杂推理任务准确率下降
长文本连贯性不如自回归
专业领域知识可能出现幻觉

Google 的建议很直接：正式产品输出、对质量要求高的场景，继续用 Gemma 4 标准版。DiffusionGemma 适合的是：

快速原型迭代
草稿生成后人工精修
对延迟敏感的实时交互
本地化开发调试

另一个局限：云端批量场景优势缩水

速度优势在特定场景下会大打折扣。

前面说了，DiffusionGemma 的加速来自并行生成整块 token。但当云端服务同时处理大量请求时，自回归模型可以把多个请求的 token 攒成批次一起算，同样能把 GPU 利用率拉满。

这时候，DiffusionGemma 的并行解码优势就被稀释了。Google 明确说：「高 QPS 的云端大规模服务场景，DiffusionGemma 的优势会快速递减」。

还有一个场景表现一般：Apple Silicon Mac。

统一内存架构下，CPU 和 GPU 共享内存带宽，自回归模型本来就不太受显存带宽限制。DiffusionGemma 在这类设备上的加速效果不如独立 GPU 明显。

工具链支持：已经能跑起来了

开源模型最重要的是生态。DiffusionGemma 首发就支持了三个主流框架：

1. Hugging Face Transformers

官方模型已经上传到 Hugging Face Hub，可以直接用 transformers 库加载：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/diffusiongemma-26B-A4B-it")
tokenizer = AutoTokenizer.from_pretrained("google/diffusiongemma-26B-A4B-it")

2. vLLM

vLLM 团队已经发布了 DiffusionGemma 适配版本，Red Hat 提供了量化后的模型权重，方便企业部署。

3. MLX

Apple Silicon 用户可以通过 MLX 框架在 Mac 上本地运行。虽然前面说了统一内存架构下加速效果有限，但起码能跑，对于开发测试够用了。

技术意义：不只是一个模型

DiffusionGemma 的意义不只是「多了一个开源模型」。它验证了一条不同的技术路线。

过去几年，LLM 领域几乎所有重大进展都在自回归框架内发生：更大的模型、更长的上下文、更好的对齐。扩散模型一直被认为是图像生成的专属技术。

Google 这次证明：扩散可以做文本，而且在特定场景下比自回归更适合。

这打开了一扇门。

可以预见，接下来会有更多团队探索这个方向：

扩散模型能不能在保持速度的同时提升质量？
能不能和自回归混合，取长补短？
在代码生成、结构化数据这些特定任务上能不能做到更好？

对开发者意味着什么

几点实际建议：

本地开发调试：DiffusionGemma 是目前最适合的选择之一。700+ tokens/s 的速度意味着你可以快速迭代提示词、测试不同方案，不用等。

生产部署：暂时别急着上。质量差距摆在那里，除非你的场景对延迟极度敏感且对输出质量要求不高。

研究探索：值得深入研究。双向注意力、迭代去噪这些特性在特定任务上可能有惊喜。

硬件选择：如果你有 RTX 5090 或同级别显卡，DiffusionGemma 是发挥其算力的好选择。如果只有 Mac，效果会打折扣。

写在最后

用速度换质量，这个取舍 Google 做得很诚实。

他们没有吹嘘 DiffusionGemma 是下一代 GPT 杀手，而是明确定位为「实验性模型」，适合特定场景的特定需求。这种克制在 AI 领域越来越少见。

对于开发者来说，多一个选择总是好事。自回归不是唯一解，扩散也能做文本。未来也许会有更好的架构，把两者的优点结合起来。

模型已经开源，Apache 2.0 协议，想试的可以直接上手了。

参考来源

google/diffusiongemma-26B-A4B-it - Hugging Face - 官方模型权重和使用文档
探索文本生成新范式：谷歌开源 4 倍提速的实验性扩散语言模型 - 知乎 - 技术原理中文解读

扩散模型杀入文本生成，速度提升4倍