扩散模型杀入文本生成,速度提升4倍

Google DeepMind 开源 DiffusionGemma,用扩散技术颠覆传统自回归文本生成范式。H100 实测突破 1000 tokens/s,消费级 RTX 5090 也能跑到 700 tokens/s,但质量换速度的取舍值得开发者仔细掂量。
扩散模型杀入文本生成:Google 开源 DiffusionGemma,速度提升 4 倍
Google DeepMind 本月开源了 DiffusionGemma,一个用扩散技术做文本生成的实验性模型。在单张 H100 上实测输出速度超过 1000 tokens/s,比同级别自回归模型快 4 倍。
这不是小修小补。它直接挑战了 GPT、Claude、Gemini 这些主流大模型的底层架构逻辑。
自回归的瓶颈:打字机困境
先说清楚问题在哪。
当前几乎所有主流 LLM 都是自回归架构——模型像打字机一样,从左到右一个 token 一个 token 往外蹦。GPT-4o、Claude 3.5、Gemini 2.5,全是这个路子。
这套架构在云端批量推理时效率很高,多个请求可以攒成一批一起算。但换到本地单机跑,问题就暴露了:
- 延迟高:生成 1000 个 token 就得跑 1000 次前向传播
- GPU 利用率低:单请求时大量算力在空转
- 能耗浪费:每个 token 都要过一遍完整的注意力计算
简单说,自回归模型是为云端大规模服务设计的。拿来做本地实时交互,天然吃亏。
扩散的思路:从打字机到印刷机
DiffusionGemma 换了个玩法。
它借鉴了图像生成扩散模型的思路——Stable Diffusion、DALL-E 3 那套。但把连续像素空间换成了离散的 token 空间,Google 叫它「离散文本扩散」(Discrete Text Diffusion)。
具体怎么工作的:
- 初始化:在「画布」上放 256 个随机占位 token
- 迭代去噪:通过多轮前向传播,逐步把噪声 token 修正成有意义的文字
- 并行输出:每次前向传播同时处理整个 256 token 块

打个比方:自回归是打字机,一个字母一个字母敲;DiffusionGemma 是印刷机,一版 256 个字符同时印出来。
这带来一个关键优势——并行度拉满。单次前向传播就能输出一整块文本,GPU 的并行计算能力终于能充分发挥。
实测数据:快是真的快
NVIDIA 官方跑了一组 benchmark:
| 硬件 | 单请求输出速度 | |------|---------------| | H100 | ~1000 tokens/s | | DGX Station | ~800 tokens/s | | GeForce RTX 5090 | >700 tokens/s | | DGX Spark | ~150 tokens/s |
做个对比:同参数量级的自回归模型在 H100 上单请求大概 200-300 tokens/s。DiffusionGemma 快了 3-4 倍。
更值得注意的是 RTX 5090 的数据。消费级显卡跑到 700 tokens/s,意味着本地开发者不用租云 GPU 也能获得相当流畅的交互体验。
架构细节:MoE + 量化压到 18GB 显存
DiffusionGemma 名义上是 260 亿参数,但实际推理时只激活 38 亿。
这靠的是 MoE(Mixture of Experts)架构。模型内部有多个「专家」子网络,推理时动态路由,只调用最相关的几个专家参与计算。其他专家在旁边待机,不占算力。
再加上量化压缩,整个模型可以塞进 18GB 显存。这意味着 RTX 4090、5090 这类高端消费卡都能跑,不需要专业的 A100、H100。
另一个架构亮点是双向注意力。自回归模型只能往前看——生成第 N 个 token 时只能参考前 N-1 个。DiffusionGemma 不一样,每个 token 生成时可以同时看整个 256 token 窗口内的所有位置。
这对某些任务特别有用:
- 行内编辑:改中间一个词,不用重新生成整段
- 代码补全:填充函数中间的逻辑,前后上下文都能参考
- 结构化生成:JSON、表格这类非线性文本
质量换速度:必须说清楚的代价
Google 在官宣博客里罕见地主动泼冷水:
「这是一款为了把速度推到极限而刻意妥协质量的实验性模型」
说人话:DiffusionGemma 的输出质量不如标准 Gemma 4。
这不是 bug,是设计取舍。扩散模型的迭代去噪过程天然会引入一定的「模糊性」——每一步修正都是概率性的,最终结果不如自回归那样确定性强。
具体表现:
- 复杂推理任务准确率下降
- 长文本连贯性不如自回归
- 专业领域知识可能出现幻觉
Google 的建议很直接:正式产品输出、对质量要求高的场景,继续用 Gemma 4 标准版。DiffusionGemma 适合的是:
- 快速原型迭代
- 草稿生成后人工精修
- 对延迟敏感的实时交互
- 本地化开发调试
另一个局限:云端批量场景优势缩水
速度优势在特定场景下会大打折扣。
前面说了,DiffusionGemma 的加速来自并行生成整块 token。但当云端服务同时处理大量请求时,自回归模型可以把多个请求的 token 攒成批次一起算,同样能把 GPU 利用率拉满。
这时候,DiffusionGemma 的并行解码优势就被稀释了。Google 明确说:「高 QPS 的云端大规模服务场景,DiffusionGemma 的优势会快速递减」。
还有一个场景表现一般:Apple Silicon Mac。
统一内存架构下,CPU 和 GPU 共享内存带宽,自回归模型本来就不太受显存带宽限制。DiffusionGemma 在这类设备上的加速效果不如独立 GPU 明显。
工具链支持:已经能跑起来了
开源模型最重要的是生态。DiffusionGemma 首发就支持了三个主流框架:
1. Hugging Face Transformers
官方模型已经上传到 Hugging Face Hub,可以直接用 transformers 库加载:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/diffusiongemma-26B-A4B-it")
tokenizer = AutoTokenizer.from_pretrained("google/diffusiongemma-26B-A4B-it")
2. vLLM
vLLM 团队已经发布了 DiffusionGemma 适配版本,Red Hat 提供了量化后的模型权重,方便企业部署。
3. MLX
Apple Silicon 用户可以通过 MLX 框架在 Mac 上本地运行。虽然前面说了统一内存架构下加速效果有限,但起码能跑,对于开发测试够用了。
技术意义:不只是一个模型
DiffusionGemma 的意义不只是「多了一个开源模型」。它验证了一条不同的技术路线。
过去几年,LLM 领域几乎所有重大进展都在自回归框架内发生:更大的模型、更长的上下文、更好的对齐。扩散模型一直被认为是图像生成的专属技术。
Google 这次证明:扩散可以做文本,而且在特定场景下比自回归更适合。
这打开了一扇门。
可以预见,接下来会有更多团队探索这个方向:
- 扩散模型能不能在保持速度的同时提升质量?
- 能不能和自回归混合,取长补短?
- 在代码生成、结构化数据这些特定任务上能不能做到更好?
对开发者意味着什么
几点实际建议:
本地开发调试:DiffusionGemma 是目前最适合的选择之一。700+ tokens/s 的速度意味着你可以快速迭代提示词、测试不同方案,不用等。
生产部署:暂时别急着上。质量差距摆在那里,除非你的场景对延迟极度敏感且对输出质量要求不高。
研究探索:值得深入研究。双向注意力、迭代去噪这些特性在特定任务上可能有惊喜。
硬件选择:如果你有 RTX 5090 或同级别显卡,DiffusionGemma 是发挥其算力的好选择。如果只有 Mac,效果会打折扣。
写在最后
用速度换质量,这个取舍 Google 做得很诚实。
他们没有吹嘘 DiffusionGemma 是下一代 GPT 杀手,而是明确定位为「实验性模型」,适合特定场景的特定需求。这种克制在 AI 领域越来越少见。
对于开发者来说,多一个选择总是好事。自回归不是唯一解,扩散也能做文本。未来也许会有更好的架构,把两者的优点结合起来。
模型已经开源,Apache 2.0 协议,想试的可以直接上手了。
参考来源
- google/diffusiongemma-26B-A4B-it - Hugging Face - 官方模型权重和使用文档
- 探索文本生成新范式:谷歌开源 4 倍提速的实验性扩散语言模型 - 知乎 - 技术原理中文解读



