谷歌DeepMind开源DiffusionGemma，将图像生成的扩散技术搬到文本领域，单卡H100跑出1000+ tokens/s，比传统自回归模型快4倍。代价是质量下降，但开源、可本地部署、消费级显卡能跑，这是扩散文本生成首次以这种完成度走向开发者社区。

扩散模型杀入文本生成：谷歌开源DiffusionGemma，速度提升4倍

谷歌DeepMind上周在Hugging Face上线了DiffusionGemma，Apache 2.0许可，权重完全开放。这不是又一个「更强更大」的模型发布——谷歌在官方文档里直接写明：它的输出质量不如自家的Gemma 4。

但它快。快到在单张H100上跑出1000+ tokens/s，消费级的RTX 5090上也有700+ tokens/s。这个速度是同级别自回归模型的4倍左右。

CEO皮查伊亲自发推介绍，把它比作「一匹赛马」——靠同时生成整段文本块、而不是逐字预测来抢速度。

这是扩散模型在文本生成领域的一次正式亮相，而且是以开源、消费级硬件可用的形态。

不是打字机，是冲洗照片

要理解DiffusionGemma为什么快，得先看清楚现在主流大模型是怎么生成文本的。

GPT、Claude、Gemini、Llama，这些模型都是自回归架构（Autoregressive）。生成文本时，它们像打字机一样从左到右逐个吐出token。生成第100个字之前，必须先生成前99个。每生成一个token，GPU都要把整个模型权重从显存里搬一遍。

这导致一个问题：GPU大部分时间在等数据搬运，真正做计算的算力反倒闲着。

在云端批量处理时，这个问题可以通过同时处理多个请求来缓解。但在本地部署、单用户场景下，GPU的利用率极低，延迟高、能耗大。

DiffusionGemma换了一种玩法。它借用了Stable Diffusion、Midjourney那套图像生成的思路：先铺一张噪声画布，然后逐步去噪，让内容「显影」出来。

具体来说：

模型先在「画布」上放置256个随机占位token
通过多轮迭代去噪，整块文字区域同时被处理
每个位置的token都能看到画布上所有其他位置的信息
直到可读内容浮现

DiffusionGemma生成原理对比图——左侧自回归模型逐token生成，右侧扩散模型整块并行去噪

一次处理256个token，而不是一次处理1个。 这把推理瓶颈从内存带宽转移到了计算能力上——而计算能力恰恰是GPU最擅长的事。

实测数据：快是真的快

谷歌和英伟达都给出了实测数据：

| 硬件 | 吞吐量 | |------|--------| | NVIDIA H100 (FP8) | 1000-1100+ tokens/s | | NVIDIA DGX Station | 最高2000 tokens/s | | NVIDIA DGX Spark | 约150 tokens/s | | GeForce RTX 5090 | 700+ tokens/s |

作为对比，同架构的Gemma 4在相同条件下大约是303 tokens/s。DiffusionGemma快了接近4倍。

更关键的是硬件门槛。DiffusionGemma总参数约260亿，但采用MoE（混合专家）架构，推理时只激活38亿参数。经过量化处理后，模型只占约18GB显存，RTX 4090、5090这种消费级显卡本地就能跑。

这个速度优势有明确的适用范围。谷歌在文档里写得很清楚：

✅ 本地部署、单用户、低并发场景
✅ 对延迟敏感的交互式应用
❌ 高QPS的云端大规模服务（并行解码的边际效益递减）
❌ 共享内存架构（如Apple Silicon Mac，自回归模型本来就不太受内存带宽限制）

换句话说，这是一个为本地推理场景专门优化的模型。

质量换速度：谷歌自己打的差评

速度快4倍，代价是什么？

谷歌没藏着掖着。官方文档里直接放了对比图：

| 基准测试 | DiffusionGemma | Gemma 4 | |----------|----------------|---------| | AIME 2026 (数学) | 69.1% | 88.3% | | MMMU Pro (多模态) | 54.3% | 73.8% | | 多语言问答 | 略低 | 更高 | | 代码生成 | 略低 | 更高 | | 科学知识 | 略低 | 更高 |

数学能力差了近20个百分点，多模态差了近20个百分点。 这不是微调能补回来的差距。

谷歌对此的态度很务实：

这是一款为了「把速度推到极限而刻意妥协品质」的实验性模型。高质量的生产级输出，请继续用Gemma 4。

但质量下降不意味着这个模型没用。扩散架构有一些自回归模型天生做不好的事情。

双向注意力：扩散模型的独特优势

自回归模型生成文本时，每个token只能「往左看」——它能看到之前生成的所有内容，但看不到后面会写什么。这在大多数场景下没问题，但有些任务天生需要「前后兼顾」。

数独就是典型例子。 每个格子同时受行、列、九宫格三重约束。自回归模型从左到右一格格填，填到后面发现前面错了，但已经改不了了。

DiffusionGemma的扩散架构支持双向注意力——去噪时，画布上每个位置都能看到所有其他位置的信息。哪个token置信度下降了，采样器可以把它打回噪声状态重新生成。

谷歌展示了一个微调后的DiffusionGemma解数独的演示：整盘并行去噪，几步之内同时收敛，而不是从左到右一格格填。

类似的还有：

代码填充（infilling）：在已有代码的中间插入内容，需要同时考虑前文和后文
行内编辑：修改段落中间的一句话，保持前后连贯
Markdown格式闭合：扩散模型能一次性把括号、标签配对写好，而不是写到一半才发现没闭合
氨基酸序列生成：蛋白质结构的约束是全局的
数学图形构建：几何关系需要整体协调

谷歌把这类任务统称为「非线性文本生成」。 这是扩散架构真正有优势的地方，而不仅仅是「快但糙」。

技术细节：块自回归与MoE

DiffusionGemma不是纯粹的扩散模型，它采用块自回归（block-autoregressive） 策略：

生成一个256-token的画布
多轮去噪直到内容成形
把这256个token写入KV缓存
开下一张新画布，接着上文继续生成

这样既保留了扩散模型的并行优势，又能生成任意长度的文本。

架构上，DiffusionGemma基于Gemma 4的26B参数MoE架构。MoE的核心思想是：模型里有多个「专家子网络」，每次推理只激活最相关的那几个，而不是整个模型一起运转。

260亿总参数，推理时只激活38亿。 这是它能塞进消费级显卡的关键。

英伟达这次也下了功夫做适配：

原生支持NVFP4（4-bit浮点）格式，接近无损精度的同时进一步提升吞吐
CUDA栈发布当天就能跑，不需要专门调优
在Hugging Face上同时放了BF16精度版和NVFP4轻量版

生态支持：开箱即用

这次发布的完成度很高。谷歌直接给出了全家桶支持：

Hugging Face Transformers：标准集成
vLLM：给了OpenAI兼容的本地部署命令，下完权重就能起服务
Unsloth：支持高效微调

英伟达在发布当天就在build.nvidia.com挂了免费在线入口，可以直接试用。

模型地址：google/diffusiongemma-26B-A4B-it

对于想在本地跑的开发者，vLLM的部署命令大概是这个流程：

下载模型权重（约18GB量化版）
启动vLLM服务，指定模型路径
通过OpenAI兼容的API调用

具体命令和参数建议直接看Hugging Face模型卡的说明，会随版本更新。

扩散文本生成的竞争格局

扩散模型做文本生成不是新概念，但之前一直停留在论文和闭源产品阶段。

Inception Labs的Mercury系列是商用化走得最快的。2026年2月发布的Mercury 2主打「相对速度优化模型最高5倍加速」，早期材料里甚至出现过「最高10倍吞吐」的说法。但Mercury真正开源的只有1.3B一档，参数量太小，实用性有限。

谷歌自己的Gemini Diffusion在2025年5月的I/O大会上就展示过，速度做到1479 tokens/s，比DiffusionGemma还快。但权重没有公开，开发者用不了。

DiffusionGemma的独特之处在于三样东西凑齐了：

前沿实验室出品（DeepMind）
权重完全开源（Apache 2.0）
消费级硬件本地可用（18GB显存）

这是扩散文本生成技术第一次以这种完成度走向开发者社区。

适用场景：什么时候该用它

根据谷歌的官方指南和实际特性，DiffusionGemma适合这些场景：

不推荐使用

生产级内容输出：对文本质量要求高的场景，用Gemma 4
高并发云端服务：QPS高时扩散的优势会递减
Apple Silicon Mac：共享内存架构下优势不明显
数学推理和复杂逻辑：这是它明确的短板

值得探索

结合微调的垂直场景：谷歌展示了数独微调的效果，类似的约束求解任务可能有意外收获
与自回归模型的混合流水线：快速生成初稿 + 高质量模型润色
边缘设备部署：18GB显存意味着更多硬件选择

对行业的意义

扩散模型在图像生成领域已经是绝对主流。Stable Diffusion、Midjourney、DALL-E 3，全是扩散架构。但在文本生成领域，自回归一直是唯一的选择。

DiffusionGemma代表的是架构多样性的开始。

它不会取代GPT、Claude这些自回归模型——至少在通用质量上差距明显。但它证明了：

扩散架构在文本生成上是可行的，而且有独特优势
速度和质量的权衡可以是显式的，针对不同场景选择不同架构
本地部署场景值得专门优化，不是所有模型都要瞄准云端

对于开发者来说，这意味着工具箱里多了一个选项。当你的应用场景是「本地、低延迟、可以接受质量略降」时，现在有了一个正经的开源方案。

谷歌把这个模型定位为「实验性」，但发布的完成度（开源权重、多框架支持、消费级硬件可用）已经超出了实验的范畴。它更像是在给整个行业打样：扩散文本生成可以这么做。

接下来看其他厂商跟不跟了。

参考来源

google/diffusiongemma-26B-A4B-it - Hugging Face - 模型权重和官方文档
探索文本生成新范式：谷歌开源4倍提速的实验性扩散语言模型 - 知乎 - 技术原理中文解读
Google Deepmind just dropped DiffusionGemma - Reddit - 社区讨论和反馈

扩散模型杀入文本生成：谷歌开源DiffusionGemma

扩散模型杀入文本生成：谷歌开源DiffusionGemma，速度提升4倍

不是打字机，是冲洗照片

实测数据：快是真的快

质量换速度：谷歌自己打的差评

双向注意力：扩散模型的独特优势

技术细节：块自回归与MoE

生态支持：开箱即用

扩散文本生成的竞争格局

适用场景：什么时候该用它

推荐使用

不推荐使用

值得探索

对行业的意义

参考来源

相关推荐

Modal 推出 Auto Endpoints：开发者自托管的推理黑科技

GPT-5 Pro破解三年免疫学谜题，AI科研范式已经变了

Anthropic推出Claude Tag：让AI潜入Slack偷师你的公司

联系我们