扩散模型杀入文本生成,谷歌押注速度换质量

Google DeepMind 开源 DiffusionGemma,用图像生成的扩散思路做文本。单卡 H100 跑出 1100 tokens/s,比自家 Gemma 4 快 4 倍,但数学、科学等硬指标全面落后。这不是升级,是一场架构实验。
扩散模型杀入文本生成,谷歌押注速度换质量
6 月 10 日,Google DeepMind 在 Hugging Face 上线了 DiffusionGemma,Apache 2.0 许可,权重全开。
这不是 Gemma 4 的升级版。谷歌官方指南里写得很直白:它不如自家旧款。
一家大厂发新模型,话术从来是「更强」「更快」「全面领先」。这次谷歌反着来,主动认怂。背后的逻辑是什么?
不是打字机,是冲洗照片
当前主流的大语言模型——GPT、Claude、Gemini——都是自回归架构。生成文本的方式像打字机:从左往右,一个 token 接一个 token,吐出去的字改不了。开头错一个,能一路错到结尾。
DiffusionGemma 换了一套玩法。
它借用了图像生成领域「扩散模型」的思路:先铺一张 256 个随机占位 token 的「画布」,再通过多轮并行去噪,让整段文字一次性「冲洗」成形。

这个比喻来自 Sundar Pichai 本人。他在 X 上发帖,把 DiffusionGemma 比作「一匹赛马」:靠同时生成整段文本块、而不是逐字预测来抢速度。
去噪时,画布上每个位置都能看到其他所有位置。哪个 token 置信度掉下来了,采样器能把它打回噪声、重改一遍。这是双向注意力的天然优势——传统自回归模型只能往左看,已经吐出去的字没法回头。
一个直观的好处:复杂的 Markdown 格式能一次性闭合收尾,而不是写到一半才发现括号没配上。
1100 tokens/s 是怎么跑出来的
官方成绩单:
- 单张 H100(FP8、低 batch):1107 tokens/s
- 消费级 RTX 5090:700+ tokens/s
- DGX Station:最高 2000 tokens/s
- DGX Spark:150 tokens/s
同等条件下,Gemma 4 是 303 tokens/s。DiffusionGemma 快了接近 4 倍。
这个速度优势的来源,不是什么黑魔法,而是 GPU 的物理特性。
逐 token 的自回归推理,本质是个内存带宽瓶颈(memory-bound):每吐一个字,GPU 都得把模型权重从显存里搬一遍。大部分时间在等数据搬运,真正算数的算力反倒闲着。
而 DiffusionGemma 一次性把 256 个 token 并行推过 transformer,变成了计算瓶颈(compute-bound)的活儿。这正好喂饱 NVIDIA 的 Tensor Core——平时本地单用户推理最闲的部分,现在满载运转。
换句话说,这个模型的设计,几乎是冲着 GPU 的长处去的。
英伟达也在发布当天就做好了适配。Hugging Face 上放了两个版本:
- 标准版(BF16):精度高
- 轻量版(NVFP4):4-bit 浮点,更小更快
量化之后,DiffusionGemma 只占大约 18GB 显存。RTX 5090、4090 这种游戏卡,本地就能跑。
速度的代价:全面落后的质量基准
谷歌这次的「认怂」不是客套,是真有差距。
| 基准测试 | DiffusionGemma | Gemma 4 | |---------|---------------|--------| | AIME 2026(数学) | 69.1% | 88.3% | | MMMU Pro(多模态) | 54.3% | 73.8% | | GPQA Diamond(科学推理) | 40.4% | 56.5% | | BIG-Bench Extra Hard | 15.0% | 21.0% |
差得最狠的是数学,接近 20 个百分点的鸿沟。多模态、科学推理同样落后明显。
代码生成倒是互有胜负:LiveCodeBench 30.9%,BigCodeBench 45.4%,HumanEval 89.6%,和 Gemini 2.0 Flash-Lite 基本打平。
谷歌的定位很清晰:这是一款为了把速度推到极限而刻意妥协质量的实验性模型。
适合什么场景?
- 本地交互、行内编辑
- 需要快速迭代的草稿生成
- 非线性文本结构(比如数独、代码中插)
不适合什么?
- 高质量的生产级输出(谷歌建议继续用 Gemma 4)
- 云端大规模服务、高 QPS 场景(并行解码的边际效益会快速递减)
- Apple Silicon Mac(共享内存架构下,自回归模型本来就不太受内存带宽限制)
双向注意力的甜区:数独和代码中插
虽然整体质量落后,但在某些特定任务上,DiffusionGemma 反而占便宜。
数独是个典型例子。每个格子都被横、竖和九宫格同时约束,必须前后兼顾。逐 token 模型天生别扭——只能从左往右填,没法回头。
微调后的 DiffusionGemma 解数独:不是从左到右一格格填,而是整盘并行去噪,几步之内同时收敛。
代码中插(infilling)也是同理。你要在一段代码中间补一个函数,前后文都得照顾。扩散的全局视角反而比打字机顺手。
这类前后强约束的任务,恰恰是逐 token 模型最头疼、双向注意力最占便宜的场景。
架构细节:MoE + 块自回归
DiffusionGemma 的底子是 Gemma 4 的 26B A4B 混合专家(MoE)架构:
- 总参数:约 252 亿
- 推理时激活:约 38 亿
名义上 260 亿参数,但每一步实际只动用 38 亿。背后关键是 MoE 架构——多个专家子网络并排,模型只挑最需要的那几个上场,避免全模型满载运转。
生成方式是块自回归(block-autoregressive):一张 256-token 的画布去噪完,写进 KV 缓存,再开下一张新画布,接着上文往下生成。
这个设计兼顾了扩散的并行优势和自回归的长文本生成能力。
生态支持:开箱即用
这次谷歌不只是放了个权重文件,而是端出了全家桶:
- Hugging Face Transformers:原生支持
- vLLM:直接给了 OpenAI 兼容的本地部署命令
- Unsloth:支持微调
vLLM 的部署方式,下完权重就能起一个本地服务:
python -m vllm.entrypoints.openai.api_server \
--model google/diffusiongemma-26B-A4B-it \
--dtype bfloat16 \
--max-model-len 8192
英伟达也在自家网站 build.nvidia.com 挂了免费在线入口,可以直接体验。
扩散文本生成不是新概念,但这次不一样
扩散模型做文本生成的尝试,业内已经有人跑通了。
Inception Labs 的 Mercury 系列于 2026 年 2 月发布,官方主打相对速度优化模型最高 5 倍加速。早期材料和第三方评测中也出现过「最高 10 倍吞吐」的描述。
但 Mercury 真正开源的变体只有 1.3B 一档,个头偏小。
连谷歌自己,2025 年 5 月的 I/O 上就发过 Gemini Diffusion,速度做到 1479 tokens/s,但权重并没放出来。
DiffusionGemma 不一样的地方,在于它把三样东西凑齐了:
- 前沿实验室出品(Google DeepMind)
- 开源权重(Apache 2.0)
- 消费级显卡本地就能跑(18GB 显存)
这是第一次,开发者能在自己的 4090 上跑一个来自顶级实验室的扩散文本模型。
这对开发者意味着什么
本地推理的新选择
如果你的场景是:
- 单用户、单机
- 对延迟敏感
- 质量要求不是顶级
DiffusionGemma 可能是目前最快的开源方案。
架构研究的新素材
扩散文本生成一直是学术热点,但缺乏足够规模的开源模型做基准。DiffusionGemma 的出现,给研究者提供了一个可复现、可微调的起点。
对云端服务的影响有限
在高并发、高 QPS 的云端场景,并行解码的边际效益会快速递减。自回归模型通过 batch 化请求,已经能很好地利用 GPU 算力。DiffusionGemma 的速度优势在这种场景下会被稀释。
谷歌在赌什么
发一个「不如旧款」的模型,谷歌图什么?
我的判断是:谷歌在押注架构多样性。
自回归模型统治文本生成领域已经很多年了。它的优势是成熟、稳定、生态完善。但它也有天然的局限——逐 token 生成的串行性质,在某些场景下就是瓶颈。
扩散模型提供了一条不同的路径。它不一定会取代自回归,但可能会在特定场景下成为更好的选择。
谷歌选择开源这个实验性模型,而不是等它「完善」了再发,说明他们想让社区一起来探索这条路。
这和 Llama 当年的策略类似:先开源、先建生态、先占位。质量可以慢慢迭代,但生态建立需要时间。
局限性和未来展望
当前的局限:
- 数学、科学推理等硬指标明显落后
- 高并发场景优势不明显
- 在 Apple Silicon 等共享内存架构上加速效果有限
值得期待的方向:
- 质量基准的持续改进(这是个实验性模型,未来版本应该会补上)
- 更多针对扩散架构的优化技术(采样策略、去噪调度等)
- 和自回归模型的混合架构探索
写在最后
DiffusionGemma 不是一个「更好」的模型,而是一个「不同」的模型。
它用速度换质量,用并行换精度,用实验性换确定性。这不是每个人都需要的取舍,但对于特定场景——本地交互、快速迭代、非线性生成——它可能是目前最好的选择。
谷歌主动认怂的姿态,反而让人对这个项目更有好感。比起那些吹得天花乱坠最后让人失望的发布,诚实地说「它不如旧款,但它快」,是一种值得尊重的务实。
扩散模型能不能在文本生成领域站稳脚跟?这还是个开放问题。但至少,谷歌已经把牌摊在桌上了。
参考来源:
- DiffusionGemma 模型页面 - Hugging Face:官方模型权重下载
- 探索文本生成新范式 - 知乎专栏:技术原理解析



