Google DeepMind 开源 DiffusionGemma，用图像生成的扩散思路做文本。单卡 H100 跑出 1100 tokens/s，比自家 Gemma 4 快 4 倍，但数学、科学等硬指标全面落后。这不是升级，是一场架构实验。

扩散模型杀入文本生成，谷歌押注速度换质量

6 月 10 日，Google DeepMind 在 Hugging Face 上线了 DiffusionGemma，Apache 2.0 许可，权重全开。

这不是 Gemma 4 的升级版。谷歌官方指南里写得很直白：它不如自家旧款。

一家大厂发新模型，话术从来是「更强」「更快」「全面领先」。这次谷歌反着来，主动认怂。背后的逻辑是什么？

不是打字机，是冲洗照片

当前主流的大语言模型——GPT、Claude、Gemini——都是自回归架构。生成文本的方式像打字机：从左往右，一个 token 接一个 token，吐出去的字改不了。开头错一个，能一路错到结尾。

DiffusionGemma 换了一套玩法。

它借用了图像生成领域「扩散模型」的思路：先铺一张 256 个随机占位 token 的「画布」，再通过多轮并行去噪，让整段文字一次性「冲洗」成形。

左右对比图——左边自回归模型像打字机逐字输出，右边扩散模型在整块画布上同时去噪修正

这个比喻来自 Sundar Pichai 本人。他在 X 上发帖，把 DiffusionGemma 比作「一匹赛马」：靠同时生成整段文本块、而不是逐字预测来抢速度。

去噪时，画布上每个位置都能看到其他所有位置。哪个 token 置信度掉下来了，采样器能把它打回噪声、重改一遍。这是双向注意力的天然优势——传统自回归模型只能往左看，已经吐出去的字没法回头。

一个直观的好处：复杂的 Markdown 格式能一次性闭合收尾，而不是写到一半才发现括号没配上。

1100 tokens/s 是怎么跑出来的

官方成绩单：

单张 H100（FP8、低 batch）：1107 tokens/s
消费级 RTX 5090：700+ tokens/s
DGX Station：最高 2000 tokens/s
DGX Spark：150 tokens/s

同等条件下，Gemma 4 是 303 tokens/s。DiffusionGemma 快了接近 4 倍。

这个速度优势的来源，不是什么黑魔法，而是 GPU 的物理特性。

逐 token 的自回归推理，本质是个内存带宽瓶颈（memory-bound）：每吐一个字，GPU 都得把模型权重从显存里搬一遍。大部分时间在等数据搬运，真正算数的算力反倒闲着。

而 DiffusionGemma 一次性把 256 个 token 并行推过 transformer，变成了计算瓶颈（compute-bound）的活儿。这正好喂饱 NVIDIA 的 Tensor Core——平时本地单用户推理最闲的部分，现在满载运转。

换句话说，这个模型的设计，几乎是冲着 GPU 的长处去的。

英伟达也在发布当天就做好了适配。Hugging Face 上放了两个版本：

标准版（BF16）：精度高
轻量版（NVFP4）：4-bit 浮点，更小更快

量化之后，DiffusionGemma 只占大约 18GB 显存。RTX 5090、4090 这种游戏卡，本地就能跑。

速度的代价：全面落后的质量基准

谷歌这次的「认怂」不是客套，是真有差距。

| 基准测试 | DiffusionGemma | Gemma 4 | |---------|---------------|--------| | AIME 2026（数学） | 69.1% | 88.3% | | MMMU Pro（多模态） | 54.3% | 73.8% | | GPQA Diamond（科学推理） | 40.4% | 56.5% | | BIG-Bench Extra Hard | 15.0% | 21.0% |

差得最狠的是数学，接近 20 个百分点的鸿沟。多模态、科学推理同样落后明显。

代码生成倒是互有胜负：LiveCodeBench 30.9%，BigCodeBench 45.4%，HumanEval 89.6%，和 Gemini 2.0 Flash-Lite 基本打平。

谷歌的定位很清晰：这是一款为了把速度推到极限而刻意妥协质量的实验性模型。

适合什么场景？

本地交互、行内编辑
需要快速迭代的草稿生成
非线性文本结构（比如数独、代码中插）

不适合什么？

高质量的生产级输出（谷歌建议继续用 Gemma 4）
云端大规模服务、高 QPS 场景（并行解码的边际效益会快速递减）
Apple Silicon Mac（共享内存架构下，自回归模型本来就不太受内存带宽限制）

双向注意力的甜区：数独和代码中插

虽然整体质量落后，但在某些特定任务上，DiffusionGemma 反而占便宜。

数独是个典型例子。每个格子都被横、竖和九宫格同时约束，必须前后兼顾。逐 token 模型天生别扭——只能从左往右填，没法回头。

微调后的 DiffusionGemma 解数独：不是从左到右一格格填，而是整盘并行去噪，几步之内同时收敛。

代码中插（infilling）也是同理。你要在一段代码中间补一个函数，前后文都得照顾。扩散的全局视角反而比打字机顺手。

这类前后强约束的任务，恰恰是逐 token 模型最头疼、双向注意力最占便宜的场景。

架构细节：MoE + 块自回归

DiffusionGemma 的底子是 Gemma 4 的 26B A4B 混合专家（MoE）架构：

总参数：约 252 亿
推理时激活：约 38 亿

名义上 260 亿参数，但每一步实际只动用 38 亿。背后关键是 MoE 架构——多个专家子网络并排，模型只挑最需要的那几个上场，避免全模型满载运转。

生成方式是块自回归（block-autoregressive）：一张 256-token 的画布去噪完，写进 KV 缓存，再开下一张新画布，接着上文往下生成。

这个设计兼顾了扩散的并行优势和自回归的长文本生成能力。

生态支持：开箱即用

这次谷歌不只是放了个权重文件，而是端出了全家桶：

Hugging Face Transformers：原生支持
vLLM：直接给了 OpenAI 兼容的本地部署命令
Unsloth：支持微调

vLLM 的部署方式，下完权重就能起一个本地服务：

python -m vllm.entrypoints.openai.api_server \
    --model google/diffusiongemma-26B-A4B-it \
    --dtype bfloat16 \
    --max-model-len 8192

英伟达也在自家网站 build.nvidia.com 挂了免费在线入口，可以直接体验。

扩散文本生成不是新概念，但这次不一样

扩散模型做文本生成的尝试，业内已经有人跑通了。

Inception Labs 的 Mercury 系列于 2026 年 2 月发布，官方主打相对速度优化模型最高 5 倍加速。早期材料和第三方评测中也出现过「最高 10 倍吞吐」的描述。

但 Mercury 真正开源的变体只有 1.3B 一档，个头偏小。

连谷歌自己，2025 年 5 月的 I/O 上就发过 Gemini Diffusion，速度做到 1479 tokens/s，但权重并没放出来。

DiffusionGemma 不一样的地方，在于它把三样东西凑齐了：

前沿实验室出品（Google DeepMind）
开源权重（Apache 2.0）
消费级显卡本地就能跑（18GB 显存）

这是第一次，开发者能在自己的 4090 上跑一个来自顶级实验室的扩散文本模型。

这对开发者意味着什么

本地推理的新选择

如果你的场景是：

单用户、单机
对延迟敏感
质量要求不是顶级

DiffusionGemma 可能是目前最快的开源方案。

架构研究的新素材

扩散文本生成一直是学术热点，但缺乏足够规模的开源模型做基准。DiffusionGemma 的出现，给研究者提供了一个可复现、可微调的起点。

对云端服务的影响有限

在高并发、高 QPS 的云端场景，并行解码的边际效益会快速递减。自回归模型通过 batch 化请求，已经能很好地利用 GPU 算力。DiffusionGemma 的速度优势在这种场景下会被稀释。

谷歌在赌什么

发一个「不如旧款」的模型，谷歌图什么？

我的判断是：谷歌在押注架构多样性。

自回归模型统治文本生成领域已经很多年了。它的优势是成熟、稳定、生态完善。但它也有天然的局限——逐 token 生成的串行性质，在某些场景下就是瓶颈。

扩散模型提供了一条不同的路径。它不一定会取代自回归，但可能会在特定场景下成为更好的选择。

谷歌选择开源这个实验性模型，而不是等它「完善」了再发，说明他们想让社区一起来探索这条路。

这和 Llama 当年的策略类似：先开源、先建生态、先占位。质量可以慢慢迭代，但生态建立需要时间。

局限性和未来展望

当前的局限：

数学、科学推理等硬指标明显落后
高并发场景优势不明显
在 Apple Silicon 等共享内存架构上加速效果有限

值得期待的方向：

质量基准的持续改进（这是个实验性模型，未来版本应该会补上）
更多针对扩散架构的优化技术（采样策略、去噪调度等）
和自回归模型的混合架构探索

写在最后

DiffusionGemma 不是一个「更好」的模型，而是一个「不同」的模型。

它用速度换质量，用并行换精度，用实验性换确定性。这不是每个人都需要的取舍，但对于特定场景——本地交互、快速迭代、非线性生成——它可能是目前最好的选择。

谷歌主动认怂的姿态，反而让人对这个项目更有好感。比起那些吹得天花乱坠最后让人失望的发布，诚实地说「它不如旧款，但它快」，是一种值得尊重的务实。

扩散模型能不能在文本生成领域站稳脚跟？这还是个开放问题。但至少，谷歌已经把牌摊在桌上了。

参考来源：

DiffusionGemma 模型页面 - Hugging Face：官方模型权重下载
探索文本生成新范式 - 知乎专栏：技术原理解析

扩散模型杀入文本生成，谷歌押注速度换质量

扩散模型杀入文本生成，谷歌押注速度换质量

不是打字机，是冲洗照片

1100 tokens/s 是怎么跑出来的

速度的代价：全面落后的质量基准

双向注意力的甜区：数独和代码中插

架构细节：MoE + 块自回归

生态支持：开箱即用

扩散文本生成不是新概念，但这次不一样

这对开发者意味着什么

本地推理的新选择

架构研究的新素材

对云端服务的影响有限

谷歌在赌什么

局限性和未来展望

写在最后

相关推荐

马斯克算力帝国再扩张：SpaceX拿下63亿美元AI订单

0.2B 参数干翻 10B 巨头，Moebius 重新定义图像修复效率天花板

英伟达把机器人安全做成了全栈：Halos for Robotics 发布

联系我们