谷歌 DeepMind 于 6 月 10 日发布并开源实验性模型 DiffusionGemma，采用文本扩散架构，一次性并行生成 256 个 token，在 H100 上突破 1000 token/秒，本地推理速度较自回归 LLM 最高提升 4 倍。

谷歌开源 DiffusionGemma：扩散模型杀入文本生成，速度狂飙 4 倍

6 月 10 日深夜，谷歌 DeepMind 悄然向 Gemma 家族投下一颗重磅炸弹——DiffusionGemma。这款以 Apache 2.0 协议开源的 260 亿参数 MoE 模型，没有继续走 GPT、Gemini 们走熟了的「自回归打字机」老路，而是把图像生成圈里大杀四方的扩散模型（Diffusion Model）思路一把拽进了文本生成赛道。代价是输出质量略有妥协，回报则是惊人的速度数字：单张 H100 上每秒吐出超过 1000 个 token，RTX 5090 也能稳稳跑出 700+ token/s，相较同级自回归模型在本地低延迟场景下最高提速约 4 倍。

谷歌 CEO 桑达尔·皮查伊在 X 上用一句俏皮话给它盖章：「速度像赛马一样快 🏇。」DeepMind 官方博客的措辞也罕见地直白——「我们要把生成速度推到极限」。

DiffusionGemma 在画布上从随机占位 token 经多轮去噪迭代逐步收敛为可读文本的示意图

一、不再「逐字蹦」：扩散模型如何改写文本生成范式

要理解 DiffusionGemma 的颠覆性，得先回顾一下当前主流大模型的工作方式。

GPT-5、Claude、Gemini、DeepSeek……几乎所有「对话式」LLM 都建立在**自回归（Autoregressive）**框架之上。它们就像一台老式打字机：必须先吐出第一个 token，才能把它拼回上下文，再去预测第二个；第二个出来后再预测第三个……如此循环往复，从左到右严格串行。

这种范式在云端高并发场景下其实非常香——服务端可以把成千上万个用户请求打包成 batch，一次性灌满整张 GPU，硬件吃得满满当当。但场景一旦切到单用户的本地推理，问题立刻浮现：

GPU/TPU 大部分时间在「等下一个键」，算力严重闲置
解码瓶颈被锁死在内存带宽上，而非真正的计算单元
用户写一段、改一句，模型往往要重新生成一整段，体验割裂
端侧硬件再强，也榨不出该有的吞吐

DiffusionGemma 反其道而行：一次性在「画布」上撒下 256 个随机占位 token，然后通过多轮迭代去噪——先把已经生成准确的 token 锁定下来作为上下文，再持续修正剩余的「噪声 token」，层层打磨直至整段文本收敛成通顺、可读的最终结果。

这套逻辑和 Stable Diffusion 从随机噪点生成图像几乎一模一样，只不过画布上的像素换成了文字 token。每一步前向计算都能并行处理整块 256 token，每个 token 都能「看见」其他 token，硬件每次拿到的是一大坨计算任务，而不是一颗孤零零的下一字预测。

二、26B 总参、3.8B 激活：MoE 把成本压到 18GB 显存

DiffusionGemma 的另一个关键词是 MoE（Mixture of Experts，混合专家）。

官方公布的参数配置颇具看点：

总参数量：约 260 亿（26B）
单步实际激活：仅约 38 亿（3.8B）
并行 token 块大小：256
量化后显存占用：约 18GB VRAM
许可证：Apache 2.0

MoE 的核心思想是「多个专家子网并排站，模型按需点名」，避免每一步都让全部 260 亿参数空转。这让 DiffusionGemma 在量化后能塞进一块高端消费级独显——是的，RTX 4090 / 5090 单卡就能跑，对个人开发者和小团队极为友好。

DeepMind 此次还和英伟达打通了全硬件栈优化，模型原生支持 NVFP4 内核，可在 Hopper（H100、H200）与 Blackwell（B200、RTX 50 系列）架构上发挥最大性能，同时也针对面向桌面的 DGX Spark、DGX Station 和面向专业人员的 RTX PRO 系列做了适配。

英伟达官方实测数据：

| 硬件 | 单请求生成速度 | | --- | --- | | NVIDIA H100 | ~1,000+ token/s | | DGX Station | ~800 token/s | | GeForce RTX 5090 | ~700+ token/s | | DGX Spark | ~150 token/s |

对照单张消费级显卡运行 Llama 3、Gemma 2 这类同尺寸自回归模型常见的 100~200 token/s，DiffusionGemma 在本地推理场景下的速度优势达到了肉眼可见的 3–4 倍。

三、不只是「快」：双向注意力解锁的新玩法

速度只是表象，DiffusionGemma 真正有意思的地方在于——它把传统自回归模型啃不动的几类任务，变成了天然适配场景。

1. 行内编辑与实时补全

用户写到一半改一句，自回归模型往往要从修改点之后整段重生；而 DiffusionGemma 把整块文本视为一张可反复打磨的画布，可以原地局部修正，对 IDE 内代码补全、Markdown 实时渲染、文档行内润色等场景天然友好。

2. 智能自纠错

模型在迭代过程中能一次性扫描整段输出，发现前后矛盾立刻校正，而不是像自回归那样一旦写错只能将错就错。这一特性对长文逻辑一致性和事实约束有正面意义。

3. 非线性结构生成

代码块、数学公式图谱、氨基酸序列、SVG 这类**「后面的 token 反过来约束前面 token」**的非线性内容，是自回归模型的传统弱项。DiffusionGemma 的双向注意力机制让它处理这类任务时如鱼得水。Hugging Face 已经放出 demo，演示模型根据文字描述直接生成 3D SVG 图形的完整过程。

4. 数独这种「全局约束」任务

开源微调框架 Unsloth 用 DiffusionGemma 微调了一个数独求解器。数独里每个格子都和其他格子相互制约，自回归模型基本只能瞎猜；而 DiffusionGemma 的双向注意力让全局约束求解变得自然。

Unsloth 微调后的 DiffusionGemma 在求解数独的迭代过程演示

四、坦诚的妥协：哪些场景不该用它

这一次 DeepMind 罕见地把丑话说在了前面：DiffusionGemma 是一个为速度而刻意妥协质量的实验性模型，整体输出质量低于标准版 Gemma 4。

官方的场景边界划得很清楚：

适合：

本地、低并发、单用户的实时交互
IDE 内行内编辑与代码补全
需要反复快速迭代的本地化工作流
非线性结构文本（SVG、Markdown、数独、数学图谱等）

不适合：

高 QPS 的云端大规模服务：自回归模型本来就能靠 batch 把 GPU 吃满，DiffusionGemma 的并行解码边际效益快速递减，反而可能推高单位 token 成本
对文本质量要求极高的生产环境：单请求速度虽是 Gemma 4 的约 3.65×，但质量略逊一筹，正式产品仍建议用 Gemma 4 标准版
共享内存架构（如 Apple Silicon Mac）：M 系列芯片本就不受显存带宽掣肘，自回归模型在统一内存上跑得已经够快，DiffusionGemma 的加速比会明显缩水

这种「先讲清楚不适用场景」的发布姿态，在大厂模型卡里其实并不常见，也说明 DeepMind 把它定位得相当务实——一次面向研究者和发烧友的前沿探索，而不是要立刻替代谁。

五、模型权重与上手方式

模型权重已在 Hugging Face 公开，指令微调版本叫 DiffusionGemma 26B A4B-it（26B 总参、单步激活约 3.8B、指令微调版）。Transformers 库也同步合入了相应支持，社区已经能直接拉起来跑。

# 拉取模型权重
huggingface-cli download google/diffusiongemma-26B-A4B-it

# 安装最新版 transformers（已支持 diffusion head）
pip install -U transformers accelerate

推荐的本地硬件门槛：

最低：RTX 4090（24GB VRAM），需 NVFP4 量化
推荐：RTX 5090（32GB VRAM），可跑更高精度
企业级：H100 / H200 / B200，可冲单卡 1000+ token/s

六、扩散文本模型，这次能走多远？

扩散模型尝试进入文本生成领域并不是新鲜事。早在 Diffusion-LM、SSD-LM 等学术工作里，研究者就一再试图把图像扩散的成功复制到文本上，但都因为自然语言对语法顺序、上下文连贯、事实约束的依赖远高于图像像素而被自回归路线压制。

生成得快，不等于写得稳——这是扩散文本模型多年没能成为主流的根本原因。

DiffusionGemma 的意义，并不在于它要立刻把 GPT 们掀翻，而在于它第一次在开放权重的工业级模型上，把扩散路线跑出了实打实的速度优势，并且把这条路从论文里搬到了 RTX 4090 上。它能不能在长文本生成、复杂问答、事实准确性上真正逼近主流自回归模型，还需要社区独立评测来给答案。

但有一点已经清楚：

随着端侧 AI、本地部署、隐私敏感场景的需求持续升温，「在生成质量、推理速度与硬件成本之间找到新平衡」 正成为大模型下一阶段最重要的竞争维度之一。

自回归不会被取代，但单一架构垄断的局面也许正在松动。DiffusionGemma 更像谷歌抛出的一个问号——既给了开发者一个可立刻动手玩的 26B 玩具，也给整个行业留下了一道值得长期回答的题目。

至少在今晚，那些挤在 4090 前等 token 蹦字的人，可以先体验一下 1000 token/s 的快感了。

参考来源

DiffusionGemma 26B A4B-it 模型权重（Hugging Face） — 谷歌官方开源的指令微调版本，可直接下载部署
Hugging Face Transformers 仓库 — 已合入 DiffusionGemma 的 diffusion head 支持，本地推理的主要依赖

谷歌开源 DiffusionGemma：扩散模型杀入文本生成，速度狂飙 4 倍

谷歌开源 DiffusionGemma：扩散模型杀入文本生成，速度狂飙 4 倍

一、不再「逐字蹦」：扩散模型如何改写文本生成范式

二、26B 总参、3.8B 激活：MoE 把成本压到 18GB 显存

三、不只是「快」：双向注意力解锁的新玩法

1. 行内编辑与实时补全

2. 智能自纠错

3. 非线性结构生成

4. 数独这种「全局约束」任务

四、坦诚的妥协：哪些场景不该用它

五、模型权重与上手方式

六、扩散文本模型，这次能走多远？

参考来源

相关推荐

Teams终于治好了会议资料找不到的病

扩散模型杀入文本生成，速度提升4倍

GPT-5.6来了：三档定价，政府限流

联系我们