谷歌开源 DiffusionGemma:扩散模型杀入文本生成,速度狂飙 4 倍

谷歌 DeepMind 于 6 月 10 日发布并开源实验性模型 DiffusionGemma,采用文本扩散架构,一次性并行生成 256 个 token,在 H100 上突破 1000 token/秒,本地推理速度较自回归 LLM 最高提升 4 倍。
谷歌开源 DiffusionGemma:扩散模型杀入文本生成,速度狂飙 4 倍
6 月 10 日深夜,谷歌 DeepMind 悄然向 Gemma 家族投下一颗重磅炸弹——DiffusionGemma。这款以 Apache 2.0 协议开源的 260 亿参数 MoE 模型,没有继续走 GPT、Gemini 们走熟了的「自回归打字机」老路,而是把图像生成圈里大杀四方的扩散模型(Diffusion Model)思路一把拽进了文本生成赛道。代价是输出质量略有妥协,回报则是惊人的速度数字:单张 H100 上每秒吐出超过 1000 个 token,RTX 5090 也能稳稳跑出 700+ token/s,相较同级自回归模型在本地低延迟场景下最高提速约 4 倍。
谷歌 CEO 桑达尔·皮查伊在 X 上用一句俏皮话给它盖章:「速度像赛马一样快 🏇。」DeepMind 官方博客的措辞也罕见地直白——「我们要把生成速度推到极限」。

一、不再「逐字蹦」:扩散模型如何改写文本生成范式
要理解 DiffusionGemma 的颠覆性,得先回顾一下当前主流大模型的工作方式。
GPT-5、Claude、Gemini、DeepSeek……几乎所有「对话式」LLM 都建立在**自回归(Autoregressive)**框架之上。它们就像一台老式打字机:必须先吐出第一个 token,才能把它拼回上下文,再去预测第二个;第二个出来后再预测第三个……如此循环往复,从左到右严格串行。
这种范式在云端高并发场景下其实非常香——服务端可以把成千上万个用户请求打包成 batch,一次性灌满整张 GPU,硬件吃得满满当当。但场景一旦切到单用户的本地推理,问题立刻浮现:
- GPU/TPU 大部分时间在「等下一个键」,算力严重闲置
- 解码瓶颈被锁死在内存带宽上,而非真正的计算单元
- 用户写一段、改一句,模型往往要重新生成一整段,体验割裂
- 端侧硬件再强,也榨不出该有的吞吐
DiffusionGemma 反其道而行:一次性在「画布」上撒下 256 个随机占位 token,然后通过多轮迭代去噪——先把已经生成准确的 token 锁定下来作为上下文,再持续修正剩余的「噪声 token」,层层打磨直至整段文本收敛成通顺、可读的最终结果。
这套逻辑和 Stable Diffusion 从随机噪点生成图像几乎一模一样,只不过画布上的像素换成了文字 token。每一步前向计算都能并行处理整块 256 token,每个 token 都能「看见」其他 token,硬件每次拿到的是一大坨计算任务,而不是一颗孤零零的下一字预测。
二、26B 总参、3.8B 激活:MoE 把成本压到 18GB 显存
DiffusionGemma 的另一个关键词是 MoE(Mixture of Experts,混合专家)。
官方公布的参数配置颇具看点:
- 总参数量:约 260 亿(26B)
- 单步实际激活:仅约 38 亿(3.8B)
- 并行 token 块大小:256
- 量化后显存占用:约 18GB VRAM
- 许可证:Apache 2.0
MoE 的核心思想是「多个专家子网并排站,模型按需点名」,避免每一步都让全部 260 亿参数空转。这让 DiffusionGemma 在量化后能塞进一块高端消费级独显——是的,RTX 4090 / 5090 单卡就能跑,对个人开发者和小团队极为友好。
DeepMind 此次还和英伟达打通了全硬件栈优化,模型原生支持 NVFP4 内核,可在 Hopper(H100、H200)与 Blackwell(B200、RTX 50 系列)架构上发挥最大性能,同时也针对面向桌面的 DGX Spark、DGX Station 和面向专业人员的 RTX PRO 系列做了适配。
英伟达官方实测数据:
| 硬件 | 单请求生成速度 | | --- | --- | | NVIDIA H100 | ~1,000+ token/s | | DGX Station | ~800 token/s | | GeForce RTX 5090 | ~700+ token/s | | DGX Spark | ~150 token/s |
对照单张消费级显卡运行 Llama 3、Gemma 2 这类同尺寸自回归模型常见的 100~200 token/s,DiffusionGemma 在本地推理场景下的速度优势达到了肉眼可见的 3–4 倍。
三、不只是「快」:双向注意力解锁的新玩法
速度只是表象,DiffusionGemma 真正有意思的地方在于——它把传统自回归模型啃不动的几类任务,变成了天然适配场景。
1. 行内编辑与实时补全
用户写到一半改一句,自回归模型往往要从修改点之后整段重生;而 DiffusionGemma 把整块文本视为一张可反复打磨的画布,可以原地局部修正,对 IDE 内代码补全、Markdown 实时渲染、文档行内润色等场景天然友好。
2. 智能自纠错
模型在迭代过程中能一次性扫描整段输出,发现前后矛盾立刻校正,而不是像自回归那样一旦写错只能将错就错。这一特性对长文逻辑一致性和事实约束有正面意义。
3. 非线性结构生成
代码块、数学公式图谱、氨基酸序列、SVG 这类**「后面的 token 反过来约束前面 token」**的非线性内容,是自回归模型的传统弱项。DiffusionGemma 的双向注意力机制让它处理这类任务时如鱼得水。Hugging Face 已经放出 demo,演示模型根据文字描述直接生成 3D SVG 图形的完整过程。
4. 数独这种「全局约束」任务
开源微调框架 Unsloth 用 DiffusionGemma 微调了一个数独求解器。数独里每个格子都和其他格子相互制约,自回归模型基本只能瞎猜;而 DiffusionGemma 的双向注意力让全局约束求解变得自然。

四、坦诚的妥协:哪些场景不该用它
这一次 DeepMind 罕见地把丑话说在了前面:DiffusionGemma 是一个为速度而刻意妥协质量的实验性模型,整体输出质量低于标准版 Gemma 4。
官方的场景边界划得很清楚:
适合:
- 本地、低并发、单用户的实时交互
- IDE 内行内编辑与代码补全
- 需要反复快速迭代的本地化工作流
- 非线性结构文本(SVG、Markdown、数独、数学图谱等)
不适合:
- 高 QPS 的云端大规模服务:自回归模型本来就能靠 batch 把 GPU 吃满,DiffusionGemma 的并行解码边际效益快速递减,反而可能推高单位 token 成本
- 对文本质量要求极高的生产环境:单请求速度虽是 Gemma 4 的约 3.65×,但质量略逊一筹,正式产品仍建议用 Gemma 4 标准版
- 共享内存架构(如 Apple Silicon Mac):M 系列芯片本就不受显存带宽掣肘,自回归模型在统一内存上跑得已经够快,DiffusionGemma 的加速比会明显缩水
这种「先讲清楚不适用场景」的发布姿态,在大厂模型卡里其实并不常见,也说明 DeepMind 把它定位得相当务实——一次面向研究者和发烧友的前沿探索,而不是要立刻替代谁。
五、模型权重与上手方式
模型权重已在 Hugging Face 公开,指令微调版本叫 DiffusionGemma 26B A4B-it(26B 总参、单步激活约 3.8B、指令微调版)。Transformers 库也同步合入了相应支持,社区已经能直接拉起来跑。
# 拉取模型权重
huggingface-cli download google/diffusiongemma-26B-A4B-it
# 安装最新版 transformers(已支持 diffusion head)
pip install -U transformers accelerate
推荐的本地硬件门槛:
- 最低:RTX 4090(24GB VRAM),需 NVFP4 量化
- 推荐:RTX 5090(32GB VRAM),可跑更高精度
- 企业级:H100 / H200 / B200,可冲单卡 1000+ token/s
六、扩散文本模型,这次能走多远?
扩散模型尝试进入文本生成领域并不是新鲜事。早在 Diffusion-LM、SSD-LM 等学术工作里,研究者就一再试图把图像扩散的成功复制到文本上,但都因为自然语言对语法顺序、上下文连贯、事实约束的依赖远高于图像像素而被自回归路线压制。
生成得快,不等于写得稳——这是扩散文本模型多年没能成为主流的根本原因。
DiffusionGemma 的意义,并不在于它要立刻把 GPT 们掀翻,而在于它第一次在开放权重的工业级模型上,把扩散路线跑出了实打实的速度优势,并且把这条路从论文里搬到了 RTX 4090 上。它能不能在长文本生成、复杂问答、事实准确性上真正逼近主流自回归模型,还需要社区独立评测来给答案。
但有一点已经清楚:
随着端侧 AI、本地部署、隐私敏感场景的需求持续升温,「在生成质量、推理速度与硬件成本之间找到新平衡」 正成为大模型下一阶段最重要的竞争维度之一。
自回归不会被取代,但单一架构垄断的局面也许正在松动。DiffusionGemma 更像谷歌抛出的一个问号——既给了开发者一个可立刻动手玩的 26B 玩具,也给整个行业留下了一道值得长期回答的题目。
至少在今晚,那些挤在 4090 前等 token 蹦字的人,可以先体验一下 1000 token/s 的快感了。
参考来源
- DiffusionGemma 26B A4B-it 模型权重(Hugging Face) — 谷歌官方开源的指令微调版本,可直接下载部署
- Hugging Face Transformers 仓库 — 已合入 DiffusionGemma 的 diffusion head 支持,本地推理的主要依赖


