AI 快讯谷歌开源 DiffusionGemma:扩散模型杀入文本生成,速度狂飙 4 倍
模型上新

谷歌开源 DiffusionGemma:扩散模型杀入文本生成,速度狂飙 4 倍

2026-06-27T04:04:34.753Z
谷歌开源 DiffusionGemma:扩散模型杀入文本生成,速度狂飙 4 倍

谷歌 DeepMind 于 6 月 10 日发布并开源实验性模型 DiffusionGemma,采用文本扩散架构,一次性并行生成 256 个 token,在 H100 上突破 1000 token/秒,本地推理速度较自回归 LLM 最高提升 4 倍。

谷歌开源 DiffusionGemma:扩散模型杀入文本生成,速度狂飙 4 倍

6 月 10 日深夜,谷歌 DeepMind 悄然向 Gemma 家族投下一颗重磅炸弹——DiffusionGemma。这款以 Apache 2.0 协议开源的 260 亿参数 MoE 模型,没有继续走 GPT、Gemini 们走熟了的「自回归打字机」老路,而是把图像生成圈里大杀四方的扩散模型(Diffusion Model)思路一把拽进了文本生成赛道。代价是输出质量略有妥协,回报则是惊人的速度数字:单张 H100 上每秒吐出超过 1000 个 token,RTX 5090 也能稳稳跑出 700+ token/s,相较同级自回归模型在本地低延迟场景下最高提速约 4 倍

谷歌 CEO 桑达尔·皮查伊在 X 上用一句俏皮话给它盖章:「速度像赛马一样快 🏇。」DeepMind 官方博客的措辞也罕见地直白——「我们要把生成速度推到极限」。

DiffusionGemma 在画布上从随机占位 token 经多轮去噪迭代逐步收敛为可读文本的示意图

一、不再「逐字蹦」:扩散模型如何改写文本生成范式

要理解 DiffusionGemma 的颠覆性,得先回顾一下当前主流大模型的工作方式。

GPT-5、Claude、Gemini、DeepSeek……几乎所有「对话式」LLM 都建立在**自回归(Autoregressive)**框架之上。它们就像一台老式打字机:必须先吐出第一个 token,才能把它拼回上下文,再去预测第二个;第二个出来后再预测第三个……如此循环往复,从左到右严格串行。

这种范式在云端高并发场景下其实非常香——服务端可以把成千上万个用户请求打包成 batch,一次性灌满整张 GPU,硬件吃得满满当当。但场景一旦切到单用户的本地推理,问题立刻浮现:

  • GPU/TPU 大部分时间在「等下一个键」,算力严重闲置
  • 解码瓶颈被锁死在内存带宽上,而非真正的计算单元
  • 用户写一段、改一句,模型往往要重新生成一整段,体验割裂
  • 端侧硬件再强,也榨不出该有的吞吐

DiffusionGemma 反其道而行:一次性在「画布」上撒下 256 个随机占位 token,然后通过多轮迭代去噪——先把已经生成准确的 token 锁定下来作为上下文,再持续修正剩余的「噪声 token」,层层打磨直至整段文本收敛成通顺、可读的最终结果。

这套逻辑和 Stable Diffusion 从随机噪点生成图像几乎一模一样,只不过画布上的像素换成了文字 token。每一步前向计算都能并行处理整块 256 token,每个 token 都能「看见」其他 token,硬件每次拿到的是一大坨计算任务,而不是一颗孤零零的下一字预测。

二、26B 总参、3.8B 激活:MoE 把成本压到 18GB 显存

DiffusionGemma 的另一个关键词是 MoE(Mixture of Experts,混合专家)

官方公布的参数配置颇具看点:

  • 总参数量:约 260 亿(26B)
  • 单步实际激活:仅约 38 亿(3.8B)
  • 并行 token 块大小:256
  • 量化后显存占用:约 18GB VRAM
  • 许可证:Apache 2.0

MoE 的核心思想是「多个专家子网并排站,模型按需点名」,避免每一步都让全部 260 亿参数空转。这让 DiffusionGemma 在量化后能塞进一块高端消费级独显——是的,RTX 4090 / 5090 单卡就能跑,对个人开发者和小团队极为友好。

DeepMind 此次还和英伟达打通了全硬件栈优化,模型原生支持 NVFP4 内核,可在 Hopper(H100、H200)与 Blackwell(B200、RTX 50 系列)架构上发挥最大性能,同时也针对面向桌面的 DGX Spark、DGX Station 和面向专业人员的 RTX PRO 系列做了适配。

英伟达官方实测数据:

| 硬件 | 单请求生成速度 | | --- | --- | | NVIDIA H100 | ~1,000+ token/s | | DGX Station | ~800 token/s | | GeForce RTX 5090 | ~700+ token/s | | DGX Spark | ~150 token/s |

对照单张消费级显卡运行 Llama 3、Gemma 2 这类同尺寸自回归模型常见的 100~200 token/s,DiffusionGemma 在本地推理场景下的速度优势达到了肉眼可见的 3–4 倍

三、不只是「快」:双向注意力解锁的新玩法

速度只是表象,DiffusionGemma 真正有意思的地方在于——它把传统自回归模型啃不动的几类任务,变成了天然适配场景

1. 行内编辑与实时补全

用户写到一半改一句,自回归模型往往要从修改点之后整段重生;而 DiffusionGemma 把整块文本视为一张可反复打磨的画布,可以原地局部修正,对 IDE 内代码补全、Markdown 实时渲染、文档行内润色等场景天然友好。

2. 智能自纠错

模型在迭代过程中能一次性扫描整段输出,发现前后矛盾立刻校正,而不是像自回归那样一旦写错只能将错就错。这一特性对长文逻辑一致性和事实约束有正面意义。

3. 非线性结构生成

代码块、数学公式图谱、氨基酸序列、SVG 这类**「后面的 token 反过来约束前面 token」**的非线性内容,是自回归模型的传统弱项。DiffusionGemma 的双向注意力机制让它处理这类任务时如鱼得水。Hugging Face 已经放出 demo,演示模型根据文字描述直接生成 3D SVG 图形的完整过程。

4. 数独这种「全局约束」任务

开源微调框架 Unsloth 用 DiffusionGemma 微调了一个数独求解器。数独里每个格子都和其他格子相互制约,自回归模型基本只能瞎猜;而 DiffusionGemma 的双向注意力让全局约束求解变得自然。

Unsloth 微调后的 DiffusionGemma 在求解数独的迭代过程演示

四、坦诚的妥协:哪些场景不该用它

这一次 DeepMind 罕见地把丑话说在了前面:DiffusionGemma 是一个为速度而刻意妥协质量的实验性模型,整体输出质量低于标准版 Gemma 4

官方的场景边界划得很清楚:

适合:

  • 本地、低并发、单用户的实时交互
  • IDE 内行内编辑与代码补全
  • 需要反复快速迭代的本地化工作流
  • 非线性结构文本(SVG、Markdown、数独、数学图谱等)

不适合:

  • 高 QPS 的云端大规模服务:自回归模型本来就能靠 batch 把 GPU 吃满,DiffusionGemma 的并行解码边际效益快速递减,反而可能推高单位 token 成本
  • 对文本质量要求极高的生产环境:单请求速度虽是 Gemma 4 的约 3.65×,但质量略逊一筹,正式产品仍建议用 Gemma 4 标准版
  • 共享内存架构(如 Apple Silicon Mac):M 系列芯片本就不受显存带宽掣肘,自回归模型在统一内存上跑得已经够快,DiffusionGemma 的加速比会明显缩水

这种「先讲清楚不适用场景」的发布姿态,在大厂模型卡里其实并不常见,也说明 DeepMind 把它定位得相当务实——一次面向研究者和发烧友的前沿探索,而不是要立刻替代谁。

五、模型权重与上手方式

模型权重已在 Hugging Face 公开,指令微调版本叫 DiffusionGemma 26B A4B-it(26B 总参、单步激活约 3.8B、指令微调版)。Transformers 库也同步合入了相应支持,社区已经能直接拉起来跑。

# 拉取模型权重
huggingface-cli download google/diffusiongemma-26B-A4B-it

# 安装最新版 transformers(已支持 diffusion head)
pip install -U transformers accelerate

推荐的本地硬件门槛:

  • 最低:RTX 4090(24GB VRAM),需 NVFP4 量化
  • 推荐:RTX 5090(32GB VRAM),可跑更高精度
  • 企业级:H100 / H200 / B200,可冲单卡 1000+ token/s

六、扩散文本模型,这次能走多远?

扩散模型尝试进入文本生成领域并不是新鲜事。早在 Diffusion-LM、SSD-LM 等学术工作里,研究者就一再试图把图像扩散的成功复制到文本上,但都因为自然语言对语法顺序、上下文连贯、事实约束的依赖远高于图像像素而被自回归路线压制。

生成得快,不等于写得稳——这是扩散文本模型多年没能成为主流的根本原因。

DiffusionGemma 的意义,并不在于它要立刻把 GPT 们掀翻,而在于它第一次在开放权重的工业级模型上,把扩散路线跑出了实打实的速度优势,并且把这条路从论文里搬到了 RTX 4090 上。它能不能在长文本生成、复杂问答、事实准确性上真正逼近主流自回归模型,还需要社区独立评测来给答案。

但有一点已经清楚:

随着端侧 AI、本地部署、隐私敏感场景的需求持续升温,「在生成质量、推理速度与硬件成本之间找到新平衡」 正成为大模型下一阶段最重要的竞争维度之一。

自回归不会被取代,但单一架构垄断的局面也许正在松动。DiffusionGemma 更像谷歌抛出的一个问号——既给了开发者一个可立刻动手玩的 26B 玩具,也给整个行业留下了一道值得长期回答的题目。

至少在今晚,那些挤在 4090 前等 token 蹦字的人,可以先体验一下 1000 token/s 的快感了。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: