AI 快讯扩散模型杀入文本生成,速度提升4倍
模型上新

扩散模型杀入文本生成,速度提升4倍

2026-06-27T02:03:21.092Z
扩散模型杀入文本生成,速度提升4倍

Google DeepMind 开源 DiffusionGemma,用扩散技术颠覆传统自回归文本生成范式。H100 实测突破 1000 tokens/s,消费级 RTX 5090 也能跑到 700 tokens/s,但质量换速度的取舍值得开发者仔细掂量。

扩散模型杀入文本生成:Google 开源 DiffusionGemma,速度提升 4 倍

Google DeepMind 本月开源了 DiffusionGemma,一个用扩散技术做文本生成的实验性模型。在单张 H100 上实测输出速度超过 1000 tokens/s,比同级别自回归模型快 4 倍。

这不是小修小补。它直接挑战了 GPT、Claude、Gemini 这些主流大模型的底层架构逻辑。

自回归的瓶颈:打字机困境

先说清楚问题在哪。

当前几乎所有主流 LLM 都是自回归架构——模型像打字机一样,从左到右一个 token 一个 token 往外蹦。GPT-4o、Claude 3.5、Gemini 2.5,全是这个路子。

这套架构在云端批量推理时效率很高,多个请求可以攒成一批一起算。但换到本地单机跑,问题就暴露了:

  • 延迟高:生成 1000 个 token 就得跑 1000 次前向传播
  • GPU 利用率低:单请求时大量算力在空转
  • 能耗浪费:每个 token 都要过一遍完整的注意力计算

简单说,自回归模型是为云端大规模服务设计的。拿来做本地实时交互,天然吃亏。

扩散的思路:从打字机到印刷机

DiffusionGemma 换了个玩法。

它借鉴了图像生成扩散模型的思路——Stable Diffusion、DALL-E 3 那套。但把连续像素空间换成了离散的 token 空间,Google 叫它「离散文本扩散」(Discrete Text Diffusion)。

具体怎么工作的:

  1. 初始化:在「画布」上放 256 个随机占位 token
  2. 迭代去噪:通过多轮前向传播,逐步把噪声 token 修正成有意义的文字
  3. 并行输出:每次前向传播同时处理整个 256 token 块

DiffusionGemma 扩散生成过程示意图,展示从随机噪声到清晰文本的迭代过程

打个比方:自回归是打字机,一个字母一个字母敲;DiffusionGemma 是印刷机,一版 256 个字符同时印出来。

这带来一个关键优势——并行度拉满。单次前向传播就能输出一整块文本,GPU 的并行计算能力终于能充分发挥。

实测数据:快是真的快

NVIDIA 官方跑了一组 benchmark:

| 硬件 | 单请求输出速度 | |------|---------------| | H100 | ~1000 tokens/s | | DGX Station | ~800 tokens/s | | GeForce RTX 5090 | >700 tokens/s | | DGX Spark | ~150 tokens/s |

做个对比:同参数量级的自回归模型在 H100 上单请求大概 200-300 tokens/s。DiffusionGemma 快了 3-4 倍。

更值得注意的是 RTX 5090 的数据。消费级显卡跑到 700 tokens/s,意味着本地开发者不用租云 GPU 也能获得相当流畅的交互体验。

架构细节:MoE + 量化压到 18GB 显存

DiffusionGemma 名义上是 260 亿参数,但实际推理时只激活 38 亿。

这靠的是 MoE(Mixture of Experts)架构。模型内部有多个「专家」子网络,推理时动态路由,只调用最相关的几个专家参与计算。其他专家在旁边待机,不占算力。

再加上量化压缩,整个模型可以塞进 18GB 显存。这意味着 RTX 4090、5090 这类高端消费卡都能跑,不需要专业的 A100、H100。

另一个架构亮点是双向注意力。自回归模型只能往前看——生成第 N 个 token 时只能参考前 N-1 个。DiffusionGemma 不一样,每个 token 生成时可以同时看整个 256 token 窗口内的所有位置。

这对某些任务特别有用:

  • 行内编辑:改中间一个词,不用重新生成整段
  • 代码补全:填充函数中间的逻辑,前后上下文都能参考
  • 结构化生成:JSON、表格这类非线性文本

质量换速度:必须说清楚的代价

Google 在官宣博客里罕见地主动泼冷水:

「这是一款为了把速度推到极限而刻意妥协质量的实验性模型」

说人话:DiffusionGemma 的输出质量不如标准 Gemma 4

这不是 bug,是设计取舍。扩散模型的迭代去噪过程天然会引入一定的「模糊性」——每一步修正都是概率性的,最终结果不如自回归那样确定性强。

具体表现:

  • 复杂推理任务准确率下降
  • 长文本连贯性不如自回归
  • 专业领域知识可能出现幻觉

Google 的建议很直接:正式产品输出、对质量要求高的场景,继续用 Gemma 4 标准版。DiffusionGemma 适合的是:

  • 快速原型迭代
  • 草稿生成后人工精修
  • 对延迟敏感的实时交互
  • 本地化开发调试

另一个局限:云端批量场景优势缩水

速度优势在特定场景下会大打折扣。

前面说了,DiffusionGemma 的加速来自并行生成整块 token。但当云端服务同时处理大量请求时,自回归模型可以把多个请求的 token 攒成批次一起算,同样能把 GPU 利用率拉满。

这时候,DiffusionGemma 的并行解码优势就被稀释了。Google 明确说:「高 QPS 的云端大规模服务场景,DiffusionGemma 的优势会快速递减」。

还有一个场景表现一般:Apple Silicon Mac。

统一内存架构下,CPU 和 GPU 共享内存带宽,自回归模型本来就不太受显存带宽限制。DiffusionGemma 在这类设备上的加速效果不如独立 GPU 明显。

工具链支持:已经能跑起来了

开源模型最重要的是生态。DiffusionGemma 首发就支持了三个主流框架:

1. Hugging Face Transformers

官方模型已经上传到 Hugging Face Hub,可以直接用 transformers 库加载:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/diffusiongemma-26B-A4B-it")
tokenizer = AutoTokenizer.from_pretrained("google/diffusiongemma-26B-A4B-it")

2. vLLM

vLLM 团队已经发布了 DiffusionGemma 适配版本,Red Hat 提供了量化后的模型权重,方便企业部署。

3. MLX

Apple Silicon 用户可以通过 MLX 框架在 Mac 上本地运行。虽然前面说了统一内存架构下加速效果有限,但起码能跑,对于开发测试够用了。

技术意义:不只是一个模型

DiffusionGemma 的意义不只是「多了一个开源模型」。它验证了一条不同的技术路线。

过去几年,LLM 领域几乎所有重大进展都在自回归框架内发生:更大的模型、更长的上下文、更好的对齐。扩散模型一直被认为是图像生成的专属技术。

Google 这次证明:扩散可以做文本,而且在特定场景下比自回归更适合。

这打开了一扇门。

可以预见,接下来会有更多团队探索这个方向:

  • 扩散模型能不能在保持速度的同时提升质量?
  • 能不能和自回归混合,取长补短?
  • 在代码生成、结构化数据这些特定任务上能不能做到更好?

对开发者意味着什么

几点实际建议:

本地开发调试:DiffusionGemma 是目前最适合的选择之一。700+ tokens/s 的速度意味着你可以快速迭代提示词、测试不同方案,不用等。

生产部署:暂时别急着上。质量差距摆在那里,除非你的场景对延迟极度敏感且对输出质量要求不高。

研究探索:值得深入研究。双向注意力、迭代去噪这些特性在特定任务上可能有惊喜。

硬件选择:如果你有 RTX 5090 或同级别显卡,DiffusionGemma 是发挥其算力的好选择。如果只有 Mac,效果会打折扣。

写在最后

用速度换质量,这个取舍 Google 做得很诚实。

他们没有吹嘘 DiffusionGemma 是下一代 GPT 杀手,而是明确定位为「实验性模型」,适合特定场景的特定需求。这种克制在 AI 领域越来越少见。

对于开发者来说,多一个选择总是好事。自回归不是唯一解,扩散也能做文本。未来也许会有更好的架构,把两者的优点结合起来。

模型已经开源,Apache 2.0 协议,想试的可以直接上手了。


参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: