AI 快讯扩散模型杀入文本生成:谷歌开源DiffusionGemma
模型上新

扩散模型杀入文本生成:谷歌开源DiffusionGemma

2026-06-23T22:03:20.521Z
扩散模型杀入文本生成:谷歌开源DiffusionGemma

谷歌DeepMind开源DiffusionGemma,将图像生成的扩散技术搬到文本领域,单卡H100跑出1000+ tokens/s,比传统自回归模型快4倍。代价是质量下降,但开源、可本地部署、消费级显卡能跑,这是扩散文本生成首次以这种完成度走向开发者社区。

扩散模型杀入文本生成:谷歌开源DiffusionGemma,速度提升4倍

谷歌DeepMind上周在Hugging Face上线了DiffusionGemma,Apache 2.0许可,权重完全开放。这不是又一个「更强更大」的模型发布——谷歌在官方文档里直接写明:它的输出质量不如自家的Gemma 4

但它快。快到在单张H100上跑出1000+ tokens/s,消费级的RTX 5090上也有700+ tokens/s。这个速度是同级别自回归模型的4倍左右。

CEO皮查伊亲自发推介绍,把它比作「一匹赛马」——靠同时生成整段文本块、而不是逐字预测来抢速度。

这是扩散模型在文本生成领域的一次正式亮相,而且是以开源、消费级硬件可用的形态。

不是打字机,是冲洗照片

要理解DiffusionGemma为什么快,得先看清楚现在主流大模型是怎么生成文本的。

GPT、Claude、Gemini、Llama,这些模型都是自回归架构(Autoregressive)。生成文本时,它们像打字机一样从左到右逐个吐出token。生成第100个字之前,必须先生成前99个。每生成一个token,GPU都要把整个模型权重从显存里搬一遍。

这导致一个问题:GPU大部分时间在等数据搬运,真正做计算的算力反倒闲着。

在云端批量处理时,这个问题可以通过同时处理多个请求来缓解。但在本地部署、单用户场景下,GPU的利用率极低,延迟高、能耗大。

DiffusionGemma换了一种玩法。它借用了Stable Diffusion、Midjourney那套图像生成的思路:先铺一张噪声画布,然后逐步去噪,让内容「显影」出来。

具体来说:

  1. 模型先在「画布」上放置256个随机占位token
  2. 通过多轮迭代去噪,整块文字区域同时被处理
  3. 每个位置的token都能看到画布上所有其他位置的信息
  4. 直到可读内容浮现

DiffusionGemma生成原理对比图——左侧自回归模型逐token生成,右侧扩散模型整块并行去噪

一次处理256个token,而不是一次处理1个。 这把推理瓶颈从内存带宽转移到了计算能力上——而计算能力恰恰是GPU最擅长的事。

实测数据:快是真的快

谷歌和英伟达都给出了实测数据:

| 硬件 | 吞吐量 | |------|--------| | NVIDIA H100 (FP8) | 1000-1100+ tokens/s | | NVIDIA DGX Station | 最高2000 tokens/s | | NVIDIA DGX Spark | 约150 tokens/s | | GeForce RTX 5090 | 700+ tokens/s |

作为对比,同架构的Gemma 4在相同条件下大约是303 tokens/s。DiffusionGemma快了接近4倍。

更关键的是硬件门槛。DiffusionGemma总参数约260亿,但采用MoE(混合专家)架构,推理时只激活38亿参数。经过量化处理后,模型只占约18GB显存,RTX 4090、5090这种消费级显卡本地就能跑。

这个速度优势有明确的适用范围。谷歌在文档里写得很清楚:

  • ✅ 本地部署、单用户、低并发场景
  • ✅ 对延迟敏感的交互式应用
  • ❌ 高QPS的云端大规模服务(并行解码的边际效益递减)
  • ❌ 共享内存架构(如Apple Silicon Mac,自回归模型本来就不太受内存带宽限制)

换句话说,这是一个为本地推理场景专门优化的模型

质量换速度:谷歌自己打的差评

速度快4倍,代价是什么?

谷歌没藏着掖着。官方文档里直接放了对比图:

| 基准测试 | DiffusionGemma | Gemma 4 | |----------|----------------|---------| | AIME 2026 (数学) | 69.1% | 88.3% | | MMMU Pro (多模态) | 54.3% | 73.8% | | 多语言问答 | 略低 | 更高 | | 代码生成 | 略低 | 更高 | | 科学知识 | 略低 | 更高 |

数学能力差了近20个百分点,多模态差了近20个百分点。 这不是微调能补回来的差距。

谷歌对此的态度很务实:

这是一款为了「把速度推到极限而刻意妥协品质」的实验性模型。高质量的生产级输出,请继续用Gemma 4。

但质量下降不意味着这个模型没用。扩散架构有一些自回归模型天生做不好的事情。

双向注意力:扩散模型的独特优势

自回归模型生成文本时,每个token只能「往左看」——它能看到之前生成的所有内容,但看不到后面会写什么。这在大多数场景下没问题,但有些任务天生需要「前后兼顾」。

数独就是典型例子。 每个格子同时受行、列、九宫格三重约束。自回归模型从左到右一格格填,填到后面发现前面错了,但已经改不了了。

DiffusionGemma的扩散架构支持双向注意力——去噪时,画布上每个位置都能看到所有其他位置的信息。哪个token置信度下降了,采样器可以把它打回噪声状态重新生成。

谷歌展示了一个微调后的DiffusionGemma解数独的演示:整盘并行去噪,几步之内同时收敛,而不是从左到右一格格填。

类似的还有:

  • 代码填充(infilling):在已有代码的中间插入内容,需要同时考虑前文和后文
  • 行内编辑:修改段落中间的一句话,保持前后连贯
  • Markdown格式闭合:扩散模型能一次性把括号、标签配对写好,而不是写到一半才发现没闭合
  • 氨基酸序列生成:蛋白质结构的约束是全局的
  • 数学图形构建:几何关系需要整体协调

谷歌把这类任务统称为「非线性文本生成」。 这是扩散架构真正有优势的地方,而不仅仅是「快但糙」。

技术细节:块自回归与MoE

DiffusionGemma不是纯粹的扩散模型,它采用块自回归(block-autoregressive) 策略:

  1. 生成一个256-token的画布
  2. 多轮去噪直到内容成形
  3. 把这256个token写入KV缓存
  4. 开下一张新画布,接着上文继续生成

这样既保留了扩散模型的并行优势,又能生成任意长度的文本。

架构上,DiffusionGemma基于Gemma 4的26B参数MoE架构。MoE的核心思想是:模型里有多个「专家子网络」,每次推理只激活最相关的那几个,而不是整个模型一起运转。

260亿总参数,推理时只激活38亿。 这是它能塞进消费级显卡的关键。

英伟达这次也下了功夫做适配:

  • 原生支持NVFP4(4-bit浮点)格式,接近无损精度的同时进一步提升吞吐
  • CUDA栈发布当天就能跑,不需要专门调优
  • 在Hugging Face上同时放了BF16精度版和NVFP4轻量版

生态支持:开箱即用

这次发布的完成度很高。谷歌直接给出了全家桶支持:

  • Hugging Face Transformers:标准集成
  • vLLM:给了OpenAI兼容的本地部署命令,下完权重就能起服务
  • Unsloth:支持高效微调

英伟达在发布当天就在build.nvidia.com挂了免费在线入口,可以直接试用。

模型地址:google/diffusiongemma-26B-A4B-it

对于想在本地跑的开发者,vLLM的部署命令大概是这个流程:

  1. 下载模型权重(约18GB量化版)
  2. 启动vLLM服务,指定模型路径
  3. 通过OpenAI兼容的API调用

具体命令和参数建议直接看Hugging Face模型卡的说明,会随版本更新。

扩散文本生成的竞争格局

扩散模型做文本生成不是新概念,但之前一直停留在论文和闭源产品阶段。

Inception Labs的Mercury系列是商用化走得最快的。2026年2月发布的Mercury 2主打「相对速度优化模型最高5倍加速」,早期材料里甚至出现过「最高10倍吞吐」的说法。但Mercury真正开源的只有1.3B一档,参数量太小,实用性有限。

谷歌自己的Gemini Diffusion在2025年5月的I/O大会上就展示过,速度做到1479 tokens/s,比DiffusionGemma还快。但权重没有公开,开发者用不了。

DiffusionGemma的独特之处在于三样东西凑齐了

  1. 前沿实验室出品(DeepMind)
  2. 权重完全开源(Apache 2.0)
  3. 消费级硬件本地可用(18GB显存)

这是扩散文本生成技术第一次以这种完成度走向开发者社区。

适用场景:什么时候该用它

根据谷歌的官方指南和实际特性,DiffusionGemma适合这些场景:

推荐使用

  • 本地交互式应用:IDE插件、命令行工具、本地聊天界面
  • 快速迭代工作流:需要反复尝试、即时反馈的场景
  • 行内编辑和代码填充:需要在已有内容中间插入新内容
  • 对延迟敏感的demo和原型:需要给用户「秒回」体验
  • 非线性结构生成:数独、填字、约束求解类任务

不推荐使用

  • 生产级内容输出:对文本质量要求高的场景,用Gemma 4
  • 高并发云端服务:QPS高时扩散的优势会递减
  • Apple Silicon Mac:共享内存架构下优势不明显
  • 数学推理和复杂逻辑:这是它明确的短板

值得探索

  • 结合微调的垂直场景:谷歌展示了数独微调的效果,类似的约束求解任务可能有意外收获
  • 与自回归模型的混合流水线:快速生成初稿 + 高质量模型润色
  • 边缘设备部署:18GB显存意味着更多硬件选择

对行业的意义

扩散模型在图像生成领域已经是绝对主流。Stable Diffusion、Midjourney、DALL-E 3,全是扩散架构。但在文本生成领域,自回归一直是唯一的选择。

DiffusionGemma代表的是架构多样性的开始

它不会取代GPT、Claude这些自回归模型——至少在通用质量上差距明显。但它证明了:

  1. 扩散架构在文本生成上是可行的,而且有独特优势
  2. 速度和质量的权衡可以是显式的,针对不同场景选择不同架构
  3. 本地部署场景值得专门优化,不是所有模型都要瞄准云端

对于开发者来说,这意味着工具箱里多了一个选项。当你的应用场景是「本地、低延迟、可以接受质量略降」时,现在有了一个正经的开源方案。

谷歌把这个模型定位为「实验性」,但发布的完成度(开源权重、多框架支持、消费级硬件可用)已经超出了实验的范畴。它更像是在给整个行业打样:扩散文本生成可以这么做。

接下来看其他厂商跟不跟了。


参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: