DeepMind开源DiffusionGemma：H100跑出1000TPS，文本生成快4倍

谷歌DeepMind把扩散架构搬到了文本生成上，开源的DiffusionGemma在单张H100上实现1000+ tokens/秒，比传统自回归模型快4倍，RTX 5090也能跑出700 TPS。本地推理的延迟天花板又被掀了一次。

DeepMind把图像生成的那套架构，塞进了文本模型

6月10日，Google DeepMind开源了DiffusionGemma——一个把扩散（Diffusion）架构用到文本生成上的实验性开放模型。官方给的数据相当扎眼：单张NVIDIA H100上1000+ tokens/秒，NVIDIA RTX 5090上700+ tokens/秒，相比同等规模的自回归Gemma，解码速度提升约4倍。NVIDIA当天也跟着发了博客，宣布从GeForce RTX、RTX PRO平台到DGX Spark都已经做了针对性优化。

听到"扩散+文本"这个组合，做过模型的人第一反应大概率是：又来？过去两年学术界陆陆续续有人尝试过把diffusion往LLM上搬，从SSD-LM到Mercury再到Inception Labs的那批模型，但真正能在工业级场景里把吞吐和质量同时打平自回归基线的，一只手数得过来。DeepMind这次直接开权重、给出可复现的1000 TPS数字，等于把这条技术路线从论文阶段往工程主流推了一大步。

DiffusionGemma 推理架构示意图，左侧为自回归逐token生成，右侧为扩散并行去噪

它到底快在哪：从"内存带宽瓶颈"挪到"算力瓶颈"

要理解DiffusionGemma为什么快，得先搞清楚自回归模型现在卡在哪。

传统的Next Token Prediction（NTP）架构，每生成一个token，都要把数十亿参数从显存里读一遍，做一次完整前向。问题是，单token的计算量极小，GPU的TensorCore绝大部分时间都在等显存——这是典型的memory-bound场景。一张H100，FP16理论算力将近1000 TFLOPS，但跑70亿参数的自回归推理，算力利用率经常只有个位数百分比。剩下的全在等HBM。

扩散模型走的是另一条路。它不是从左到右一个token一个token地吐，而是给定一段固定长度的空白（带噪声）token序列，模型一次性预测整段内容，然后通过多步去噪迭代纠错，最终收敛到一个干净的输出。

这套机制带来两个直接结果：

并行度起来了。每一步去噪都是对整块区域同时操作，矩阵运算密度大幅提升，GPU终于有活干了。
瓶颈从带宽切到了算力。原本闲置的TensorCore被吃满，H100的硬件特性才真正发挥出来。

所以1000 TPS不是单纯靠"模型变小"或者"量化"堆出来的，而是架构层面把GPU的脾气摸顺了。这点和上个月Gemma 4那个MTP（Multi-Token Prediction）起草器是不同思路——MTP本质还是推测解码，用小模型起草、大模型并行验证，最多3倍提速；DiffusionGemma是把底层范式换掉了。

实测数字怎么看：1000 TPS 是什么概念

给个对比坐标。当前在H100上跑Llama 3 8B或者Gemma 2 9B的自回归推理，单用户场景下通常在150-250 TPS区间，开了vLLM、PagedAttention这些优化，能压到300左右就算优秀。1000 TPS意味着什么？

用户体感上，几乎是"瞬间出答案"。一段500 token的回复，0.5秒内完成。
对Agent场景特别友好。多轮工具调用、ReAct循环、代码执行反馈——这些以前因为延迟堆叠让人头疼的链路，现在每一跳都能压到亚秒级。
消费级显卡也吃得下。RTX 5090的700 TPS数据更关键，意味着这不只是数据中心的特权，本地开发机就能跑出过去需要A100/H100集群才有的体验。

NVIDIA这次的优化幅度也值得提一句。他们针对Blackwell架构做了kernel级的调优，把扩散过程里那些反复的注意力计算和去噪步骤融合到了一起，避免了中间显存读写。DGX Spark那条产品线大概率会把这个模型作为出货卖点之一。

H100 与 RTX 5090 上 DiffusionGemma 与同尺寸自回归模型的吞吐对比柱状图

质量呢？这才是关键问题

速度好讲，质量难讲。扩散文本模型历史上最大的争议就是：生成结果的连贯性、推理能力、长文本一致性，能不能跟自回归打平？

DeepMind在博客里给出的说法是，DiffusionGemma在主流基准上的表现"与同规模自回归Gemma相当"。但所谓相当的范围有多宽，目前公开的细节还不够。从社区已经做的初步测试看：

短上下文、确定性任务（分类、抽取、摘要、代码补全）：基本没差距，速度优势直接转化为体验优势。
多步推理、长链思考：扩散的迭代去噪天然不擅长"逻辑严密的链式推理"，这块还需要更多benchmark验证。
超长生成：扩散需要预先确定输出长度，对开放式长文本生成不如自回归灵活。这是范式层面的天然约束。

所以，把DiffusionGemma当万能解药并不现实。它更像是为延迟敏感、吞吐优先的场景准备的另一种选择——客服、实时翻译、IDE内联补全、Agent工具调用——这些场景里多花200毫秒可能就是用户流失，而推理深度反而不是核心需求。

对开发者意味着什么

几个我觉得比较实在的影响：

本地推理的天花板被抬高了。以前在RTX 4090上跑7B模型撑死200 TPS，现在5090上700 TPS，体验差距是质变不是量变。本地Copilot、本地Agent的可玩性突然就上来了。
推理服务商的成本结构会被重估。如果同样的GPU能跑出4倍吞吐，单token成本理论上也是1/4。这对Together、Fireworks这些inference platform是利好，对自建推理的团队也是。
架构多样性回来了。过去三年LLM赛道实在太"Transformer + 自回归"了，Mamba、RWKV、Diffusion这些路线一直在边缘探索。DeepMind这次用开源的方式给Diffusion文本模型注入了一针强心剂，预计接下来半年会有一波跟进。

顺便提一句，OpenAI Hub（openai-hub.com）这边的开源模型聚合也会跟进DiffusionGemma的接入，开发者可以用同一个Key在GPT、Claude、Gemini、DeepSeek这些主流模型之间切换测试，对比不同架构在自己业务上的实际表现，省去多家API管理的麻烦。

几个还没回答的问题

这是一个experimental release，DeepMind自己也说了是"实验性"。有些事情还需要继续观察：

长上下文支持。当前版本的max context长度官方没大力宣传，扩散对超长上下文的支持成本可能比自回归更高。
微调生态。LoRA、QLoRA这些工具链能不能直接套用？扩散过程里加adapter的最佳实践还没成型。
推理框架适配。vLLM、TensorRT-LLM、llama.cpp这些主流框架对扩散文本模型的支持目前还很初级，社区跟进速度会决定它的实际落地半径。

但话说回来，开源出来本身就是最大的信号。让社区去填坑、去试错、去拓展——这是Gemma系列一贯的玩法，也是为什么从去年开始Gemma的下载量能在几周内冲到6000万次。DiffusionGemma放出来这几天，HuggingFace上的下载曲线已经很陡了。

至于它最终是会成为Transformer之外的第二条主流路线，还是又一个停留在benchmark表现不错但工程落地受限的实验品，6个月之后再回头看就有答案了。

参考来源

linux.do - 谷歌开源Diffusion Gemma，可在h100上跑出1000tps - 中文社区的第一手讨论和实测反馈
Reddit - Google says Multi-Token Prediction makes Gemma 4 faster - 上一代Gemma 4 MTP的实测讨论，可作为速度优化的对比参照
知乎 - Gemma 4 谷歌开源的字节效率之王 - Gemma系列开源模型的整体架构与定位分析

DeepMind开源DiffusionGemma：H100跑出1000TPS

DeepMind把图像生成的那套架构，塞进了文本模型

它到底快在哪：从"内存带宽瓶颈"挪到"算力瓶颈"

实测数字怎么看：1000 TPS 是什么概念

质量呢？这才是关键问题

对开发者意味着什么

几个还没回答的问题

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们