小米MiMo-V2.5-Pro-UltraSpeed发布：万亿参数模型突破1000 tokens/s

6月9日，小米联合TileRT发布MiMo-V2.5-Pro-UltraSpeed，在通用GPU上首次将万亿参数模型推理速度推过1000 tokens/s峰值1200，API限时申请开放，定价为标准版3倍。

万亿参数模型，跑出了"打字机倒过来"的速度

6月9日，小米MiMo团队联合推理系统团队TileRT扔出了一个不算小的炸弹：Xiaomi MiMo-V2.5-Pro UltraSpeed 极速模式正式上线，万亿参数大模型在通用GPU上的单用户生成速度，首次冲过了1000 tokens/s这道关。峰值数字更夸张——1200 tokens/s。

雷军当天也在微博发了条消息，措辞罕见地直白："业内首次在1万亿参数模型上突破1000 tokens/秒的输出速度"。

这数字到底什么概念？一个token大约对应1.5到2个汉字，1000 tokens/s换算成中文，约等于每秒1500到2000字。普通人正常阅读速度是每秒4到5个字，也就是说，模型生成内容的速度已经比你读还快了300到500倍。屏幕上的字根本来不及看，刷过去就是一整段。

MiMo-V2.5-Pro UltraSpeed 速度演示，每秒1000+ tokens输出的滚动效果

关键不在"快"，而是在通用GPU上做到的

如果只是看speed这个数字，业内其实早就有人冲到过四位数——但那些方案多数依赖定制ASIC芯片，比如某些以推理为卖点的初创公司，靠的是专用硬件堆出来的极限带宽。

小米这次走的路完全不一样。官方给出的描述是"单台标准8卡通用GPU节点"，没有定制芯片，这才是这次发布真正值得说的地方。它意味着这套加速方案有可能复制到任何拥有标准H卡集群的厂商手里，门槛低得多。

那它怎么做到的？官方披露了三件核心技术：

第一是FP4量化，但只对MoE的专家层做。MiMo-V2.5-Pro是MoE架构（混合专家），参数的绝大部分都堆在expert层。小米的做法是只对这些占大头的专家层执行无损FP4量化，其他模块——比如注意力层、路由层——保持原始精度。这样一来内存占用和带宽压力都下来了，但综合能力基本没掉。这是典型的"哪里冗余裁哪里"的精细活，不是粗暴一刀切。

第二是DFlash区块并行推测解码。传统自回归解码是一个token一个token串行吐出来的，每一步都得等上一步算完。DFlash的思路是一次预测一整段区块，然后并行验证。官方给出的数据是：在代码和数理推理场景下，平均单轮能确认6-7个token。这等于把生成效率拉了好几倍。

第三是TileRT推理系统层面的重构。这块是和TileRT合作的核心，关键词是"持久化内核+异构流水线"。GPU上跑大模型一个常见瓶颈是算子之间不停切换、kernel launch开销大，硬件算力没法满载。TileRT的做法是把内核常驻、把不同算子用流水线方式调度起来，让GPU几乎不歇手。

这三件事单拎出来都不算特别新鲜——FP4、推测解码、kernel融合，业内都在做。但把它们Codesign到一起，并且在万亿参数MoE上跑出1000+ tokens/s，这是工程上的硬功夫。

API价格：3倍价钱，10倍速度

商业策略也跟得很紧。MiMo-V2.5-Pro-UltraSpeed API同步上线，但定价是标准版MiMo-V2.5-Pro的3倍。

参考一下标准版的价格：

输入：缓存命中0.025元/百万tokens，未命中3元/百万tokens
输出：6元/百万tokens

按3倍算，UltraSpeed版的输出大概是18元/百万tokens。对比一下输出速度提升10倍，单位时间能产出的内容量翻了10倍，单价只翻3倍，对那些受输出速度卡脖子的场景来说，这笔账是划得来的。

但有个前提：这是限时申请制。从2026年6月9日到6月23日23:59，两周窗口。普通开发者想直接接入API可能要排队，官方明确说"优先对接有实际业务需求的企业及专业开发者"。这背后的原因也很直白——高速推理资源就那么多，资源没法敞开供。

对于通过审核的账号，限制大致是：

每日最多成功进入队列10次
单次会话时长上限30分钟
空闲超过5分钟，自动释放资源

现阶段也不支持Token Plan套餐，纯API按量计费。普通用户可以通过专属网页免费体验对话功能，地址是 ultraspeed.xiaomimimo.com，API申请入口是 platform.xiaomimimo.com/ultraspeed。

1000 tokens/s到底能解锁什么

速度这种事，一旦上了某个量级，应用形态会变。这不是把进度条从30秒缩到3秒的体验差异，而是让一些原本根本跑不通的场景变得可能。

官方提到的几个方向，其实挺值得展开说：

代码生成与Agent。开发者用Cursor、Claude Code这类工具最痛苦的就是等待——尤其是要改大文件或者多文件协同时，模型一秒几十个token的速度让人怀疑人生。1000 tokens/s基本能做到"瞬时返回"，编程智能体可以在Loop里跑得更频繁，比如让Agent自主纠错、多轮重写、并行尝试多个方案，每一轮成本和延迟都低得多。官方demo里有个"1分钟复刻macOS界面"的案例，本质就是这种高频Agent行为的产物。

推理链的并行推演。现在的推理模型（o系列、DeepSeek-R1这一脉）一个特点是要"想很久"，CoT动辄几千上万tokens。速度上来之后，可以同时跑多条推理链做self-consistency，最后投票出答案。质量直接拉升一个台阶，因为模型有了"试错"的预算。

毫秒级决策场景。这是最有想象空间的：高频量化、实时反欺诈、医疗影像辅助决策。以前万亿参数模型受限于推理延迟，根本进不了这些场景，只能用小模型扛。现在如果1000 tokens/s能稳定提供，那万亿参数模型的"重炮"也能用在实时战场上。

代码生成场景下，UltraSpeed与传统模型的速度对比示意

一个工程派的胜利

2026年了，大模型这个赛道的故事已经从"参数越大越好"逐步过渡到"怎么把大模型用得起、用得快"。OpenAI、Anthropic的新模型发布越来越偏向能力曲线和Agent能力，而国内厂商在推理工程这条线上的卷动其实更激烈——DeepSeek去年那波MLA和V3的推理优化已经验证了一件事：算法和系统的Codesign，能挖出来的空间远比想象大。

小米这次MiMo-V2.5-Pro-UltraSpeed的工作，路径和DeepSeek那套很像：不是单点技术突破，而是从量化策略、解码算法到推理框架的全栈协同。区别在于小米选了一个更激进的展示口径——直接打"1000 tokens/s万亿参数"这个标签，把速度作为产品的主卖点。

说实话，小米的MiMo系列在国内大模型梯队里此前一直存在感不算高。这次的UltraSpeed算是一次有效的"工程秀肌肉"——技术叙事完整，性能数字够硬，定价策略也算克制。至于实际API开放之后表现如何、申请制能持续多久、限时窗口结束之后会不会有常规化的服务方案，得等接下来两周看。

对开发者来说，如果你的业务真的卡在大模型输出速度上——比如做编程Agent、做实时翻译、做长文档生成的batch处理——这两周值得去申请试一下。即便不立刻接入生产，跑跑benchmark对比一下，也能对"万亿参数+1000 tokens/s"这个组合究竟意味着什么有个体感。

大模型工程这条线，2026年还有得卷。