AI 快讯小米MiMo万亿参数模型飙到1000 tokens/s,比你读字还快几百倍
模型上新

小米MiMo万亿参数模型飙到1000 tokens/s,比你读字还快几百倍

2026-06-10T08:06:12.627Z
小米MiMo万亿参数模型飙到1000 tokens/s,比你读字还快几百倍

6月9日,小米联合TileRT发布MiMo-V2.5-Pro-UltraSpeed,在通用GPU上首次将万亿参数模型推理速度推过1000 tokens/s峰值1200,API限时申请开放,定价为标准版3倍。

万亿参数模型,跑出了"打字机倒过来"的速度

6月9日,小米MiMo团队联合推理系统团队TileRT扔出了一个不算小的炸弹:Xiaomi MiMo-V2.5-Pro UltraSpeed 极速模式正式上线,万亿参数大模型在通用GPU上的单用户生成速度,首次冲过了1000 tokens/s这道关。峰值数字更夸张——1200 tokens/s。

雷军当天也在微博发了条消息,措辞罕见地直白:"业内首次在1万亿参数模型上突破1000 tokens/秒的输出速度"。

这数字到底什么概念?一个token大约对应1.5到2个汉字,1000 tokens/s换算成中文,约等于每秒1500到2000字。普通人正常阅读速度是每秒4到5个字,也就是说,模型生成内容的速度已经比你读还快了300到500倍。屏幕上的字根本来不及看,刷过去就是一整段。

MiMo-V2.5-Pro UltraSpeed 速度演示,每秒1000+ tokens输出的滚动效果

关键不在"快",而是在通用GPU上做到的

如果只是看speed这个数字,业内其实早就有人冲到过四位数——但那些方案多数依赖定制ASIC芯片,比如某些以推理为卖点的初创公司,靠的是专用硬件堆出来的极限带宽。

小米这次走的路完全不一样。官方给出的描述是"单台标准8卡通用GPU节点",没有定制芯片,这才是这次发布真正值得说的地方。它意味着这套加速方案有可能复制到任何拥有标准H卡集群的厂商手里,门槛低得多。

那它怎么做到的?官方披露了三件核心技术:

第一是FP4量化,但只对MoE的专家层做。MiMo-V2.5-Pro是MoE架构(混合专家),参数的绝大部分都堆在expert层。小米的做法是只对这些占大头的专家层执行无损FP4量化,其他模块——比如注意力层、路由层——保持原始精度。这样一来内存占用和带宽压力都下来了,但综合能力基本没掉。这是典型的"哪里冗余裁哪里"的精细活,不是粗暴一刀切。

第二是DFlash区块并行推测解码。传统自回归解码是一个token一个token串行吐出来的,每一步都得等上一步算完。DFlash的思路是一次预测一整段区块,然后并行验证。官方给出的数据是:在代码和数理推理场景下,平均单轮能确认6-7个token。这等于把生成效率拉了好几倍。

第三是TileRT推理系统层面的重构。这块是和TileRT合作的核心,关键词是"持久化内核+异构流水线"。GPU上跑大模型一个常见瓶颈是算子之间不停切换、kernel launch开销大,硬件算力没法满载。TileRT的做法是把内核常驻、把不同算子用流水线方式调度起来,让GPU几乎不歇手。

这三件事单拎出来都不算特别新鲜——FP4、推测解码、kernel融合,业内都在做。但把它们Codesign到一起,并且在万亿参数MoE上跑出1000+ tokens/s,这是工程上的硬功夫。

API价格:3倍价钱,10倍速度

商业策略也跟得很紧。MiMo-V2.5-Pro-UltraSpeed API同步上线,但定价是标准版MiMo-V2.5-Pro的3倍

参考一下标准版的价格:

  • 输入:缓存命中0.025元/百万tokens,未命中3元/百万tokens
  • 输出:6元/百万tokens

按3倍算,UltraSpeed版的输出大概是18元/百万tokens。对比一下输出速度提升10倍,单位时间能产出的内容量翻了10倍,单价只翻3倍,对那些受输出速度卡脖子的场景来说,这笔账是划得来的。

但有个前提:这是限时申请制。从2026年6月9日到6月23日23:59,两周窗口。普通开发者想直接接入API可能要排队,官方明确说"优先对接有实际业务需求的企业及专业开发者"。这背后的原因也很直白——高速推理资源就那么多,资源没法敞开供。

对于通过审核的账号,限制大致是:

  • 每日最多成功进入队列10次
  • 单次会话时长上限30分钟
  • 空闲超过5分钟,自动释放资源

现阶段也不支持Token Plan套餐,纯API按量计费。普通用户可以通过专属网页免费体验对话功能,地址是 ultraspeed.xiaomimimo.com,API申请入口是 platform.xiaomimimo.com/ultraspeed

1000 tokens/s到底能解锁什么

速度这种事,一旦上了某个量级,应用形态会变。这不是把进度条从30秒缩到3秒的体验差异,而是让一些原本根本跑不通的场景变得可能

官方提到的几个方向,其实挺值得展开说:

代码生成与Agent。开发者用Cursor、Claude Code这类工具最痛苦的就是等待——尤其是要改大文件或者多文件协同时,模型一秒几十个token的速度让人怀疑人生。1000 tokens/s基本能做到"瞬时返回",编程智能体可以在Loop里跑得更频繁,比如让Agent自主纠错、多轮重写、并行尝试多个方案,每一轮成本和延迟都低得多。官方demo里有个"1分钟复刻macOS界面"的案例,本质就是这种高频Agent行为的产物。

推理链的并行推演。现在的推理模型(o系列、DeepSeek-R1这一脉)一个特点是要"想很久",CoT动辄几千上万tokens。速度上来之后,可以同时跑多条推理链做self-consistency,最后投票出答案。质量直接拉升一个台阶,因为模型有了"试错"的预算。

毫秒级决策场景。这是最有想象空间的:高频量化、实时反欺诈、医疗影像辅助决策。以前万亿参数模型受限于推理延迟,根本进不了这些场景,只能用小模型扛。现在如果1000 tokens/s能稳定提供,那万亿参数模型的"重炮"也能用在实时战场上。

代码生成场景下,UltraSpeed与传统模型的速度对比示意

一个工程派的胜利

2026年了,大模型这个赛道的故事已经从"参数越大越好"逐步过渡到"怎么把大模型用得起、用得快"。OpenAI、Anthropic的新模型发布越来越偏向能力曲线和Agent能力,而国内厂商在推理工程这条线上的卷动其实更激烈——DeepSeek去年那波MLA和V3的推理优化已经验证了一件事:算法和系统的Codesign,能挖出来的空间远比想象大。

小米这次MiMo-V2.5-Pro-UltraSpeed的工作,路径和DeepSeek那套很像:不是单点技术突破,而是从量化策略、解码算法到推理框架的全栈协同。区别在于小米选了一个更激进的展示口径——直接打"1000 tokens/s万亿参数"这个标签,把速度作为产品的主卖点。

说实话,小米的MiMo系列在国内大模型梯队里此前一直存在感不算高。这次的UltraSpeed算是一次有效的"工程秀肌肉"——技术叙事完整,性能数字够硬,定价策略也算克制。至于实际API开放之后表现如何、申请制能持续多久、限时窗口结束之后会不会有常规化的服务方案,得等接下来两周看。

对开发者来说,如果你的业务真的卡在大模型输出速度上——比如做编程Agent、做实时翻译、做长文档生成的batch处理——这两周值得去申请试一下。即便不立刻接入生产,跑跑benchmark对比一下,也能对"万亿参数+1000 tokens/s"这个组合究竟意味着什么有个体感。

大模型工程这条线,2026年还有得卷。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: