小米 MiMo-V2.5-Pro 飙到 1000 tokens/s:万亿参数的速度禁区被捅破了

小米联合 TileRT 推出 MiMo-V2.5-Pro UltraSpeed 模式,在通用 GPU 上把 1.02T 参数的 MoE 模型生成速度首次推过 1000 tokens/s,10 秒写完贪吃蛇,1 分钟复刻 macOS 界面。代价是 3 倍 API 价格,且采取申请制限时开放两周。
6 月 8 日晚,小米 MiMo 团队联合推理引擎公司 TileRT 扔出了一个数字:1000 tokens/s。这是万亿参数级别模型在通用 GPU 上首次跨过这条线。对应的产品是 MiMo-V2.5-Pro 的 UltraSpeed 模式,API 已于今日同步上线,6 月 9 日开始按申请制放量,窗口期到 6 月 23 日 23:59,前后只有两周。
官方给这次更新定的口号很直接——3 倍价格,10 倍输出体验。MiMo-V2.5-Pro 原本的输出价是 6 元/百万 tokens,UltraSpeed 拉到 18 元/百万 tokens,但生成吞吐拔高一个量级。换算到单位 token 的「速度成本比」,其实是赚的,前提是你真的需要这个速度。

1000 tokens/s 是个什么概念
做个横向参照。目前主流闭源旗舰模型的输出速度普遍在 50-100 tokens/s 这个区间徘徊,Claude Opus 4.6 慢的时候能掉到 40 tokens/s,GPT-5.4 高速档大约在 120-180 tokens/s。专做高速推理的 Cerebras、SambaNova 在百亿参数小模型上能跑到 2000+ tokens/s,但那是定制硬件、且模型规模差着两个数量级。
MiMo-V2.5-Pro 是 1.02T 总参数、42B 活跃参数的 MoE 模型,原生支持 100 万 token 上下文,混合注意力按 SWA:GA = 6:1 的比例交错,还带 3 层 MTP(Multi-Token Prediction)。这种规模在通用 GPU 上做到 1000 tokens/s,工程难度比把 Llama-7B 跑快要高一个维度——MoE 的 expert 路由、KV cache 调度、长序列下的通信开销,每一项都是地狱级问题。
小米的说法是「模型与系统的极致 Codesign」。换句话说,不是单纯做推理优化,而是模型结构本身就在为高速推理让路:MTP 让单步推理能一次吐多个 token,混合注意力把长上下文的 KV 缓存压到原来的 1/7,专家路由的稀疏激活让 1T 参数实际只调用 42B。这些设计在训练阶段就埋好了伏笔,到了部署阶段配合 TileRT 的引擎才能把账算平。
「10 秒贪吃蛇、1 分钟 macOS」是噱头还是真活
官方放出的两段演示视频,一段是 10 秒生成一个能跑的贪吃蛇 HTML,另一段是 1 分钟复刻 macOS 桌面界面(HTML/CSS 静态还原)。这两个 demo 选得挺鸡贼——都是输出 token 量大、但逻辑复杂度可控的任务,正好把速度优势顶到天花板。
但场景本身是真实的。前端代码生成、长文档改写、大批量数据结构化、Agent 多轮调用——这些都是「token 密集型」工作流。一个典型的 Cursor / Cline 编程会话动辄几万 token 输出,模型快一倍,用户的等待感能从「去倒杯水」缩短到「眨个眼」。对于做 AI Coding 工具、做 Agent 框架的开发者,1000 tokens/s 不是参数表上的炫技数字,是产品体验质变的临界点。
值得一提的是 MiMo-V2.5-Pro 本身就是 token 效率怪兽。Artificial Analysis 的测评数据里,同一套 Intelligence Index 任务下,DeepSeek V4 Flash、GPT-5.4 mini、Claude Sonnet 4.6 输出 token 都在 2 亿量级,MiMo-V2.5-Pro 只用 9200 万——少 50% 还不止。在 ClawEval 上,它以每条轨迹约 7 万 token 拿到 64% 的 Pass^3,比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 少用 40%-60% token。「思考更短 + 出 token 更快」叠加起来,端到端的任务完成时间能甩开同梯队模型一大截。
价格账要怎么算
先把表摆出来:
| 模型 | 输入(未命中缓存)| 输入(命中缓存)| 输出 | |---|---|---|---| | MiMo-V2.5-Pro | 3 元/M tokens | 0.025 元/M tokens | 6 元/M tokens | | MiMo-V2.5-Pro UltraSpeed | 9 元/M tokens | 0.075 元/M tokens | 18 元/M tokens |
对比海外定价(未命中缓存 1 美元输入 / 3 美元输出),UltraSpeed 的国内价折成美元约 1.26 / 2.52 美元,依然比 Claude Opus 4.6(5 美元输入起)便宜。
对什么样的业务划算?
- Agent / Coding 工作流:单次任务输出几万 token,3 倍价格换 10 倍速度,用户体验直接起飞,转化率提升一般能覆盖成本
- 批量生成 / ETL:跑得越快单位时间产能越高,GPU 占用时间短反而能省钱
- 实时交互场景:客服、语音陪聊、流式翻译,延迟敏感型产品几乎是刚需
对什么场景不划算?
- 离线批处理、对时延不敏感的内容生成
- 长上下文检索类任务(瓶颈在输入而非输出)
- 高 QPS 但单次输出短的场景(速度优势体现不出来)
限时申请制:资源紧张是真的
这次 UltraSpeed 没有走常规的 Token Plan 路线,而是申请制限时开放,规则也比较「克制」:
- 时间窗口:2026-06-09 至 2026-06-23 23:59,共两周
- 优先审核「具备真实业务需求的企业与专业开发者」,不承诺审核时效
- 通过审核的用户可同步获得限时免费 Chat 体验
- Chat 限制:每账号每日最多入队 10 次,单次会话上限 30 分钟,闲置 5 分钟自动释放
- API 体验仅限 2 周窗口,不支持 Token Plan
这套规则的潜台词很清楚:高速推理资源是用真金白银的算力堆出来的,目前堆不出长期供给。Codesign 优化能把单卡吞吐拉满,但 1000 tokens/s 这个档位下,每个并发都要占用大量 SM 和显存带宽。小米选择先做封闭测试,一方面是保障早期用户的稳定性,另一方面也是在筛选真实需求场景,为后续商业化定价积累数据。

一年半时间,小米 MiMo 走到了哪里
捋一下时间线:
- 2025 年 12 月:MiMo-V2-Flash 开源,引入混合注意力 + MTP 设计
- 2026 年 3 月:MiMo-V2-Pro 全球发布,总参数突破 1T,激活 42B
- 2026 年 4 月:MiMo-V2.5-Pro 登顶 Artificial Analysis 开源综合智能指数并列第一,Agent 专项指数开源第一,跻身全球总榜前五
- 同期:在 OpenRouter 上以 30%+ 市占率拿下周榜第一,单周调用量 4.82 万亿 token,结束 Minimax 的连冠纪录
- 2026 年 6 月:UltraSpeed 模式上线,万亿参数突破 1000 tokens/s
半年三连击的节奏,在国内大模型团队里算很猛的。更关键的是路线非常明确——不卷分数卷效率。小米团队反复强调的「Token Economics」概念,本质是承认大模型规模化部署的瓶颈不在能力上限,而在单位 token 的经济账。MiMo 系列的所有设计选择,从 MoE 稀疏激活到混合注意力到 MTP 再到现在的 UltraSpeed,都是围绕「同样的钱能跑多少有效任务」这个核心问题展开。
这套路线也呼应了小米「人车家全生态」的落地需求。MiMo-V2.5-Pro 已经进了 SU7 Ultra 的智能座舱,澎湃 OS 走端云混合部署,车机和家居场景对延迟和成本的敏感度都极高。UltraSpeed 这种「不计成本拼速度」的极限版本,未来很可能下沉到这些 toC 终端的关键交互节点——比如车机里的实时副驾、家庭机器人的反应链路。
一些遗留的疑问
- TileRT 的引擎细节没公开。小米和 TileRT 的 Codesign 究竟做了哪些工程优化(speculative decoding?分布式 KV cache?Expert parallel 重排?),目前博客没给出技术 paper 级别的披露。开源社区想要复现这套加速方案还需要等更多资料。
- 质量是否会因为速度而退化。MTP 加预测推测路径在极端情况下可能影响输出准确性,UltraSpeed 模式相比标准模式的 benchmark 对比小米还没放出。
- 后续商业化定价。两周窗口结束后,这个能力是直接关掉、转为长期服务、还是分级订阅,目前没有口风。3 倍价格能不能稳得住,要看真实负载下的资源利用率。
不管怎样,对国内开发者来说,6 月 9 日开放的这两周值得抢一波体验名额。万亿参数 + 1000 tokens/s 的组合,目前在开源阵营里独一份。OpenAI Hub 也在跟进 MiMo 系列的集成,开发者可以用同一个 Key 在 MiMo 和 GPT、Claude、Gemini、DeepSeek 之间横向对比——尤其是做 Agent、做 Coding 工具的团队,这种速度差异在生产环境里会被放大得很明显。
申请入口:platform.xiaomimimo.com/ultraspeed Chat 体验:ultraspeed.xiaomimimo.com
参考来源
- 小米发布 MiMo-V2.5-Pro UltraSpeed 模式,3 倍价格 10 倍输出体验 - IT之家:本次更新的中文首发报道,含定价、申请规则、演示视频
- 小米MiMo-V2.5-Pro-UltraSpeed可以内测申请了 - linux.do:开发者社区的内测申请讨论帖



