小米 MiMo-V2.5-Pro UltraSpeed：万亿参数模型生成速度破 1000 tokens/s

小米联合 TileRT 推出 MiMo-V2.5-Pro UltraSpeed 模式，在通用 GPU 上把 1.02T 参数的 MoE 模型生成速度首次推过 1000 tokens/s，10 秒写完贪吃蛇，1 分钟复刻 macOS 界面。代价是 3 倍 API 价格，且采取申请制限时开放两周。

6 月 8 日晚，小米 MiMo 团队联合推理引擎公司 TileRT 扔出了一个数字：1000 tokens/s。这是万亿参数级别模型在通用 GPU 上首次跨过这条线。对应的产品是 MiMo-V2.5-Pro 的 UltraSpeed 模式，API 已于今日同步上线，6 月 9 日开始按申请制放量，窗口期到 6 月 23 日 23:59，前后只有两周。

官方给这次更新定的口号很直接——3 倍价格，10 倍输出体验。MiMo-V2.5-Pro 原本的输出价是 6 元/百万 tokens，UltraSpeed 拉到 18 元/百万 tokens，但生成吞吐拔高一个量级。换算到单位 token 的「速度成本比」，其实是赚的，前提是你真的需要这个速度。

MiMo-V2.5-Pro UltraSpeed 演示：10 秒生成贪吃蛇游戏

1000 tokens/s 是个什么概念

做个横向参照。目前主流闭源旗舰模型的输出速度普遍在 50-100 tokens/s 这个区间徘徊，Claude Opus 4.6 慢的时候能掉到 40 tokens/s，GPT-5.4 高速档大约在 120-180 tokens/s。专做高速推理的 Cerebras、SambaNova 在百亿参数小模型上能跑到 2000+ tokens/s，但那是定制硬件、且模型规模差着两个数量级。

MiMo-V2.5-Pro 是 1.02T 总参数、42B 活跃参数的 MoE 模型，原生支持 100 万 token 上下文，混合注意力按 SWA:GA = 6:1 的比例交错，还带 3 层 MTP（Multi-Token Prediction）。这种规模在通用 GPU 上做到 1000 tokens/s，工程难度比把 Llama-7B 跑快要高一个维度——MoE 的 expert 路由、KV cache 调度、长序列下的通信开销，每一项都是地狱级问题。

小米的说法是「模型与系统的极致 Codesign」。换句话说，不是单纯做推理优化，而是模型结构本身就在为高速推理让路：MTP 让单步推理能一次吐多个 token，混合注意力把长上下文的 KV 缓存压到原来的 1/7，专家路由的稀疏激活让 1T 参数实际只调用 42B。这些设计在训练阶段就埋好了伏笔，到了部署阶段配合 TileRT 的引擎才能把账算平。

「10 秒贪吃蛇、1 分钟 macOS」是噱头还是真活

官方放出的两段演示视频，一段是 10 秒生成一个能跑的贪吃蛇 HTML，另一段是 1 分钟复刻 macOS 桌面界面（HTML/CSS 静态还原）。这两个 demo 选得挺鸡贼——都是输出 token 量大、但逻辑复杂度可控的任务，正好把速度优势顶到天花板。

但场景本身是真实的。前端代码生成、长文档改写、大批量数据结构化、Agent 多轮调用——这些都是「token 密集型」工作流。一个典型的 Cursor / Cline 编程会话动辄几万 token 输出，模型快一倍，用户的等待感能从「去倒杯水」缩短到「眨个眼」。对于做 AI Coding 工具、做 Agent 框架的开发者，1000 tokens/s 不是参数表上的炫技数字，是产品体验质变的临界点。

值得一提的是 MiMo-V2.5-Pro 本身就是 token 效率怪兽。Artificial Analysis 的测评数据里，同一套 Intelligence Index 任务下，DeepSeek V4 Flash、GPT-5.4 mini、Claude Sonnet 4.6 输出 token 都在 2 亿量级，MiMo-V2.5-Pro 只用 9200 万——少 50% 还不止。在 ClawEval 上，它以每条轨迹约 7 万 token 拿到 64% 的 Pass^3，比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 少用 40%-60% token。「思考更短 + 出 token 更快」叠加起来，端到端的任务完成时间能甩开同梯队模型一大截。

价格账要怎么算

先把表摆出来：

| 模型 | 输入（未命中缓存）| 输入（命中缓存）| 输出 | |---|---|---|---| | MiMo-V2.5-Pro | 3 元/M tokens | 0.025 元/M tokens | 6 元/M tokens | | MiMo-V2.5-Pro UltraSpeed | 9 元/M tokens | 0.075 元/M tokens | 18 元/M tokens |

对比海外定价（未命中缓存 1 美元输入 / 3 美元输出），UltraSpeed 的国内价折成美元约 1.26 / 2.52 美元，依然比 Claude Opus 4.6（5 美元输入起）便宜。

对什么样的业务划算？

Agent / Coding 工作流：单次任务输出几万 token，3 倍价格换 10 倍速度，用户体验直接起飞，转化率提升一般能覆盖成本
批量生成 / ETL：跑得越快单位时间产能越高，GPU 占用时间短反而能省钱
实时交互场景：客服、语音陪聊、流式翻译，延迟敏感型产品几乎是刚需

对什么场景不划算？

离线批处理、对时延不敏感的内容生成
长上下文检索类任务（瓶颈在输入而非输出）
高 QPS 但单次输出短的场景（速度优势体现不出来）

限时申请制：资源紧张是真的

这次 UltraSpeed 没有走常规的 Token Plan 路线，而是申请制限时开放，规则也比较「克制」：

时间窗口：2026-06-09 至 2026-06-23 23:59，共两周
优先审核「具备真实业务需求的企业与专业开发者」，不承诺审核时效
通过审核的用户可同步获得限时免费 Chat 体验
Chat 限制：每账号每日最多入队 10 次，单次会话上限 30 分钟，闲置 5 分钟自动释放
API 体验仅限 2 周窗口，不支持 Token Plan

这套规则的潜台词很清楚：高速推理资源是用真金白银的算力堆出来的，目前堆不出长期供给。Codesign 优化能把单卡吞吐拉满，但 1000 tokens/s 这个档位下，每个并发都要占用大量 SM 和显存带宽。小米选择先做封闭测试，一方面是保障早期用户的稳定性，另一方面也是在筛选真实需求场景，为后续商业化定价积累数据。

MiMo 开放平台 UltraSpeed 申请入口截图

一年半时间，小米 MiMo 走到了哪里

捋一下时间线：

2025 年 12 月：MiMo-V2-Flash 开源，引入混合注意力 + MTP 设计
2026 年 3 月：MiMo-V2-Pro 全球发布，总参数突破 1T，激活 42B
2026 年 4 月：MiMo-V2.5-Pro 登顶 Artificial Analysis 开源综合智能指数并列第一，Agent 专项指数开源第一，跻身全球总榜前五
同期：在 OpenRouter 上以 30%+ 市占率拿下周榜第一，单周调用量 4.82 万亿 token，结束 Minimax 的连冠纪录
2026 年 6 月：UltraSpeed 模式上线，万亿参数突破 1000 tokens/s

半年三连击的节奏，在国内大模型团队里算很猛的。更关键的是路线非常明确——不卷分数卷效率。小米团队反复强调的「Token Economics」概念，本质是承认大模型规模化部署的瓶颈不在能力上限，而在单位 token 的经济账。MiMo 系列的所有设计选择，从 MoE 稀疏激活到混合注意力到 MTP 再到现在的 UltraSpeed，都是围绕「同样的钱能跑多少有效任务」这个核心问题展开。

这套路线也呼应了小米「人车家全生态」的落地需求。MiMo-V2.5-Pro 已经进了 SU7 Ultra 的智能座舱，澎湃 OS 走端云混合部署，车机和家居场景对延迟和成本的敏感度都极高。UltraSpeed 这种「不计成本拼速度」的极限版本，未来很可能下沉到这些 toC 终端的关键交互节点——比如车机里的实时副驾、家庭机器人的反应链路。

一些遗留的疑问

TileRT 的引擎细节没公开。小米和 TileRT 的 Codesign 究竟做了哪些工程优化（speculative decoding？分布式 KV cache？Expert parallel 重排？），目前博客没给出技术 paper 级别的披露。开源社区想要复现这套加速方案还需要等更多资料。
质量是否会因为速度而退化。MTP 加预测推测路径在极端情况下可能影响输出准确性，UltraSpeed 模式相比标准模式的 benchmark 对比小米还没放出。
后续商业化定价。两周窗口结束后，这个能力是直接关掉、转为长期服务、还是分级订阅，目前没有口风。3 倍价格能不能稳得住，要看真实负载下的资源利用率。

不管怎样，对国内开发者来说，6 月 9 日开放的这两周值得抢一波体验名额。万亿参数 + 1000 tokens/s 的组合，目前在开源阵营里独一份。OpenAI Hub 也在跟进 MiMo 系列的集成，开发者可以用同一个 Key 在 MiMo 和 GPT、Claude、Gemini、DeepSeek 之间横向对比——尤其是做 Agent、做 Coding 工具的团队，这种速度差异在生产环境里会被放大得很明显。

申请入口：platform.xiaomimimo.com/ultraspeed Chat 体验：ultraspeed.xiaomimimo.com