AI 快讯6.6万人抢着用,小米1000 tps推理延期了
产品更新

6.6万人抢着用,小米1000 tps推理延期了

2026-06-23T17:03:26.965Z
6.6万人抢着用,小米1000 tps推理延期了

小米 MiMo-V2.5-Pro-UltraSpeed 原定今晚下线,但申请量远超预期,官方宣布无限期延长体验窗口。这是目前唯一在通用 GPU 上跑到 1000 tokens/s 的万亿参数模型。

6.6万人抢着用,小米1000 tps推理延期了

小米今天发了个通知:MiMo-V2.5-Pro-UltraSpeed 的限时体验不下线了,至少暂时不下线。

按原计划,这个「1000 tokens/s」的超高速推理模式应该在今晚 23:59 结束两周的体验期。但小米说,申请量太超预期了——截至今天,他们收到了超过 6.6 万个使用申请,来自世界 500 强、行业头部企业和个人开发者,涵盖法律、金融、通信、物流、汽车制造、文化传媒、高校等领域。

所以体验继续开放,具体什么时候下线「根据资源情况另行安排」。翻译一下:我们也没想好,先让子弹飞一会儿。

1000 tokens/s 意味着什么

先说个直观的对比。

目前主流大模型 API 的输出速度大概在 50-150 tokens/s 这个区间。Claude 3.5 Sonnet 在 OpenAI Hub 上实测大约 80-100 tps,GPT-4o 差不多也是这个水平。国内模型普遍更快一些,DeepSeek-V3 能跑到 150 tps 左右,但也就到头了。

1000 tokens/s 是什么概念?

一个中等长度的技术文档,大概 3000-5000 tokens。按 100 tps 算,生成需要 30-50 秒。按 1000 tps 算,3-5 秒就出来了。

更极端的例子:小米官方演示里,他们用 UltraSpeed 模式「1 分钟复刻一个 macOS 系统」——当然是前端界面,不是操作系统本身,但这个速度确实能支撑一些以前做不了的交互形态。

MiMo-V2.5-Pro-UltraSpeed 推理速度对比图,展示与主流模型的 tokens/s 差异

技术上怎么做到的

小米和 TileRT 团队联合发的技术博客里,把核心方法讲得比较清楚。简单说,两个关键点:

FP4 混合量化

传统的大模型推理用 FP16 或 FP8/INT8 量化。位宽越低,显存占用越小,带宽压力越低,速度就越快。但量化太狠,模型能力会掉。

小米的做法是「看人下菜」:MiMo-V2.5-Pro 是 MoE(混合专家)架构,Expert 模块占了参数量的绝大部分,但对量化的容忍度最高。所以他们只对 Expert 做 FP4 量化,其他模块保留原精度。

这招不新鲜,但执行得比较彻底。官方说 benchmark 跟原模型「基本持平」,没给具体数字,但从 6.6 万人申请来看,至少实际体验没翻车。

DFlash 投机解码

投机解码(Speculative Decoding)是这两年推理加速的热门方向。基本思路是用一个小模型先「猜」一批 token,再让大模型批量验证,猜对的就直接用,猜错的再重新生成。

小米的 DFlash 是针对万亿 MoE 和长上下文场景做的定制版本,用了 Muon 二阶优化器和模型自蒸馏,把 draft 阶段的开销压到很低。

技术细节可以去看他们的博客,这里说个结论:靠这两板斧,他们在一个标准的 8 卡通用 GPU 节点上,把 1T 参数模型跑到了 1000 tps。

「通用 GPU」这个限定词很重要。不是定制芯片,不是专用硬件,就是市面上能买到的显卡。这意味着理论上其他厂商也能复现,只是工程量的问题。

定价和使用限制

说完技术,聊聊商业层面。

UltraSpeed 模式的定价是 MiMo-V2.5-Pro 标准版的 3 倍:

| 计费项 | MiMo-V2.5-Pro | UltraSpeed | |--------|---------------|------------| | 输入(缓存命中) | 0.025 元/百万 tokens | 0.075 元/百万 tokens | | 输入(未命中) | 3 元/百万 tokens | 9 元/百万 tokens | | 输出 | 6 元/百万 tokens | 18 元/百万 tokens |

3 倍价格换 10 倍速度,单位时间内的性价比其实是提升的。但这个账不能简单这么算——大多数场景下,瓶颈不在推理速度,而在模型能力。你愿意为「快」多付 3 倍钱吗?

目前的体验规则:

  • 采用申请制,不是所有人都能过
  • 通过审核的用户可以免费用 Chat 体验
  • 每个账号每天最多进队列 10 次
  • 单次会话上限 30 分钟
  • 空闲 5 分钟自动踢出

很明显,小米在控制资源消耗。1000 tps 意味着 GPU 利用率被拉满,服务器成本不低。6.6 万人申请,不可能全放进来。

官方说「优先审核具备真实业务需求的企业与专业开发者场景」。如果你是个人开发者,建议在申请时把使用场景写清楚,别光说「想体验一下」。

6.6 万申请背后的需求

这个数字值得拆解一下。

两周时间,6.6 万个申请,日均近 5000 个。对于一个「限时体验」的新功能来说,热度确实不低。

更有意思的是申请者的构成:世界 500 强、法律、金融、通信、物流、汽车制造、文化传媒、高校……这不是个人开发者在尝鲜,是企业在认真评估。

为什么这些行业对「速度」这么敏感?

几个猜测:

法律和金融:合同审查、尽职调查、研报生成,这些场景的特点是文档量大、时间紧。一份几十页的合同,传统速度可能要等几分钟,UltraSpeed 可以压到几十秒。在计费按时间算的行业里,这直接影响利润率。

通信和物流:客服场景。用户等待时间从 5 秒变成 0.5 秒,体验完全不同。而且这两个行业的并发量大,对吞吐量要求高。

汽车制造:车机交互。你跟车载助手说话,如果要等 3 秒才有回应,体验会很割裂。1000 tps 能让对话接近实时。

文化传媒:内容生成。短视频脚本、新闻稿、营销文案,生成速度直接影响生产效率。

高校:科研场景。大规模实验需要频繁调用模型,推理速度决定实验周期。

这些需求一直存在,但之前没有产品能满足。小米这次算是第一个把「1000 tps」从论文搬到生产环境的。

竞争格局:小米在抢什么

放到更大的视角看,小米这波操作的战略意图很清晰:用推理速度建立差异化

国内大模型市场已经卷到什么程度了?

能力层面,头部模型差距不大。DeepSeek、通义千问、文心一言、MiMo,在主流 benchmark 上你追我赶,用户很难感知到明显区别。

价格层面,已经卷到地板。百万 tokens 几块钱,甚至几毛钱,利润空间被压得很薄。

这时候,「速度」成了新的竞争维度。

小米的策略是:不在价格上跟你卷到底,而是在速度上拉开代际差距。3 倍价格、10 倍速度,瞄准的是那些「愿意为快付费」的高价值客户。

这个定位有意思。大模型市场正在分化:

  • 低端市场:拼价格,拼免费额度,争夺个人开发者和小团队
  • 高端市场:拼能力,拼速度,争夺企业级客户

小米两边都想要。标准版 MiMo-V2.5-Pro 价格不贵,走量;UltraSpeed 模式卖溢价,走利润。

能不能成,取决于两件事:

  1. UltraSpeed 的能力有没有明显下降(官方说「基本持平」,但需要更多实测数据)
  2. 1000 tps 的刚需场景有多大(目前看,至少 6.6 万人认为自己需要)

对开发者的实际影响

说点实在的建议。

如果你在做对延迟敏感的应用——实时对话、流式生成、交互式 Agent——UltraSpeed 值得认真评估。1000 tps 能让很多之前「能做但体验差」的功能变成「体验好到可以上线」。

如果你的场景是批量处理——文档分析、数据清洗、离线生成——速度提升的价值有限。反正用户不在线等着,快 10 倍和快 2 倍区别不大,但成本差 3 倍。

如果你还在技术选型阶段,建议先申请体验,跑几个真实场景的 benchmark。小米说的「基本持平」和你的实际需求可能有偏差。

申请入口在小米 MiMo 平台:platform.xiaomimimo.com/ultraspeed

Chat 体验入口:ultraspeed.xiaomimimo.com

有大规模商用需求的,可以联系 business-mimo@xiaomi.com。

这件事的更大意义

最后说点宏观的。

「1000 tokens/s」这个数字,放在一年前是不可想象的。当时的讨论是「100 tps 够不够快」。

推理速度的提升,正在改变大模型的应用边界。

以前我们讨论「能不能用大模型做 X」,考虑的是能力够不够、成本划不划算。现在还要加一条:速度够不够快

很多场景不是「不能做」,而是「做了体验不好」。当推理速度提升一个数量级,这些场景会被重新激活。

小米这次的技术路线——FP4 混合量化 + 投机解码——不是什么秘密。其他厂商如果投入足够的工程资源,理论上也能做到。

问题在于「值不值得投」。小米用 6.6 万个申请证明了市场需求存在。接下来就看其他玩家跟不跟了。

如果跟,推理速度会成为大模型竞争的新战场。如果不跟,小米在高速推理这个细分领域可能会拉开差距。

不管怎样,开发者是受益的一方。更快的模型、更低的延迟、更多的选择。

延期是好事。多给点时间,让更多人试试。


参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: