5月28日Artificial Analysis Speech Arena最新排行榜显示，阿里Fun-Realtime-TTS-Preview以1190分Elo评分跻身全球第五、国产第一，并在ASR、Chat、TTS三个子赛道上包揽国内第一。

阿里语音大模型杀进 Speech Arena 全球前五，三个赛道国内通吃

5 月 28 日，Artificial Analysis 的 Speech Arena 排行榜更新，阿里巴巴的语音大模型 Fun-Realtime-TTS-Preview 拿到 1190 分 Elo，全球第五、国产第一。同一份榜单上，ASR（语音转文字）、Chat（端到端语音对话）、TTS（文字转语音）三个子赛道，阿里都是国内第一。

这件事单看排名并不算惊天动地——前面还压着 OpenAI、ElevenLabs，以及不久前刚冲上 TTS 榜首的 MiniMax Speech-02-HD。但放在国内语音赛道的语境里看，意义不太一样：过去一年，国内做语音大模型的厂商里能在三个细分能力上同时进决赛圈的，几乎没有。阿里这次是一个模型把三件事都做了，而且没有明显的偏科。

Speech Arena 排行榜截图，Fun-Realtime-TTS-Preview 位列全球第五

Elo 1190 是什么水平

先解释一下榜单的玩法，免得数字看着没感觉。

Artificial Analysis 的 Speech Arena 走的是和 LMSYS Chatbot Arena 同一套思路——盲测加 Elo。用户在网页上输入一段文本或者上传一段音频，平台同时调两个模型生成结果，匿名展示，用户投票选哪个更好。所有投票汇总后用 Elo 算法滚动更新分数。

这种打分方式有几个特点：

不依赖某个固定测试集，所以很难靠刷题刷上去；
结果受用户偏好影响，自然语气、情感表达这些不太能被 WER（字错率）或 MOS（主观评分）量化的东西，会被放进总分；
Elo 分差对应胜率，1190 vs 1100 大致意味着前者在盲测里赢的次数明显更多，不是统计噪声。

第一名通常在 1230 分上下，全球前五的分差不会拉得特别大。换句话说，阿里这个 1190 分，距离第一梯队不算远，但也确实还没摸到天花板。

Fun-Realtime-TTS-Preview 到底是什么模型

名字里的几个关键词得拆开看。

Fun 是阿里达摩院（现在更多挂在通义实验室名下）语音方向的一个长期家族，FunASR、FunAudioLLM、FunClip 这些都是这条线下出来的开源项目。在 GitHub 上 FunASR 的 star 数已经过了几万，国内做语音项目的开发者多半都集成过它的工具链。Fun-Realtime-TTS-Preview 可以理解为这条线最新的一个端到端语音大模型的预览版。

Realtime 这个词不是装饰。语音大模型这两年最大的工程难点其实不在音质，而在延迟——你要让用户在打断、抢话、即时反馈这种交互里感觉自然，端到端的首包延迟必须压到 300ms 以内，最好能到 200ms。OpenAI 去年 GPT-4o 在演示视频里展示的"打断后立刻接话"的效果，本质上就是为了打这个点。Fun-Realtime 走的是同样的路线。

TTS-Preview 这个后缀有点容易让人误会，看起来像是只做 TTS，但榜单显示它在 ASR 和 Chat 上也都拿了国内第一。比较合理的解读是：这是一个端到端的统一语音模型，TTS 是它对外发布的主入口，但底层架构同时承载了听、说、聊三种能力。这种"一个模型干完三件事"的路线，在工程上更接近 GPT-4o 的语音模式，而不是传统 ASR + LLM + TTS 三段式拼接。

三段式 vs 端到端，差在哪

这里值得多说两句，因为这是理解语音大模型当前格局的关键。

传统语音助手是这样的：

音频输入 → ASR 模型 → 文本 → LLM → 文本 → TTS 模型 → 音频输出

每一段都是独立模型，链路上累计的延迟、信息损失、错误传播都是问题。比如 ASR 把"那家店挺贵的吧"识别成"那家店挺贵的吗"，语气从陈述变成了疑问，下游 LLM 的回答就会跑偏。又比如用户笑了一声、叹了口气，这些 paralinguistic 的信息在 ASR 输出文本时被完全丢掉了。

端到端的做法是把这条链路压扁：

音频输入 → 统一语音大模型 → 音频输出

模型内部直接处理 audio token，不再经过文本作为唯一中间表示。好处是延迟低、能保留情感和韵律信息、能输出带情绪的合成语音。代价是训练成本高、数据组织复杂、可控性比纯 TTS 差一些（比如想精确控制某个字怎么读，反而没有传统 SSML 那么直接）。

阿里这次在三个赛道都拿到国内第一，更值得关注的其实是 Chat 这一项——它代表端到端语音对话能力。能在这个项目上压住其他国产选手，说明 Fun-Realtime 不是把一个老 TTS 拿出来重新包装，而是真的把端到端这条路走通了。

国内语音赛道的几条路线

顺着说一下当前国内的格局，方便对比着看。

MiniMax：Speech-02-HD 在 5 月初冲到了 Speech Arena 的 TTS 子榜单全球第一，主打音色还原和多语种。路线偏 TTS 优先，对话能力没有特别强调。
字节：豆包语音模型，强项在 C 端集成和实时对话延迟，但很少在第三方公开榜单上正面对比。
科大讯飞：星火语音，行业积累深，传统 ASR 仍然是国内最稳的之一，端到端方向跟进中。
阿里通义：这次的 Fun-Realtime-TTS-Preview，押的是统一架构 + 实时交互。
腾讯、百度：各自有混元和文心的语音线，但目前在 Speech Arena 这种全球榜单上的存在感不强。

MiniMax 拿 TTS 单项第一，阿里拿三项综合，两家走的不是同一条路。前者像是把单点做到极致，后者像是把整套能力打包成一个底座。从平台和 API 的角度看，后者更适合做开发者基础设施，前者更适合做内容生产工具。

对开发者意味着什么

如果你是做语音应用的开发者，这条新闻里有几个实际信号值得留意：

国产端到端语音模型开始有 production-ready 的选项了。 之前要做低延迟语音交互，大多数团队的选择是 OpenAI Realtime API，但海外服务的延迟、合规、成本都是麻烦。阿里这个模型如果能开放出稳定的 API，国内场景的可选项就多了一个。
Preview 版本意味着 API 接口和定价还在变。 不建议现在就把生产环境的语音链路切过来，但做 POC、做技术评估，现在是合适的时间点。
三段式架构在很多场景下仍然有性价比优势。 别看到端到端的榜单成绩就立刻把整套架构推倒重来。如果你的场景对延迟没那么敏感，或者需要在中间环节做敏感词、业务逻辑注入，三段式仍然更灵活。
评测榜单只是一个参考点。 Speech Arena 的盲测偏向"听起来自然"，但你的业务可能更关心多轮对话稳定性、长音频处理、特定领域词汇识别准确率。建议自己拿真实场景的样本跑一遍。

顺带提一句，OpenAI Hub 这边的 API 聚合也在跟进语音类模型的接入，之前已经把 OpenAI 的 Realtime API 和几个主流 TTS 整合进同一套 OpenAI 格式的接口里。Fun-Realtime 这条线如果后续放出公开 API，按惯例也会做兼容。一个 Key 同时调通用对话模型和语音模型，对做语音 Agent 的团队会省不少胶水代码。

一个判断

阿里这次能进全球前五，技术上没有什么意外——FunAudioLLM、CosyVoice、SenseVoice 这些底子摆在那儿，迟早会出一个统一的端到端模型。比较有意思的是时间点：MiniMax 5 月初刚拿了 TTS 单项第一，阿里 5 月底就用一个综合三项第一回应。国内语音赛道的节奏在明显加速。

接下来值得关注的有两件事：一是 Fun-Realtime 什么时候转正、API 怎么定价；二是字节豆包语音会不会也走上公开榜单跟着卷。语音大模型这条线，过去一年一直被文本大模型的光芒盖住，但从端到端架构成熟、首包延迟突破 300ms 这两件事开始，2026 年很可能是它真正成为产品基础设施的一年。

参考来源

MiniMax 新语音模型登顶 TTS 全球榜单解读 - 知乎：本月初 MiniMax Speech-02-HD 登顶 TTS 子榜单的背景报道，对照本次阿里成绩有参考意义。

阿里语音大模型杀进全球Top5，ASR/TTS/Chat三项国内第一