裁判下场卖票：Arena 内测中转 API 入局模型路由市场

曾经的大模型裁判 Arena（原 LMArena）低调上线 Arena API，主打 auto 智能路由，正式入局模型中转生意。当一边记分一边卖票成为现实，那块从伯克利带出来的金字招牌还撑得住吗？

Arena 也开始做中转了

这两天圈内传开一件挺有意思的事：那个以「人类投票定胜负」出名的大模型竞技场 Arena（原 LMArena），悄悄上线了一个叫 Arena API 的产品，目前还在限制注册的研究预览阶段。

打开 portal.api.preview.arena.ai，配方熟得让人发笑——OpenAI 兼容的 chat completions、Anthropic 风格的 Messages 接口、统一密钥、按 token 计费，模型名一栏甚至可以直接填 auto，由它根据自家排行榜替你路由到「当下最强」的模型上。

这套业务流程，做 API 聚合的朋友闭着眼都能背出来。学名叫「智能路由 + 中转」，俗称——贩子。

Arena API 控制台截图，展示 API Key 管理与模型选择界面

从「兵器谱」到「卖货郎」

要理解这件事的微妙之处，得先回忆一下 Arena 的身世。

它脱胎于 UC Berkeley 的学术项目 Chatbot Arena，靠盲测投票攒下的偏好数据，长期是大模型厂商既爱又怕的兵器谱。每次 GPT、Claude、Gemini 发新版本，CEO 们发推时第一件事就是晒 Arena 排名。这块牌子值多少钱？资本市场给过两个标价：

2025 年 5 月，约 1 亿美元种子轮，a16z 与加州大学投资公司领投，估值约 6 亿美元；
2026 年 1 月，再融 1.5 亿美元，估值飙到 17 亿美元。

半年时间估值差不多翻了三倍，说它是 2025 年下半年最受追捧的 AI infra 公司之一也不算夸张。但裁判这门生意有个老问题：不赚钱。

网站免费、投票免费、direct chat 免费，连 Arena-Hard-Auto 这种评测工具都直接开源扔在 GitHub 上。账单不免费，投资人的耐心也不是无限的。融资两轮、估值 17 亿之后，总要有个商业化的故事讲给 LP 听。

谜底现在揭晓——把排行榜本身变成商品。

auto 模式：把「全网最懂模型」变现成 token 流水

Arena API 最核心的卖点，叫 auto 路由。

它的逻辑非常直白：用户调用时不指定具体模型，Arena 根据自家排行榜的实时数据（按任务类型、按语种、按代码/创意/推理细分类目），动态挑选当前榜单上最强的那个模型来回答。换句话说，Arena 把自己「全网最懂模型」的人设，直接变现成了 token 流水。

围绕这个核心，它还顺手兼容了几乎所有主流客户端：龙虾（Cherry Studio 之类的桌面客户端）、Claude Code、Codex、Pi（不是那个 inflection AI 的 Pi，而是另一家代码 agent）等等都能一键接上。这个动作本身就说明它瞄准的不是 SDK 直调的开发者，而是已经在用第三方客户端、习惯通过聚合 API 调模型的那波人——也就是 OpenRouter 现成的存量市场。

从产品形态看，这就是一个标准的中转聚合站。和 OpenRouter、各种「兔兔站」、各种 OpenAI 国产马甲，没有本质区别。

但 Arena 不是 OpenRouter

问题就出在这里。

OpenRouter 卖中转，谁也不会说什么——它就是个二道贩子，明码标价，吃的就是价差和便利费。但 Arena 不一样，它手里握着裁判的哨子。

它给模型打分，再按分数分配真金白银的流量。auto 路由倾向于哪个模型，那个模型就能从这个新生的流量池里多分一杯羹。厂商的排名从此就不再只关乎面子，还直接关乎进账。这种结构性的利益绑定，是 OpenRouter 永远不会有的。

更尴尬的是，Arena 的公正性此前就不是没争议：

2025 年上半年，Cohere 等机构的研究人员发了一篇标题就很燃的论文《The Leaderboard Illusion》，指控 Chatbot Arena 给大厂开后门——允许私下测试多个变体，再择优上榜，普通模型一次定生死，大厂可以「Best of N」；
Llama 4 发布时的刷榜风波、文心一言的刷榜质疑，吃瓜群众都还记得；
即使到了现在，榜单上几个无名小卒突然挤进前列，圈内人看了都得歪头想想是不是哪里走漏了风声。

当年这些争议还能用「学术项目嘛，机制不完善可以理解」糊弄过去。现在裁判亲自下场卖票，那点利益怀疑就从「疑似」升级成了「明牌」。

官方文档的免责声明很坦诚

有意思的是，Arena 自己在文档里姿态放得相当低：

产品处于 research preview 阶段，不承诺 SLA、不承诺可用性；
auto 模式不保证选中的模型一定支持 function calling；
路由质量「会随着时间逐步改进」。

翻译成人话大致是这样的：

先跑起来，钱的事不能再等了。掺水路由的锅，别怪我们没提前打招呼。

这种话术其实和当年 OpenAI 给 GPT-4 加注释「可能产生幻觉」是一个调调——把所有潜在的产品瑕疵都用一句「early preview」包圆。但 Arena 的情况比 OpenAI 微妙，毕竟你是裁判，姿态再低也低不到自证清白。

这事对开发者意味着什么

抛开吃相不谈，单从产品角度看，Arena API 还是有点东西的：

路由不是空喊。市面上的智能路由产品，无非两种思路：一种是看模型 benchmark 离线评分，一种是 A/B 跑 prompt 实测分类。Arena 手里有一个别人没有的资产——实时人类偏好数据。理论上，它对「这种 prompt 用哪个模型回答最讨喜」的判断，比任何 benchmark 都更接近真实用户体感。
对长尾任务可能有奇效。比如冷门语种翻译、特定风格写作，Arena 的细分榜单数据是最详尽的，路由命中率理论上比 OpenRouter 那种「按 token 单价 + 速度」的简单策略要高。
但你赌不起一致性。auto 模式意味着你今天调和明天调可能落到完全不同的模型上，function calling、structured output、context window 全是变量。生产环境用它做主路由几乎不现实，更适合 chat 场景或者一次性任务。

所以现实的用法，大概率是：

chat 场景：直接 auto，省心；
agent / 工具调用：还是老老实实指定模型，别让裁判替你做选择题；
评测对比：本来就该用更稳定的 endpoint，比如直接调原厂或者像 OpenAI Hub 这种兼容 OpenAI 格式、一个 Key 打通 GPT / Claude / Gemini / DeepSeek 的聚合层，省得变量太多扰乱实验。

行业格局：聚合层从「方便」走向「主战场」

往后退一步看，2026 上半年最值得注意的趋势之一，就是模型聚合/中转层从一个边角生意，正式变成了 AI infra 的主战场。

OpenRouter 已经稳坐头部，月流水据传破亿；
各种垂直定位的聚合站层出不穷，有专门做代码模型的、有专门做角色扮演的；
国内合规通道也在做类似的事，把 GPT、Claude、Gemini 这些海外模型用国内可调用的方式打包出去；
现在连 Arena 这种「上游裁判」也下场了。

这背后的逻辑其实挺朴素：没有任何一个模型能在所有任务上都最强。GPT 写代码强，Claude 写长文章稳，Gemini 上下文长，DeepSeek 性价比高，Grok 实时性好。开发者真要做产品，单押一家是最蠢的选择，所以聚合层天然有刚需。

但聚合层的护城河又非常薄——大家接的都是同一批原厂 API，比的就是稳定性、价格、客户端兼容、以及那一点点路由的小聪明。Arena 这次入场，本质上是想用「裁判数据」给自己造一道别人没有的护城河。

至于这道护城河能不能撑住——既要看用户买不买账，也要看那些被它打分的模型厂商，愿不愿意继续把自己最新的版本送上这个既当裁判又当中介的擂台。

尾声

宇宙的尽头是编制，互联网的尽头是带货，AI 创业的尽头——目前看，是贩子。

OpenRouter 在前面已经趟出了路，Arena 现在带着裁判证下场，多少有点「我开了赌场，顺便也下注」的味道。一边记分一边卖票这事最后怎么收场，没人知道。但可以确定的是，Arena 那块从伯克利带出来的金字招牌，从今天起含金量要重新评估了。

等什么时候 a16z 开始投自己投出来的模型，再让 Arena 把它路由进 auto 池子——剧本就齐了。

参考来源

宇宙尽头是贩子？大模型竞技场 Arena 也开始做中转了 - linux.do：原始讨论帖，最早曝出 Arena API 内测细节
lmarena/arena-hard-auto - GitHub：Arena 团队维护的自动评测基准，背景资料

裁判下场卖票：Arena 悄悄内测中转 API

Arena 也开始做中转了

从「兵器谱」到「卖货郎」

auto 模式：把「全网最懂模型」变现成 token 流水

但 Arena 不是 OpenRouter

官方文档的免责声明很坦诚

这事对开发者意味着什么

行业格局：聚合层从「方便」走向「主战场」

尾声

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们