裁判下场卖票:Arena 悄悄内测中转 API

曾经的大模型裁判 Arena(原 LMArena)低调上线 Arena API,主打 auto 智能路由,正式入局模型中转生意。当一边记分一边卖票成为现实,那块从伯克利带出来的金字招牌还撑得住吗?
Arena 也开始做中转了
这两天圈内传开一件挺有意思的事:那个以「人类投票定胜负」出名的大模型竞技场 Arena(原 LMArena),悄悄上线了一个叫 Arena API 的产品,目前还在限制注册的研究预览阶段。
打开 portal.api.preview.arena.ai,配方熟得让人发笑——OpenAI 兼容的 chat completions、Anthropic 风格的 Messages 接口、统一密钥、按 token 计费,模型名一栏甚至可以直接填 auto,由它根据自家排行榜替你路由到「当下最强」的模型上。
这套业务流程,做 API 聚合的朋友闭着眼都能背出来。学名叫「智能路由 + 中转」,俗称——贩子。

从「兵器谱」到「卖货郎」
要理解这件事的微妙之处,得先回忆一下 Arena 的身世。
它脱胎于 UC Berkeley 的学术项目 Chatbot Arena,靠盲测投票攒下的偏好数据,长期是大模型厂商既爱又怕的兵器谱。每次 GPT、Claude、Gemini 发新版本,CEO 们发推时第一件事就是晒 Arena 排名。这块牌子值多少钱?资本市场给过两个标价:
- 2025 年 5 月,约 1 亿美元种子轮,a16z 与加州大学投资公司领投,估值约 6 亿美元;
- 2026 年 1 月,再融 1.5 亿美元,估值飙到 17 亿美元。
半年时间估值差不多翻了三倍,说它是 2025 年下半年最受追捧的 AI infra 公司之一也不算夸张。但裁判这门生意有个老问题:不赚钱。
网站免费、投票免费、direct chat 免费,连 Arena-Hard-Auto 这种评测工具都直接开源扔在 GitHub 上。账单不免费,投资人的耐心也不是无限的。融资两轮、估值 17 亿之后,总要有个商业化的故事讲给 LP 听。
谜底现在揭晓——把排行榜本身变成商品。
auto 模式:把「全网最懂模型」变现成 token 流水
Arena API 最核心的卖点,叫 auto 路由。
它的逻辑非常直白:用户调用时不指定具体模型,Arena 根据自家排行榜的实时数据(按任务类型、按语种、按代码/创意/推理细分类目),动态挑选当前榜单上最强的那个模型来回答。换句话说,Arena 把自己「全网最懂模型」的人设,直接变现成了 token 流水。
围绕这个核心,它还顺手兼容了几乎所有主流客户端:龙虾(Cherry Studio 之类的桌面客户端)、Claude Code、Codex、Pi(不是那个 inflection AI 的 Pi,而是另一家代码 agent)等等都能一键接上。这个动作本身就说明它瞄准的不是 SDK 直调的开发者,而是已经在用第三方客户端、习惯通过聚合 API 调模型的那波人——也就是 OpenRouter 现成的存量市场。
从产品形态看,这就是一个标准的中转聚合站。和 OpenRouter、各种「兔兔站」、各种 OpenAI 国产马甲,没有本质区别。
但 Arena 不是 OpenRouter
问题就出在这里。
OpenRouter 卖中转,谁也不会说什么——它就是个二道贩子,明码标价,吃的就是价差和便利费。但 Arena 不一样,它手里握着裁判的哨子。
它给模型打分,再按分数分配真金白银的流量。auto 路由倾向于哪个模型,那个模型就能从这个新生的流量池里多分一杯羹。厂商的排名从此就不再只关乎面子,还直接关乎进账。这种结构性的利益绑定,是 OpenRouter 永远不会有的。
更尴尬的是,Arena 的公正性此前就不是没争议:
- 2025 年上半年,Cohere 等机构的研究人员发了一篇标题就很燃的论文《The Leaderboard Illusion》,指控 Chatbot Arena 给大厂开后门——允许私下测试多个变体,再择优上榜,普通模型一次定生死,大厂可以「Best of N」;
- Llama 4 发布时的刷榜风波、文心一言的刷榜质疑,吃瓜群众都还记得;
- 即使到了现在,榜单上几个无名小卒突然挤进前列,圈内人看了都得歪头想想是不是哪里走漏了风声。
当年这些争议还能用「学术项目嘛,机制不完善可以理解」糊弄过去。现在裁判亲自下场卖票,那点利益怀疑就从「疑似」升级成了「明牌」。
官方文档的免责声明很坦诚
有意思的是,Arena 自己在文档里姿态放得相当低:
- 产品处于 research preview 阶段,不承诺 SLA、不承诺可用性;
- auto 模式不保证选中的模型一定支持 function calling;
- 路由质量「会随着时间逐步改进」。
翻译成人话大致是这样的:
先跑起来,钱的事不能再等了。掺水路由的锅,别怪我们没提前打招呼。
这种话术其实和当年 OpenAI 给 GPT-4 加注释「可能产生幻觉」是一个调调——把所有潜在的产品瑕疵都用一句「early preview」包圆。但 Arena 的情况比 OpenAI 微妙,毕竟你是裁判,姿态再低也低不到自证清白。
这事对开发者意味着什么
抛开吃相不谈,单从产品角度看,Arena API 还是有点东西的:
- 路由不是空喊。市面上的智能路由产品,无非两种思路:一种是看模型 benchmark 离线评分,一种是 A/B 跑 prompt 实测分类。Arena 手里有一个别人没有的资产——实时人类偏好数据。理论上,它对「这种 prompt 用哪个模型回答最讨喜」的判断,比任何 benchmark 都更接近真实用户体感。
- 对长尾任务可能有奇效。比如冷门语种翻译、特定风格写作,Arena 的细分榜单数据是最详尽的,路由命中率理论上比 OpenRouter 那种「按 token 单价 + 速度」的简单策略要高。
- 但你赌不起一致性。auto 模式意味着你今天调和明天调可能落到完全不同的模型上,function calling、structured output、context window 全是变量。生产环境用它做主路由几乎不现实,更适合 chat 场景或者一次性任务。
所以现实的用法,大概率是:
- chat 场景:直接 auto,省心;
- agent / 工具调用:还是老老实实指定模型,别让裁判替你做选择题;
- 评测对比:本来就该用更稳定的 endpoint,比如直接调原厂或者像 OpenAI Hub 这种兼容 OpenAI 格式、一个 Key 打通 GPT / Claude / Gemini / DeepSeek 的聚合层,省得变量太多扰乱实验。
行业格局:聚合层从「方便」走向「主战场」
往后退一步看,2026 上半年最值得注意的趋势之一,就是模型聚合/中转层从一个边角生意,正式变成了 AI infra 的主战场。
- OpenRouter 已经稳坐头部,月流水据传破亿;
- 各种垂直定位的聚合站层出不穷,有专门做代码模型的、有专门做角色扮演的;
- 国内合规通道也在做类似的事,把 GPT、Claude、Gemini 这些海外模型用国内可调用的方式打包出去;
- 现在连 Arena 这种「上游裁判」也下场了。
这背后的逻辑其实挺朴素:没有任何一个模型能在所有任务上都最强。GPT 写代码强,Claude 写长文章稳,Gemini 上下文长,DeepSeek 性价比高,Grok 实时性好。开发者真要做产品,单押一家是最蠢的选择,所以聚合层天然有刚需。
但聚合层的护城河又非常薄——大家接的都是同一批原厂 API,比的就是稳定性、价格、客户端兼容、以及那一点点路由的小聪明。Arena 这次入场,本质上是想用「裁判数据」给自己造一道别人没有的护城河。
至于这道护城河能不能撑住——既要看用户买不买账,也要看那些被它打分的模型厂商,愿不愿意继续把自己最新的版本送上这个既当裁判又当中介的擂台。
尾声
宇宙的尽头是编制,互联网的尽头是带货,AI 创业的尽头——目前看,是贩子。
OpenRouter 在前面已经趟出了路,Arena 现在带着裁判证下场,多少有点「我开了赌场,顺便也下注」的味道。一边记分一边卖票这事最后怎么收场,没人知道。但可以确定的是,Arena 那块从伯克利带出来的金字招牌,从今天起含金量要重新评估了。
等什么时候 a16z 开始投自己投出来的模型,再让 Arena 把它路由进 auto 池子——剧本就齐了。
参考来源
- 宇宙尽头是贩子?大模型竞技场 Arena 也开始做中转了 - linux.do:原始讨论帖,最早曝出 Arena API 内测细节
- lmarena/arena-hard-auto - GitHub:Arena 团队维护的自动评测基准,背景资料



