Arena AI 评测 ARR 破亿美元，8 个月走通商业化

靠众包打分起家的 AI 模型评测平台 Arena 宣布商业产品 AI Evaluations 上线 8 个月年化收入破亿美元，估值 17 亿。同一赛道的 Yupp 三月已经关门——评测这门生意，看起来只有头部能活。

Arena 八个月做到 1 亿美元 ARR，AI 评测这门生意跑通了

6 月 29 日，AI 模型评测平台 Arena（原 LMArena）对外披露：其面向企业的商业产品 AI Evaluations 上线 8 个月，年化收入跑率（ARR）已经突破 1 亿美元。作为对照，今年 1 月这家公司完成 1.5 亿美元 A 轮融资、估值 17 亿美元时，ARR 还只有 3000 万美元。半年时间三倍增长。

这是一个相当能说明问题的数字。在围绕大模型的工具链生态里，评测是最不性感、技术壁垒看起来最薄的一环——上一个版本的故事是手机跑分网站，最后大多被厂商收编、失去公信力。但 Arena 似乎走出了不一样的路径。

一个学术项目长成的独角兽

Arena 的前身要追溯到 2023 年。加州大学伯克利分校的 LMSYS 团队（核心成员包括 Lianmin Zheng、Wei-Lin Chiang、Hao Zhang 等一批华人研究者）当时发布了开源模型 Vicuna，但发现一个尴尬的问题——传统的 MMLU、GSM8K、HumanEval 这套刷题式 benchmark 已经没法可靠区分模型好坏。

他们的解法很简单粗暴：搞一个网站，用户随便输入 prompt，系统随机抽两个模型出题，用户盲选哪个更好，胜者加分败者减分。这就是后来名声大噪的 Chatbot Arena。2024 年 9 月改名 LMArena，今年又简化为 Arena。

这个网站的飞轮转得很快：

模型越多，用户越愿意来玩
用户越多，产生的偏好数据越丰富
数据越多，排行榜越有公信力
公信力越强，模型厂商越要来打榜

如今，全球 400 多个大模型在 Arena 上有评分，累计超过 1000 万次用户对战记录。OpenAI、Google、Anthropic、DeepSeek、阿里通义、月之暗面——但凡发新模型，几乎没有不去 Arena 刷个分的，发布会上贴一张 Arena 排名截图基本成了标配动作。

这个事实地位很关键。a16z 在投资备忘里直接把 Arena 定义为「AI 产业的关键基础设施」——这个判断不算夸张。

AI Evaluations 怎么把流量变成钱

免费的网站怎么收企业的钱？这是评测平台普遍的难题。Arena 的答案是 AI Evaluations，2025 年 9 月正式推出的企业级产品。

核心逻辑是这样的：模型厂商和企业用户在做模型选型、训练优化、产品迭代时，需要的不只是公开榜单上的一个总分，而是细分维度的深度数据——

我的模型在编码场景对比某个竞品具体差在哪里？
在中文长文本任务上，用户实际偏好的是哪种回答风格？
经过这一轮微调，用户感知到的质量是真的提升还是下降？
给我可追溯的样本和 SLA，方便我向监管或客户交代

Arena 把社区积累的真人偏好数据加工成可消费的分析服务卖出去，按使用量计费（创始人 Angelopoulos 特意澄清这一点，所以严格说这 1 亿美元更像是 annualized run-rate 而非传统意义上的 recurring revenue）。客户主要是两类：一类是 OpenAI、Anthropic 这种自己训模型的实验室，需要 post-training 阶段的人类偏好数据；另一类是把 AI 嵌入业务的企业，需要选型和持续监控。

横向看，Arena 在和 Scale AI、Surge、Mercor 这些做人工标注和后训练数据的公司「抢同一块预算」。Mercor 今年也突破 10 亿美元营收，Handshake 的 AI 训练业务接近 10 亿美元——整个为大模型「喂数据、做评估」的赛道，正在变成一个比想象中大得多的市场。

Arena 还推出了 Inclusion Arena，通过 API 和 SDK 把评测嵌入真实 AI 应用中收集生产环境反馈。这个方向其实更有想象空间——它实际上是在构建一套「AI 产品的 CI/CD 管道」，从模型上线那天起就持续监控用户偏好变化。

Yupp 关了，说明这门生意没那么容易做

一个值得注意的对照：同样做众包 AI 评测的 Yupp，今年 3 月 31 日已经宣布停止运营。

Yupp 成立于 2024 年，思路和 Arena 高度类似——双边市场，C 端用户免费体验多模型，B 端卖评测数据给 AI 实验室。最高时累计吸引了 130 万用户，也拿到过实验室付费合同，但始终没找到 PMF，最后还是关掉了。

这件事说明几个问题：

第一，评测平台的网络效应赢家通吃。模型厂商不会同时给五个榜单刷分，开发者也不会同时盯五个排行榜。Arena 起步早、社区基数大、学术背景背书强，先发优势直接转化成了垄断地位。

第二，没有规模就没有数据价值。Yupp 130 万用户听起来不少，但对于切分到具体任务、具体模型对比维度的颗粒度评测来说，远远不够支撑可靠的统计结论。Arena 累计 1000 万+对战才勉强够用。

第三，单纯卖数据不够，得卖洞察。AI Evaluations 真正值钱的不是原始投票数据，而是基于这些数据生成的、能直接指导模型迭代决策的分析报告——这需要长期的产品打磨和方法论积累。

公信力是这门生意的命门

但 Arena 不是没有麻烦。2025 年 4 月，Cohere、斯坦福、MIT 等机构的研究者联合发文，指控 Arena 在 Meta Llama 4 发布前的测试中存在偏袒——Meta 私下测了 27 个模型变体，只公布表现最好的那个；同时 Arena 给 Meta、OpenAI、Google 这些大厂的模型分配了不成比例的对战次数。

Arena 当时的回应是「部分说法不符合事实」，强调公布预发布模型分数本身就毫无意义。但这件事戳到了所有评测平台的命门：当你的客户就是被你评测的对象时，中立性怎么保证？

a16z 在投资备忘里坦承这是 Arena 面临的最大挑战。Arena 目前的应对方式是开源部分代码、定期发布对战数据集供第三方研究。但随着商业化加速，这种张力只会越来越大——付费客户希望看到自己模型的优势被放大，而公众用户和监管方希望看到无偏的真实评价。

a16z 给 Arena 画的长期饼是「成为 AI 产品的绿色认证」——尤其是在医疗、金融、关键基础设施这些受监管行业，模型可靠性不能只靠厂商自己承诺，需要第三方持续评测背书。如果这个愿景成立，Arena 的价值天花板会比现在的 17 亿估值高得多。但前提是它得先解决好「既当裁判又收钱」的结构性矛盾。

对开发者意味着什么

从一个开发者的视角看，Arena 这波商业化其实是好消息。

如果你在做模型选型，过去你能依赖的公开数据基本就是 Arena 的总榜——一个非常粗粒度的信号。现在 AI Evaluations 把更细分场景、更细维度的对比数据产品化了，理论上意味着选型决策可以做得更精确。当然，前提是你愿意付费。

而对于做应用的团队，Inclusion Arena 这种把评测能力嵌入到生产环境的工具更有意思——它解决的是「我换了底层模型之后，用户感知到的质量到底是升了还是降了」这个问题。这在多模型路由、A/B 测试场景下非常关键。

顺便一提，对于需要频繁切换和对比多个主流模型的开发者，通过聚合平台（如 OpenAI Hub）用一个统一 API Key 调用 GPT、Claude、Gemini、DeepSeek 等模型，再结合 Arena 这样的评测数据做选型决策，会是比较顺手的工作流——少了维护多个供应商账号的麻烦。

一个判断

Arena 这 1 亿美元 ARR 的意义，不在于这家公司本身——而在于它验证了「为大模型生态提供基础设施服务」是一门真生意。在所有人都盯着模型本身的时候，卖铲子的人已经默默把估值做到了独角兽级别。

Scale AI 被 Meta 大手笔投资、Mercor 营收破 10 亿、Surge 估值飙升、Arena 八个月做到 1 亿 ARR——这条赛道的玩家都在快速放量。逻辑也不复杂：模型迭代越快，对高质量评测和数据的需求就越强，而这种需求是结构性的、长期的。

至于 Arena 能不能扛住公信力争议、能不能在估值翻倍之后继续证明自己——这个问题大概要等下一轮融资或者下一次「作弊门」来回答。

参考来源

IT之家：Arena 公布 AI 模型评测榜变现成果，商业评测服务 AI Evaluations 年度经常性收入突破 1 亿美元 - Arena 商业化进展报道
知乎：AI 评测赛道驱动因素、市场现状、商业化进程深度梳理 - AI 评测和数据服务赛道整体分析

Arena 八个月做到 1 亿美元 ARR，AI 评测这门生意跑通了

Arena 八个月做到 1 亿美元 ARR，AI 评测这门生意跑通了

一个学术项目长成的独角兽

AI Evaluations 怎么把流量变成钱

Yupp 关了，说明这门生意没那么容易做

公信力是这门生意的命门

对开发者意味着什么

一个判断

参考来源

相关推荐

零手写代码搭维基搜索引擎：Claude Code的另一面

Qwen3.6-35B-A3B 被改成 0% 拒答：跑分还没掉

OpenSquilla 0.4.0 发布：AI 编码 Agent 首引入「自我验证」机制

联系我们