Arena 八个月做到 1 亿美元 ARR,AI 评测这门生意跑通了

靠众包打分起家的 AI 模型评测平台 Arena 宣布商业产品 AI Evaluations 上线 8 个月年化收入破亿美元,估值 17 亿。同一赛道的 Yupp 三月已经关门——评测这门生意,看起来只有头部能活。
Arena 八个月做到 1 亿美元 ARR,AI 评测这门生意跑通了
6 月 29 日,AI 模型评测平台 Arena(原 LMArena)对外披露:其面向企业的商业产品 AI Evaluations 上线 8 个月,年化收入跑率(ARR)已经突破 1 亿美元。作为对照,今年 1 月这家公司完成 1.5 亿美元 A 轮融资、估值 17 亿美元时,ARR 还只有 3000 万美元。半年时间三倍增长。
这是一个相当能说明问题的数字。在围绕大模型的工具链生态里,评测是最不性感、技术壁垒看起来最薄的一环——上一个版本的故事是手机跑分网站,最后大多被厂商收编、失去公信力。但 Arena 似乎走出了不一样的路径。
一个学术项目长成的独角兽
Arena 的前身要追溯到 2023 年。加州大学伯克利分校的 LMSYS 团队(核心成员包括 Lianmin Zheng、Wei-Lin Chiang、Hao Zhang 等一批华人研究者)当时发布了开源模型 Vicuna,但发现一个尴尬的问题——传统的 MMLU、GSM8K、HumanEval 这套刷题式 benchmark 已经没法可靠区分模型好坏。
他们的解法很简单粗暴:搞一个网站,用户随便输入 prompt,系统随机抽两个模型出题,用户盲选哪个更好,胜者加分败者减分。这就是后来名声大噪的 Chatbot Arena。2024 年 9 月改名 LMArena,今年又简化为 Arena。
这个网站的飞轮转得很快:
- 模型越多,用户越愿意来玩
- 用户越多,产生的偏好数据越丰富
- 数据越多,排行榜越有公信力
- 公信力越强,模型厂商越要来打榜
如今,全球 400 多个大模型在 Arena 上有评分,累计超过 1000 万次用户对战记录。OpenAI、Google、Anthropic、DeepSeek、阿里通义、月之暗面——但凡发新模型,几乎没有不去 Arena 刷个分的,发布会上贴一张 Arena 排名截图基本成了标配动作。
这个事实地位很关键。a16z 在投资备忘里直接把 Arena 定义为「AI 产业的关键基础设施」——这个判断不算夸张。
AI Evaluations 怎么把流量变成钱
免费的网站怎么收企业的钱?这是评测平台普遍的难题。Arena 的答案是 AI Evaluations,2025 年 9 月正式推出的企业级产品。
核心逻辑是这样的:模型厂商和企业用户在做模型选型、训练优化、产品迭代时,需要的不只是公开榜单上的一个总分,而是细分维度的深度数据——
- 我的模型在编码场景对比某个竞品具体差在哪里?
- 在中文长文本任务上,用户实际偏好的是哪种回答风格?
- 经过这一轮微调,用户感知到的质量是真的提升还是下降?
- 给我可追溯的样本和 SLA,方便我向监管或客户交代
Arena 把社区积累的真人偏好数据加工成可消费的分析服务卖出去,按使用量计费(创始人 Angelopoulos 特意澄清这一点,所以严格说这 1 亿美元更像是 annualized run-rate 而非传统意义上的 recurring revenue)。客户主要是两类:一类是 OpenAI、Anthropic 这种自己训模型的实验室,需要 post-training 阶段的人类偏好数据;另一类是把 AI 嵌入业务的企业,需要选型和持续监控。
横向看,Arena 在和 Scale AI、Surge、Mercor 这些做人工标注和后训练数据的公司「抢同一块预算」。Mercor 今年也突破 10 亿美元营收,Handshake 的 AI 训练业务接近 10 亿美元——整个为大模型「喂数据、做评估」的赛道,正在变成一个比想象中大得多的市场。
Arena 还推出了 Inclusion Arena,通过 API 和 SDK 把评测嵌入真实 AI 应用中收集生产环境反馈。这个方向其实更有想象空间——它实际上是在构建一套「AI 产品的 CI/CD 管道」,从模型上线那天起就持续监控用户偏好变化。
Yupp 关了,说明这门生意没那么容易做
一个值得注意的对照:同样做众包 AI 评测的 Yupp,今年 3 月 31 日已经宣布停止运营。
Yupp 成立于 2024 年,思路和 Arena 高度类似——双边市场,C 端用户免费体验多模型,B 端卖评测数据给 AI 实验室。最高时累计吸引了 130 万用户,也拿到过实验室付费合同,但始终没找到 PMF,最后还是关掉了。
这件事说明几个问题:
第一,评测平台的网络效应赢家通吃。模型厂商不会同时给五个榜单刷分,开发者也不会同时盯五个排行榜。Arena 起步早、社区基数大、学术背景背书强,先发优势直接转化成了垄断地位。
第二,没有规模就没有数据价值。Yupp 130 万用户听起来不少,但对于切分到具体任务、具体模型对比维度的颗粒度评测来说,远远不够支撑可靠的统计结论。Arena 累计 1000 万+对战才勉强够用。
第三,单纯卖数据不够,得卖洞察。AI Evaluations 真正值钱的不是原始投票数据,而是基于这些数据生成的、能直接指导模型迭代决策的分析报告——这需要长期的产品打磨和方法论积累。
公信力是这门生意的命门
但 Arena 不是没有麻烦。2025 年 4 月,Cohere、斯坦福、MIT 等机构的研究者联合发文,指控 Arena 在 Meta Llama 4 发布前的测试中存在偏袒——Meta 私下测了 27 个模型变体,只公布表现最好的那个;同时 Arena 给 Meta、OpenAI、Google 这些大厂的模型分配了不成比例的对战次数。
Arena 当时的回应是「部分说法不符合事实」,强调公布预发布模型分数本身就毫无意义。但这件事戳到了所有评测平台的命门:当你的客户就是被你评测的对象时,中立性怎么保证?
a16z 在投资备忘里坦承这是 Arena 面临的最大挑战。Arena 目前的应对方式是开源部分代码、定期发布对战数据集供第三方研究。但随着商业化加速,这种张力只会越来越大——付费客户希望看到自己模型的优势被放大,而公众用户和监管方希望看到无偏的真实评价。
a16z 给 Arena 画的长期饼是「成为 AI 产品的绿色认证」——尤其是在医疗、金融、关键基础设施这些受监管行业,模型可靠性不能只靠厂商自己承诺,需要第三方持续评测背书。如果这个愿景成立,Arena 的价值天花板会比现在的 17 亿估值高得多。但前提是它得先解决好「既当裁判又收钱」的结构性矛盾。
对开发者意味着什么
从一个开发者的视角看,Arena 这波商业化其实是好消息。
如果你在做模型选型,过去你能依赖的公开数据基本就是 Arena 的总榜——一个非常粗粒度的信号。现在 AI Evaluations 把更细分场景、更细维度的对比数据产品化了,理论上意味着选型决策可以做得更精确。当然,前提是你愿意付费。
而对于做应用的团队,Inclusion Arena 这种把评测能力嵌入到生产环境的工具更有意思——它解决的是「我换了底层模型之后,用户感知到的质量到底是升了还是降了」这个问题。这在多模型路由、A/B 测试场景下非常关键。
顺便一提,对于需要频繁切换和对比多个主流模型的开发者,通过聚合平台(如 OpenAI Hub)用一个统一 API Key 调用 GPT、Claude、Gemini、DeepSeek 等模型,再结合 Arena 这样的评测数据做选型决策,会是比较顺手的工作流——少了维护多个供应商账号的麻烦。
一个判断
Arena 这 1 亿美元 ARR 的意义,不在于这家公司本身——而在于它验证了「为大模型生态提供基础设施服务」是一门真生意。在所有人都盯着模型本身的时候,卖铲子的人已经默默把估值做到了独角兽级别。
Scale AI 被 Meta 大手笔投资、Mercor 营收破 10 亿、Surge 估值飙升、Arena 八个月做到 1 亿 ARR——这条赛道的玩家都在快速放量。逻辑也不复杂:模型迭代越快,对高质量评测和数据的需求就越强,而这种需求是结构性的、长期的。
至于 Arena 能不能扛住公信力争议、能不能在估值翻倍之后继续证明自己——这个问题大概要等下一轮融资或者下一次「作弊门」来回答。
参考来源
- IT之家:Arena 公布 AI 模型评测榜变现成果,商业评测服务 AI Evaluations 年度经常性收入突破 1 亿美元 - Arena 商业化进展报道
- 知乎:AI 评测赛道驱动因素、市场现状、商业化进程深度梳理 - AI 评测和数据服务赛道整体分析



