Harvey 发布开源法律智能体基准 LAB：1200+ 任务覆盖 24 个执业领域

法律 AI 独角兽 Harvey 发布开源基准 LAB，覆盖 24 个法律执业领域、1200+ 智能体任务，用 7.5 万条专家评分标准衡量长程法律 Agent 的真实交付能力。首版暂不设排行榜。

估值 30 亿美元的法律 AI 公司 Harvey，把自己衡量法律智能体的那把尺子开源了。

本周，Harvey 推出 Legal Agent Benchmark（LAB），一个面向长程法律 Agent 的开源基准测试。首版包含 24 个法律执业领域、1200+ 任务、超过 75000 条由律师手写的评估标准，代码和数据集已经挂在 GitHub 上。有意思的是，Harvey 这次发布刻意没有附排行榜——用他们自己的话说，"要和社区一起把评分方式打磨明白再公开"。

Harvey Legal Agent Benchmark 发布页面示意图

为什么是 Harvey 来做这件事

先交代下背景。Harvey 在 2022 年 7 月成立，比 ChatGPT 还早几个月，是目前法律场景落地最成功的 AI 公司，没有之一。2024 年 ARR 做到 5000 万美元，2025 年初冲到 1 亿美元附近，2 月拿到红杉领投的 3 亿美元 D 轮，估值 30 亿。客户名单很能说明问题：美国《法律周刊》Top 100 律所里，有 28 家在用 Harvey。

所以当 Harvey 站出来说"我们做了个法律 Agent 基准"的时候，这件事的权重跟一般研究机构或模型公司发 benchmark 不太一样——他们是真的每天在大所的工作流里收反馈的人。

现有的法律类评测大多停留在"单轮问答"或者"文书分类"这种颗粒度，比如给一段合同判断它属于哪类条款，或者让模型回答一个法条问题。这类测试对挑选基础模型有用，但对判断"Agent 能不能真的替初级律师干活"基本没用。真实的法律工作长什么样？一个并购项目里的尽调备忘录，往往要读几十份合同、追溯几百处交叉引用、根据客户的商业诉求调整风险披露的口径，中间还要跟合伙人来回三五轮。这是个长程、多文档、多轮审阅的活儿，一锤子买卖的评测根本覆盖不到。

LAB 要解决的就是这个落差。

LAB 到底在测什么

每一个 LAB 任务都由三部分组成：

一条指令：模拟合伙人或高级律师布置活的方式，可能相当模糊，比如"帮我准备下周客户会议要用的风险分析"
一个客户案情包：包含所有相关材料，合同、邮件、会议纪要、先例判决等
一个交付条件：Agent 要提交可供审阅的工作成果（work product），不是聊天回复

这个结构刻意模仿了大所内部**"布置—执行—审阅"的协作链条**。用 Harvey 产品负责人 Aatish Nayak 之前的说法，他们希望 Agent 的交互感觉像个同事而不是工具——LAB 的任务设计就是顺着这个哲学来的。

1200 多个任务怎么分布？覆盖了诉讼、公司法、资本市场、并购、合规、知识产权、税务、劳动法、房地产等 24 个领域。这个数字背后的成本不容小觑——按 Harvey 公布的规模，7.5 万条评估标准全部由执业律师按任务逐条编写，相当于每个任务平均 60 多条打分项。做过法律数据标注的人都知道这价格有多贵，这也是为什么学术界一直做不出像样的法律长程 Agent 评测。

没有排行榜，这是个聪明的克制

第一版不放排行榜，这个决定值得说两句。

业内发 benchmark 的常规动作是：配一张表格，把 GPT、Claude、Gemini 从高到低排一遍，自家模型当然名列前茅。Harvey 这次反其道而行，在博客里明确说"数据集会持续更新，我们希望和社区一起确保结果能直观反映 Agent 的真实表现"，未来几周会联合研究伙伴跑基准结果，并同步发布提交规范化标准，让大家能追踪进展。

这个克制背后其实有它的考量。法律 Agent 的输出是长文档、是带引用的备忘录、是条款起草，不是选择题。怎么把专家的 75000 条评分标准稳定地套到不同厂商提交的五花八门的交付物上，本身就是研究问题。贸然上榜单，大概率变成"谁更会按 LAB 的格式套模板谁排前面"，反而污染了信号。先把评分管道和提交规范立起来，再放榜单，这个顺序更可信。

另一层意思也很直白：Harvey 自己是 OpenAI 模型的深度用户（他们公开说过主要通过 Azure 调用 OpenAI），作为评测发起方，在排行榜上的站位天然敏感。把榜单交给研究伙伴去跑，是个聪明的姿态。

对不同玩家意味着什么

对模型厂商。LAB 是一个能检验"长程 Agent 能力"的硬骨头。过去模型厂宣传 Agent 能力喜欢拿 SWE-bench、GAIA 说事，但这些多偏向代码和通用知识任务。法律场景的特殊之处在于：幻觉零容忍、引用必须逐行可溯源、推理链要经得起对方律师在法庭上拆。这是一块完全不同的检验场。可以预见接下来几个月，头部模型厂会主动去跑 LAB 的分数——谁在 Corporate 领域高、谁在 Litigation 强，可能很快会成为 To B 销售的新话术。

对 Agent 构建者。之前做法律垂类 Agent 的团队，最大的痛点是"效果怎么证明"——客户律所很难花时间陪你做 A/B 测试。LAB 开源后，至少提供了一个公共的基准维度。尤其是 1200 个任务按执业领域切开，意味着细分赛道的 Agent 产品（比如专门做税务或者专门做知识产权的）可以只在自己的切片上证明价值，不用被迫跟通用型产品硬碰。

对律所本身。Harvey 在博客里讲得很直白：LAB 的目标之一是帮律所衡量 AI 投资的 ROI。今天几乎所有大所都在签 AI 工具采购预算，但合伙人被问到"这笔钱到底省下了多少小时的 billable hours"时，基本答不上来。LAB 提供的是一种结构化语言——"在公司法领域，当前最佳 Agent 能自主完成 X% 的任务、部分完成 Y%、无法完成 Z%"。这种分级判断比一句"AI 节省了 30% 时间"要硬得多。

一个更大的信号

把镜头拉远看，LAB 的发布呼应着 Harvey 一贯的产品哲学。Winston Weinberg 在几次访谈里反复强调过，法律不是"GPT 套壳"能解决的场景，基础模型和行业需求之间的距离被严重低估。Harvey 的核心竞争力从来不是模型本身，而是上面那套复合 AI 系统——几百次模型调用串起来的工作流、逐行引用的溯源能力、以及模拟律所内部分工的 Agent 协作。

LAB 本质上是把 Harvey 这几年沉淀下来的"什么叫好的法律 Agent"的内部标准，对外做了一次公开化。这对 Harvey 自己的生意未必是坏事——当所有人都在同一个尺子上量，复合系统的长板就藏不住了。单轮问答场景里，Harvey 和直接调 Claude 的差距也许没那么大，但在 LAB 这种要求交付完整工作成果的长程任务里，差距会被拉开。

从更宏观的视角，LAB 也是垂直行业 Agent 评测成熟化的一个标志。过去两年我们见过太多"我家 Agent 在 xx 基准上超过 GPT-4"的营销稿，但这些基准大多短平快、场景单薄。像 LAB 这种需要律师写 75000 条评分标准、模拟完整工作流的东西出现，说明这个行业终于意识到：真实的生产力评测，是要花钱的，是要耗时间的，是要由行业内的人来定义的。

对在 OpenAI Hub 上同时调用 GPT、Claude、Gemini、DeepSeek 这几家模型的开发者来说，LAB 也提供了一个新视角——如果你在搭的是法律、合规、尽调类的 Agent 应用，不妨把 LAB 的任务集跑一遍，看看哪个基础模型在你的具体子领域上更顶用，再决定走哪条路线。

数据集和代码已经开源在 GitHub 的 harveyai/harvey-labs 仓库，感兴趣的可以去翻一翻那些评分标准是怎么写的——光看这部分，就比大多数法律 AI 论文有营养。

参考来源

Harvey LAB 开源仓库 - GitHub：LAB 基准测试的完整代码与数据集
哈维律师事务所发布长期法律 Agent 基准测试 - Linux.do：中文社区关于 LAB 发布的讨论帖

Harvey 开源法律智能体基准 LAB：1200 个任务逼近真实律所工作流