Harvey 开源法律智能体基准 LAB:1200 个任务逼近真实律所工作流

模型上新

法律 AI 独角兽 Harvey 发布开源基准 LAB,覆盖 24 个法律执业领域、1200+ 智能体任务,用 7.5 万条专家评分标准衡量长程法律 Agent 的真实交付能力。首版暂不设排行榜。

估值 30 亿美元的法律 AI 公司 Harvey,把自己衡量法律智能体的那把尺子开源了。

本周,Harvey 推出 Legal Agent Benchmark(LAB),一个面向长程法律 Agent 的开源基准测试。首版包含 24 个法律执业领域、1200+ 任务、超过 75000 条由律师手写的评估标准,代码和数据集已经挂在 GitHub 上。有意思的是,Harvey 这次发布刻意没有附排行榜——用他们自己的话说,"要和社区一起把评分方式打磨明白再公开"。

Harvey Legal Agent Benchmark 发布页面示意图

为什么是 Harvey 来做这件事

先交代下背景。Harvey 在 2022 年 7 月成立,比 ChatGPT 还早几个月,是目前法律场景落地最成功的 AI 公司,没有之一。2024 年 ARR 做到 5000 万美元,2025 年初冲到 1 亿美元附近,2 月拿到红杉领投的 3 亿美元 D 轮,估值 30 亿。客户名单很能说明问题:美国《法律周刊》Top 100 律所里,有 28 家在用 Harvey

所以当 Harvey 站出来说"我们做了个法律 Agent 基准"的时候,这件事的权重跟一般研究机构或模型公司发 benchmark 不太一样——他们是真的每天在大所的工作流里收反馈的人。

现有的法律类评测大多停留在"单轮问答"或者"文书分类"这种颗粒度,比如给一段合同判断它属于哪类条款,或者让模型回答一个法条问题。这类测试对挑选基础模型有用,但对判断"Agent 能不能真的替初级律师干活"基本没用。真实的法律工作长什么样?一个并购项目里的尽调备忘录,往往要读几十份合同、追溯几百处交叉引用、根据客户的商业诉求调整风险披露的口径,中间还要跟合伙人来回三五轮。这是个长程、多文档、多轮审阅的活儿,一锤子买卖的评测根本覆盖不到。

LAB 要解决的就是这个落差。

LAB 到底在测什么

每一个 LAB 任务都由三部分组成:

  • 一条指令:模拟合伙人或高级律师布置活的方式,可能相当模糊,比如"帮我准备下周客户会议要用的风险分析"
  • 一个客户案情包:包含所有相关材料,合同、邮件、会议纪要、先例判决等
  • 一个交付条件:Agent 要提交可供审阅的工作成果(work product),不是聊天回复

这个结构刻意模仿了大所内部**"布置—执行—审阅"的协作链条**。用 Harvey 产品负责人 Aatish Nayak 之前的说法,他们希望 Agent 的交互感觉像个同事而不是工具——LAB 的任务设计就是顺着这个哲学来的。

1200 多个任务怎么分布?覆盖了诉讼、公司法、资本市场、并购、合规、知识产权、税务、劳动法、房地产等 24 个领域。这个数字背后的成本不容小觑——按 Harvey 公布的规模,7.5 万条评估标准全部由执业律师按任务逐条编写,相当于每个任务平均 60 多条打分项。做过法律数据标注的人都知道这价格有多贵,这也是为什么学术界一直做不出像样的法律长程 Agent 评测。

没有排行榜,这是个聪明的克制

第一版不放排行榜,这个决定值得说两句。

业内发 benchmark 的常规动作是:配一张表格,把 GPT、Claude、Gemini 从高到低排一遍,自家模型当然名列前茅。Harvey 这次反其道而行,在博客里明确说"数据集会持续更新,我们希望和社区一起确保结果能直观反映 Agent 的真实表现",未来几周会联合研究伙伴跑基准结果,并同步发布提交规范化标准,让大家能追踪进展。

这个克制背后其实有它的考量。法律 Agent 的输出是长文档、是带引用的备忘录、是条款起草,不是选择题。怎么把专家的 75000 条评分标准稳定地套到不同厂商提交的五花八门的交付物上,本身就是研究问题。贸然上榜单,大概率变成"谁更会按 LAB 的格式套模板谁排前面",反而污染了信号。先把评分管道和提交规范立起来,再放榜单,这个顺序更可信。

另一层意思也很直白:Harvey 自己是 OpenAI 模型的深度用户(他们公开说过主要通过 Azure 调用 OpenAI),作为评测发起方,在排行榜上的站位天然敏感。把榜单交给研究伙伴去跑,是个聪明的姿态。

对不同玩家意味着什么

对模型厂商。LAB 是一个能检验"长程 Agent 能力"的硬骨头。过去模型厂宣传 Agent 能力喜欢拿 SWE-bench、GAIA 说事,但这些多偏向代码和通用知识任务。法律场景的特殊之处在于:幻觉零容忍、引用必须逐行可溯源、推理链要经得起对方律师在法庭上拆。这是一块完全不同的检验场。可以预见接下来几个月,头部模型厂会主动去跑 LAB 的分数——谁在 Corporate 领域高、谁在 Litigation 强,可能很快会成为 To B 销售的新话术。

对 Agent 构建者。之前做法律垂类 Agent 的团队,最大的痛点是"效果怎么证明"——客户律所很难花时间陪你做 A/B 测试。LAB 开源后,至少提供了一个公共的基准维度。尤其是 1200 个任务按执业领域切开,意味着细分赛道的 Agent 产品(比如专门做税务或者专门做知识产权的)可以只在自己的切片上证明价值,不用被迫跟通用型产品硬碰。

对律所本身。Harvey 在博客里讲得很直白:LAB 的目标之一是帮律所衡量 AI 投资的 ROI。今天几乎所有大所都在签 AI 工具采购预算,但合伙人被问到"这笔钱到底省下了多少小时的 billable hours"时,基本答不上来。LAB 提供的是一种结构化语言——"在公司法领域,当前最佳 Agent 能自主完成 X% 的任务、部分完成 Y%、无法完成 Z%"。这种分级判断比一句"AI 节省了 30% 时间"要硬得多。

一个更大的信号

把镜头拉远看,LAB 的发布呼应着 Harvey 一贯的产品哲学。Winston Weinberg 在几次访谈里反复强调过,法律不是"GPT 套壳"能解决的场景,基础模型和行业需求之间的距离被严重低估。Harvey 的核心竞争力从来不是模型本身,而是上面那套复合 AI 系统——几百次模型调用串起来的工作流、逐行引用的溯源能力、以及模拟律所内部分工的 Agent 协作。

LAB 本质上是把 Harvey 这几年沉淀下来的"什么叫好的法律 Agent"的内部标准,对外做了一次公开化。这对 Harvey 自己的生意未必是坏事——当所有人都在同一个尺子上量,复合系统的长板就藏不住了。单轮问答场景里,Harvey 和直接调 Claude 的差距也许没那么大,但在 LAB 这种要求交付完整工作成果的长程任务里,差距会被拉开。

从更宏观的视角,LAB 也是垂直行业 Agent 评测成熟化的一个标志。过去两年我们见过太多"我家 Agent 在 xx 基准上超过 GPT-4"的营销稿,但这些基准大多短平快、场景单薄。像 LAB 这种需要律师写 75000 条评分标准、模拟完整工作流的东西出现,说明这个行业终于意识到:真实的生产力评测,是要花钱的,是要耗时间的,是要由行业内的人来定义的。

对在 OpenAI Hub 上同时调用 GPT、Claude、Gemini、DeepSeek 这几家模型的开发者来说,LAB 也提供了一个新视角——如果你在搭的是法律、合规、尽调类的 Agent 应用,不妨把 LAB 的任务集跑一遍,看看哪个基础模型在你的具体子领域上更顶用,再决定走哪条路线。

数据集和代码已经开源在 GitHub 的 harveyai/harvey-labs 仓库,感兴趣的可以去翻一翻那些评分标准是怎么写的——光看这部分,就比大多数法律 AI 论文有营养。

参考来源