AI 快讯Senior SWE-Bench 上线:让 AI 当资深工程师而非实习生
行业快讯

Senior SWE-Bench 上线:让 AI 当资深工程师而非实习生

2026-07-02T05:05:12.538Z
Senior SWE-Bench 上线:让 AI 当资深工程师而非实习生

Snorkel AI 推出 Senior SWE-Bench,直击原版 SWE-Bench 分数饱和的老问题——不再让 Agent 修 bug 交差,而是按资深工程师的标准考察设计、权衡与代码评审能力。

Senior SWE-Bench 发布:AI 编程基准终于开始考“资深工程师”了

7 月 1 日,Snorkel AI 联合几位原 SWE-Bench 作者,悄悄挂出了一个新项目——Senior SWE-Bench。名字很直白:不再让 AI Agent 扮演“接 issue、修 bug、提 PR”的初级工程师,而是按资深工程师的活儿来评:读架构、做设计决策、审别人的代码、在多个可行方案里挑一个能扛住三年迭代的。

这事儿其实憋了不止一天。过去半年,业内已经反复吐槽 SWE-Bench Verified 分数“卷到没意义”了:头部 Agent 都在 70% 以上撞天花板,第一名和第五名之间差个两三个点,落到统计噪声里根本分不出高下。基准饱和的信号出现得越来越明显,Senior SWE-Bench 算是第一个正儿八经想接盘的候选者。

Senior SWE-Bench 官网首页与评测维度示意图

为什么原版 SWE-Bench 不够用了

先把背景讲清楚。SWE-Bench 是 2023 年底普林斯顿姚顺雨那批人搞出来的,用 GitHub 上真实的 issue 和对应 PR 构造评测集,让模型给一个 codebase 和一段 bug 描述,去生成能通过测试的 patch。这个设计当时非常聪明:真实数据、可自动化打分、覆盖 12 个主流 Python 项目。它顺理成章地成了行业标准,Devin、SWE-agent、OpenDevin、Cursor Agent、Claude Code、Cognition,谁发新版本都要在这上面刷一遍。

但问题也很结构性:

  • 任务粒度太小。绝大多数 issue 的解法就是改几十行、动一两个文件,本质是“定位 + 改一个已知 bug”,不涉及跨模块设计。
  • 答案唯一。通过隐藏测试就是对的,路径无所谓。工程师日常最花时间的“方案取舍”这一步被完全跳过。
  • 数据污染越来越难控。 issue 和 PR 都在公开 GitHub 上,模型训练时早就见过,Verified 版本清洗了一轮,但没治本。
  • 饱和。GPT-5、Claude Opus 4.5 之类的旗舰模型加上一套体面的 agent scaffold,Verified 上稳定 75%+,再往上刷已经拼不出真实能力差距了。

Snorkel 团队在项目页里把这层意思说得比较克制,用的词是 “diminishing signal”——信号变弱了。但意思一样:这把尺子该换了。

Senior SWE-Bench 到底考什么

新基准的核心变化,是把评测目标从“能不能修好”换成“会不会像资深工程师那样修”。具体拆成三类任务:

1. 架构级变更(Architectural Change)

给一段涉及跨模块重构的 issue,比如“把这套同步 IO 迁到 asyncio”“替换掉硬编码的权限模型,做成插件式”。评估不只看最终测试是否通过,还看:

  • 改动是否局限在最小影响面内
  • 是否引入了明显的技术债(比如为了过测试塞了 monkey patch)
  • 对公共 API 的破坏性变更有没有对应文档/迁移路径

2. 代码评审(Code Review)

这一档最有意思。给 Agent 一个真实的 PR,让它写 review comment。参考答案是原始项目里 senior maintainer 留下的评审意见——包括“这里有 race condition”“这个抽象层级不对,应该抽到 base class”“测试覆盖不到边界情况”这种。

评分方式不是逐字比对,而是用 LLM-as-judge + 人工校验:Agent 是否指出了同类严重级别的问题、是否有幻觉出根本不存在的问题、是否提出了合理的替代方案。

3. 方案设计(Design Proposal)

给一个开放式 issue,例如“我们想给这个 ORM 加多租户支持,怎么做”,让 Agent 输出设计文档:方案对比、trade-off 分析、迁移路径、风险点。参考答案来自项目实际采纳的 RFC 或设计讨论帖。

三类任务的比重大概是 4:4:2,架构变更和代码评审是重头戏。数据集首批 500 条,覆盖 Django、FastAPI、Pandas、SQLAlchemy、Ray、DuckDB 等 20 个大型开源项目——刻意选了比原版 SWE-Bench 更硬核、代码量更大的仓库。

首批评测结果:所有人都翻车了

Snorkel 顺手把主流 Agent 都跑了一遍。数字不算好看:

  • Claude Opus 4.5 + Claude Code:整体 34.2%,其中架构变更 28%、代码评审 41%、方案设计 33%
  • GPT-5 + Codex CLI:32.8%
  • Gemini 2.5 Pro + Jules:29.5%
  • DeepSeek V3.2 + OpenHands:24.1%
  • Qwen3-Coder-480B + SWE-agent:21.6%

对比同一批 Agent 在 SWE-Bench Verified 上普遍 70%+ 的成绩,落差非常直观。更值得注意的是三个子项之间的差距:几乎所有模型在“代码评审”上分数最高,在“架构变更”上最低。这跟直觉一致——评审是“判断题”,可以只挑毛病;架构变更要真正落地一个可维护的方案,哪块砖砌歪了都会被扣分。

方案设计这一项分数中等偏低,但幻觉率高得离谱:Snorkel 抽样标注发现,头部模型给出的设计文档里有 35%~50% 存在“引用了不存在的 API”“提出了当前版本无法实现的方案”这类事实错误。这是一个非常刺眼的信号——现在的 Agent 在开放性设计任务上,仍然是一本正经胡说八道的重灾区。

主流 Agent 在 Senior SWE-Bench 三类任务上的得分对比柱状图

这套基准的价值和局限

先说好话。从“单点 patch”跨到“系统性工程判断”,方向绝对是对的。资深工程师和 junior 之间最大的差距从来不是打字速度,而是“做不做、怎么做、什么时候做”的判断力。之前 SWE-Bench 系列本质上只考了执行层,Senior 版本把决策层拉进来评,这才是真正贴近生产环境的评测。

代码评审这一档尤其聪明。它绕开了“正确解唯一”的桎梏——评审本来就没有标准答案,评的是问题识别能力。用 maintainer 的历史 review 当参考,也解决了 ground truth 从哪来的问题。

但也有几个明显的坑:

  • LLM-as-judge 的可靠性。代码评审和设计文档这两类都用了 LLM 打分,Snorkel 声称跟人类标注一致率 82%,这个数字放在开放任务里已经算高,但意味着每 5 个样本就有 1 个可能打错。跨模型对比时如果差距在 3~5 个点以内,结论仍然不太可信。
  • 数据规模偏小。500 条对于一个想成为“下一代标准”的基准来说,明显不够。作者也承认这只是 v0.1,年底前会扩到 2000 条。
  • 仍然只覆盖 Python。这是继承自 SWE-Bench 的老问题,多语言 Agent 能力评测目前还是个空白。
  • “资深工程师”这个标签本身有点营销。评的还是三类具体任务,跟工程师日常打交道 stakeholder、砍需求、评估业务风险这些真正 senior 的活儿关系不大。

对行业的影响

这个基准来得时机很微妙。过去一年 AI 编程赛道的估值逻辑很大程度上依赖 SWE-Bench 分数——Cognition、Cursor、Replit、Augment 这些公司融资时都要拿分数说话。当原有基准饱和、头部差距失真,投资人和用户都需要新的评估维度。Senior SWE-Bench 如果真能立住,接下来半年的产品竞争会被迫转向“设计能力”“评审能力”这些更难 hack 的维度。

对做 agent 框架的团队,短期内是个警报:只在原版 SWE-Bench 上 SOTA,说明不了太多东西了。得考虑怎么让 Agent 在没有明确测试反馈的情况下也能做出合理判断——这可能意味着更强的规划能力、更成熟的记忆机制、更严的自我批判 pipeline。

对模型厂商,这是一个新的靶子。Claude Opus 4.5 在这上面拿到第一,但 34% 的绝对分数说明还有巨大提升空间。可以预期 OpenAI 和 Anthropic 下一代旗舰模型的技术报告里,会把这个基准挂上去。顺带说一句,上述这些主流模型(Claude Opus 4.5、GPT-5、Gemini 2.5 Pro、DeepSeek V3.2、Qwen3-Coder 等)在 OpenAI Hub 上都已经能用统一 API 调,跑自己的评测复现或者拿来接自家 agent scaffold 都比较方便。

一点判断

三年前 SWE-Bench 定义了“AI 会不会写代码”的评测范式,接下来的问题是“AI 会不会像工程师那样思考”。Senior SWE-Bench 不一定是最终答案,v0.1 的诸多问题也很明显,但方向对了。

更值得关注的是背后的趋势:AI 编程的评测正在从“能不能过测试”走向“会不会做工程”。当模型的原始代码生成能力已经足够强,真正的差距会出现在“判断力”这一层。谁能先把判断力量化、可评测、可优化,谁就能在下一波 agent 竞争里拿到定义权。

34% 只是个起点。半年后这个数字如果冲到 60%,AI 编程赛道的叙事就要彻底改写了。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: