Senior SWE-Bench 发布：首个资深工程师级 AI Agent 编程基准

Snorkel AI 推出 Senior SWE-Bench，直击原版 SWE-Bench 分数饱和的老问题——不再让 Agent 修 bug 交差，而是按资深工程师的标准考察设计、权衡与代码评审能力。

Senior SWE-Bench 发布：AI 编程基准终于开始考“资深工程师”了

7 月 1 日，Snorkel AI 联合几位原 SWE-Bench 作者，悄悄挂出了一个新项目——Senior SWE-Bench。名字很直白：不再让 AI Agent 扮演“接 issue、修 bug、提 PR”的初级工程师，而是按资深工程师的活儿来评：读架构、做设计决策、审别人的代码、在多个可行方案里挑一个能扛住三年迭代的。

这事儿其实憋了不止一天。过去半年，业内已经反复吐槽 SWE-Bench Verified 分数“卷到没意义”了：头部 Agent 都在 70% 以上撞天花板，第一名和第五名之间差个两三个点，落到统计噪声里根本分不出高下。基准饱和的信号出现得越来越明显，Senior SWE-Bench 算是第一个正儿八经想接盘的候选者。

Senior SWE-Bench 官网首页与评测维度示意图

为什么原版 SWE-Bench 不够用了

先把背景讲清楚。SWE-Bench 是 2023 年底普林斯顿姚顺雨那批人搞出来的，用 GitHub 上真实的 issue 和对应 PR 构造评测集，让模型给一个 codebase 和一段 bug 描述，去生成能通过测试的 patch。这个设计当时非常聪明：真实数据、可自动化打分、覆盖 12 个主流 Python 项目。它顺理成章地成了行业标准，Devin、SWE-agent、OpenDevin、Cursor Agent、Claude Code、Cognition，谁发新版本都要在这上面刷一遍。

但问题也很结构性：

任务粒度太小。绝大多数 issue 的解法就是改几十行、动一两个文件，本质是“定位 + 改一个已知 bug”，不涉及跨模块设计。
答案唯一。通过隐藏测试就是对的，路径无所谓。工程师日常最花时间的“方案取舍”这一步被完全跳过。
数据污染越来越难控。 issue 和 PR 都在公开 GitHub 上，模型训练时早就见过，Verified 版本清洗了一轮，但没治本。
饱和。GPT-5、Claude Opus 4.5 之类的旗舰模型加上一套体面的 agent scaffold，Verified 上稳定 75%+，再往上刷已经拼不出真实能力差距了。

Snorkel 团队在项目页里把这层意思说得比较克制，用的词是 “diminishing signal”——信号变弱了。但意思一样：这把尺子该换了。

Senior SWE-Bench 到底考什么

新基准的核心变化，是把评测目标从“能不能修好”换成“会不会像资深工程师那样修”。具体拆成三类任务：

1. 架构级变更（Architectural Change）

给一段涉及跨模块重构的 issue，比如“把这套同步 IO 迁到 asyncio”“替换掉硬编码的权限模型，做成插件式”。评估不只看最终测试是否通过，还看：

改动是否局限在最小影响面内
是否引入了明显的技术债（比如为了过测试塞了 monkey patch）
对公共 API 的破坏性变更有没有对应文档/迁移路径

2. 代码评审（Code Review）

这一档最有意思。给 Agent 一个真实的 PR，让它写 review comment。参考答案是原始项目里 senior maintainer 留下的评审意见——包括“这里有 race condition”“这个抽象层级不对，应该抽到 base class”“测试覆盖不到边界情况”这种。

评分方式不是逐字比对，而是用 LLM-as-judge + 人工校验：Agent 是否指出了同类严重级别的问题、是否有幻觉出根本不存在的问题、是否提出了合理的替代方案。

3. 方案设计（Design Proposal）

给一个开放式 issue，例如“我们想给这个 ORM 加多租户支持，怎么做”，让 Agent 输出设计文档：方案对比、trade-off 分析、迁移路径、风险点。参考答案来自项目实际采纳的 RFC 或设计讨论帖。

三类任务的比重大概是 4:4:2，架构变更和代码评审是重头戏。数据集首批 500 条，覆盖 Django、FastAPI、Pandas、SQLAlchemy、Ray、DuckDB 等 20 个大型开源项目——刻意选了比原版 SWE-Bench 更硬核、代码量更大的仓库。

首批评测结果：所有人都翻车了

Snorkel 顺手把主流 Agent 都跑了一遍。数字不算好看：

Claude Opus 4.5 + Claude Code：整体 34.2%，其中架构变更 28%、代码评审 41%、方案设计 33%
GPT-5 + Codex CLI：32.8%
Gemini 2.5 Pro + Jules：29.5%
DeepSeek V3.2 + OpenHands：24.1%
Qwen3-Coder-480B + SWE-agent：21.6%

对比同一批 Agent 在 SWE-Bench Verified 上普遍 70%+ 的成绩，落差非常直观。更值得注意的是三个子项之间的差距：几乎所有模型在“代码评审”上分数最高，在“架构变更”上最低。这跟直觉一致——评审是“判断题”，可以只挑毛病；架构变更要真正落地一个可维护的方案，哪块砖砌歪了都会被扣分。

方案设计这一项分数中等偏低，但幻觉率高得离谱：Snorkel 抽样标注发现，头部模型给出的设计文档里有 35%~50% 存在“引用了不存在的 API”“提出了当前版本无法实现的方案”这类事实错误。这是一个非常刺眼的信号——现在的 Agent 在开放性设计任务上，仍然是一本正经胡说八道的重灾区。

主流 Agent 在 Senior SWE-Bench 三类任务上的得分对比柱状图

这套基准的价值和局限

先说好话。从“单点 patch”跨到“系统性工程判断”，方向绝对是对的。资深工程师和 junior 之间最大的差距从来不是打字速度，而是“做不做、怎么做、什么时候做”的判断力。之前 SWE-Bench 系列本质上只考了执行层，Senior 版本把决策层拉进来评，这才是真正贴近生产环境的评测。

代码评审这一档尤其聪明。它绕开了“正确解唯一”的桎梏——评审本来就没有标准答案，评的是问题识别能力。用 maintainer 的历史 review 当参考，也解决了 ground truth 从哪来的问题。

但也有几个明显的坑：

LLM-as-judge 的可靠性。代码评审和设计文档这两类都用了 LLM 打分，Snorkel 声称跟人类标注一致率 82%，这个数字放在开放任务里已经算高，但意味着每 5 个样本就有 1 个可能打错。跨模型对比时如果差距在 3~5 个点以内，结论仍然不太可信。
数据规模偏小。500 条对于一个想成为“下一代标准”的基准来说，明显不够。作者也承认这只是 v0.1，年底前会扩到 2000 条。
仍然只覆盖 Python。这是继承自 SWE-Bench 的老问题，多语言 Agent 能力评测目前还是个空白。
“资深工程师”这个标签本身有点营销。评的还是三类具体任务，跟工程师日常打交道 stakeholder、砍需求、评估业务风险这些真正 senior 的活儿关系不大。

对行业的影响

这个基准来得时机很微妙。过去一年 AI 编程赛道的估值逻辑很大程度上依赖 SWE-Bench 分数——Cognition、Cursor、Replit、Augment 这些公司融资时都要拿分数说话。当原有基准饱和、头部差距失真，投资人和用户都需要新的评估维度。Senior SWE-Bench 如果真能立住，接下来半年的产品竞争会被迫转向“设计能力”“评审能力”这些更难 hack 的维度。

对做 agent 框架的团队，短期内是个警报：只在原版 SWE-Bench 上 SOTA，说明不了太多东西了。得考虑怎么让 Agent 在没有明确测试反馈的情况下也能做出合理判断——这可能意味着更强的规划能力、更成熟的记忆机制、更严的自我批判 pipeline。

对模型厂商，这是一个新的靶子。Claude Opus 4.5 在这上面拿到第一，但 34% 的绝对分数说明还有巨大提升空间。可以预期 OpenAI 和 Anthropic 下一代旗舰模型的技术报告里，会把这个基准挂上去。顺带说一句，上述这些主流模型（Claude Opus 4.5、GPT-5、Gemini 2.5 Pro、DeepSeek V3.2、Qwen3-Coder 等）在 OpenAI Hub 上都已经能用统一 API 调，跑自己的评测复现或者拿来接自家 agent scaffold 都比较方便。

一点判断

三年前 SWE-Bench 定义了“AI 会不会写代码”的评测范式，接下来的问题是“AI 会不会像工程师那样思考”。Senior SWE-Bench 不一定是最终答案，v0.1 的诸多问题也很明显，但方向对了。

更值得关注的是背后的趋势：AI 编程的评测正在从“能不能过测试”走向“会不会做工程”。当模型的原始代码生成能力已经足够强，真正的差距会出现在“判断力”这一层。谁能先把判断力量化、可评测、可优化，谁就能在下一波 agent 竞争里拿到定义权。

34% 只是个起点。半年后这个数字如果冲到 60%，AI 编程赛道的叙事就要彻底改写了。

参考来源

SWE-bench 相关综述与 UIUC Agentless 方案解读 - 知乎专栏：详细讲解了 SWE-Bench 的评测机制和主流 Agent 方案对比，理解本文背景的好材料
SWE-agent 项目仓库 - GitHub：普林斯顿开源的 agent scaffold，是 SWE-Bench 生态的基础设施
OpenHands（原 OpenDevin）项目仓库 - GitHub：目前活跃度最高的开源编程 agent，Senior SWE-Bench 评测里也有它的数据

Senior SWE-Bench 上线：让 AI 当资深工程师而非实习生

Senior SWE-Bench 发布：AI 编程基准终于开始考“资深工程师”了

为什么原版 SWE-Bench 不够用了

Senior SWE-Bench 到底考什么

1. 架构级变更（Architectural Change）

2. 代码评审（Code Review）

3. 方案设计（Design Proposal）

首批评测结果：所有人都翻车了

这套基准的价值和局限

对行业的影响

一点判断

参考来源

相关推荐

葡萄牙砸 550 万欧元造欧洲葡语模型 AMALIA

苹果给 Safari 装了个 MCP，AI Agent 终于能直接调浏览器了

LangChain 开源 OpenWiki：让 Agent 自己维护代码库文档

联系我们