前沿模型集体翻车:ITBench-AA 曝企业 IT 智能体真实短板
5月26日,IBM 研究院联合独立评测机构 Artificial Analysis 在 Hugging Face 上正式放出了 ITBench-AA——业内第一个针对企业 IT 运维场景的智能体能力基准。结果有点扎心:参评的十几款 frontier 模型,没有一个在综合得分上摸到 50% 这条线。
这不是又一个跑分秀,而是一份真正意义上的"企业体检报告"。当模型厂商在 SWE-bench、AIME、MMLU 上互相内卷、把分数刷到 90+ 的时候,IBM 把场景换到了真实的企业生产环境——SRE 故障排查、FinOps 成本治理、CISO 安全合规——前沿模型的成绩瞬间被打回原形。

一、为什么需要这样一个基准
过去一年,"企业级 AI 智能体"几乎是所有大厂财报和发布会的高频词。微软推 Copilot Studio,Salesforce 推 Agentforce,IBM 自家也有 watsonx Orchestrate 和去年那个在 AppWorld 上拿了第一的 CUGA。但开发者圈子里有个公开的秘密:实验室 demo 和真实落地之间,隔着一条马里亚纳海沟。
问题出在评测体系上。现有的智能体基准——AppWorld、WebArena、OSWorld、SWE-bench——要么是模拟环境,要么是开源代码仓库,要么是消费级网页操作。它们能告诉你模型会不会用浏览器、会不会改 Python 代码,但回答不了一个真正让 CTO 头疼的问题:当生产环境 Kubernetes 集群凌晨三点炸了,模型能不能像值班 SRE 一样定位根因?
ITBench-AA 想填的就是这个坑。它的设计思路很务实:
- 场景源自真实工单:故障注入、告警、日志全部基于 IBM 内部及客户环境抽样过的真实事件
- 端到端可执行:每个任务都有一个可复现的容器化沙箱,智能体需要在真实的 Kubernetes、Prometheus、Grafana、云控制台里操作
- 结果可验证:不是看模型"说了什么",而是看它"改了什么"——配置文件、资源策略、IAM 规则是否真正修复了问题
这套方法论的潜台词很清楚:企业不为漂亮的解释付费,只为问题被解决付费。
二、三个赛道,三种"翻车姿势"
ITBench-AA 当前覆盖三大企业 IT 场景,每个场景的难点不同,模型暴露的短板也各异。
1. SRE(站点可靠性工程)
这是最经典的赛道。任务大致是:给你一个出故障的微服务集群,告警雪片一样飘进来,你需要在限定时间内定位根因、给出修复方案,并实际执行修复。
典型任务示例:
# 一个 ITBench-AA SRE 任务的简化描述
incident:
symptom: \"checkout-service 99 分位延迟从 200ms 飙升到 8s\"
blast_radius: \"影响 23% 的下单请求\"
available_tools:
- kubectl
- prometheus_query
- jaeger_trace
- loki_logs
success_criteria:
- root_cause_identified: true
- mitigation_applied: true
- slo_restored_within: 15m
前沿模型在这里的通病是:会读日志,但不会"翻"日志。优秀的 SRE 知道在排查链路问题时第一步该看哪几个面板、哪几个指标的相关性,而模型经常一上来就疯狂调用 kubectl describe,把上下文窗口塞满之后开始幻觉编造服务名。
2. FinOps(云成本治理)
这是个相对新的方向。任务通常是:拿到一份云账单异常报告,找出成本飙升的根因,并制定整改方案。
这个赛道最容易暴露模型的"工程师品味"。便宜的方案不一定是对的方案——把 GPU 实例全部降配确实能省钱,但训练任务跑不完就是更大的浪费。ITBench-AA 在这里设计的评分函数会同时考量节省金额、SLO 影响和实施风险。
IBM 报告里有个有意思的发现:模型普遍倾向于给出"激进"建议,比如直接关停看起来空闲的实例。但这些实例可能是月底跑批的关键节点。这种"看起来很懂、其实是莽夫"的行为,在生产环境是灾难性的。
3. CISO(安全合规)
这个赛道最考验智能体的"长链条推理"能力。一个典型任务可能是:检测到一个可疑的 IAM 角色权限提升事件,需要判断是不是真正的攻击、影响范围多大、要不要立即撤权、撤权又会不会破坏正常业务。
这里前沿模型几乎集体溃败。原因不在于推理能力,而在于企业安全是高度上下文依赖的——同样一个权限变更,在测试环境是正常的 CI/CD,在生产环境就是 Red Flag。模型缺乏组织上下文,就只能靠模式匹配硬猜。
三、谁的成绩单更体面一些
IBM 这次没有藏着掖着,把所有主流模型的成绩都甩了出来。综合得分(三个赛道加权平均)大致呈现这样的格局:
- 第一梯队(40%-49%):GPT-5、Claude Opus 4.5、Gemini 2.5 Pro Deep Think。三家几乎咬得很紧,差距在统计噪声范围内
- 第二梯队(30%-40%):Claude Sonnet 4.5、DeepSeek-V3.5、Qwen3-Max、Grok 4
- 第三梯队(低于 30%):开源中等规模模型,以及没有针对 agentic 场景做后训练的版本
几个值得注意的观察:
第一,"推理模型"不等于"会干活"。OpenAI o 系列、Gemini Deep Think 这种主打深度推理的模型,在数学竞赛和编程题上吊打通用模型,但在 ITBench-AA 上的领先优势小得多。原因是企业 IT 任务的瓶颈不在"想得深",而在"做得对"——你想得再深,工具调用出错、上下文管理崩溃,照样翻车。
第二,Claude 系列在 SRE 子项上表现意外强势。Opus 4.5 在 SRE 任务上的得分甚至略高于 GPT-5,这跟 Anthropic 过去一年在 tool use 和长链 agentic loop 上的工程投入是吻合的。
第三,开源模型差距没有想象中大。DeepSeek-V3.5 和 Qwen3-Max 跟第一梯队的差距在 8-12 个百分点,考虑到它们的成本是 GPT-5 的几分之一甚至十几分之一,这个性价比对预算敏感的企业其实非常可观。
四、为什么连 GPT-5 都过不了 50%
IBM 在博客里列了几个共性失败模式,每一个都值得 agent 框架开发者拿小本子记下来。
1. 长程上下文管理崩溃
企业 IT 任务的执行链条经常长达数十步。模型在第 30 步时已经忘了第 5 步看到的关键信息。当前所有 frontier 模型在超长 agent loop 上的表现都不稳定——不是上下文窗口不够大,而是注意力机制对"几小时前看过的一行日志"的检索能力远不如人类工程师的工作记忆。
2. 工具调用幻觉
模型会编造不存在的 kubectl 子命令、捏造云厂商 API 的参数名。在沙箱里这是失败一次,在生产环境这可能是直接事故。
3. 缺乏"停止"的判断力
人类工程师在不确定时会停下来问一句"这个能动吗?",模型则倾向于一往无前地执行。ITBench-AA 给了模型 "ask for help" 的选项,但绝大多数模型几乎从不使用。
4. 评估闭环薄弱
执行一个修复动作后,模型经常不主动验证"这个修复真的生效了吗",而是默认成功并进入下一步。这在企业运维里是大忌——SRE 黄金准则之一就是 "always verify"。
五、对开发者和企业意味着什么
ITBench-AA 的发布时间点其实很微妙。最近半年,企业市场对 AI 智能体的态度正在从 2024 年的狂热回归理性。Gartner 上个月那份 "2026 年 40% 的 agentic AI 项目将被取消" 的报告,把不少 CIO 浇了一盆冷水。ITBench-AA 算是给这盆冷水加了点数据支撑。
但悲观不是这份基准的本意。换个角度看,它第一次给"企业级智能体"画了一把可以量化的尺子。这意味着:
- 模型厂商有了清晰的优化靶子,下一代模型的发布大概率会专门 cue 一下 ITBench-AA 分数
- 企业采购方有了相对中立的参考,不必再被各家 demo 视频忽悠
- agent 框架(LangGraph、AutoGen、CrewAI 等)也有了真实的压力测试场
对开发者而言,更直接的启示是:别迷信"换更强的模型就能解决"。从 ITBench-AA 的数据看,模型从 GPT-4 升到 GPT-5 在企业 IT 任务上的提升其实有限,反倒是 agent 框架本身的设计——记忆模块、验证回路、人机协作机制——决定了最终落地效果的下限。
顺带一提,对于想把不同模型在自己业务场景下对比一遍的团队,OpenAI Hub 这种聚合平台的价值在这种时候就体现出来了——一个 Key 把 GPT-5、Claude Opus 4.5、Gemini 2.5 Pro、DeepSeek-V3.5、Qwen3-Max 拉到同一个测试脚本下跑,比挨家挨户申请 API 配额省心得多。
六、接下来看什么
IBM 在博客末尾透露了 ITBench-AA 的后续规划:
- 扩展到 DevOps、数据库运维、网络运维等更多场景
- 加入"多智能体协作"任务,测试 agent 团队的协同能力
- 引入"对抗性"测试,模拟生产环境中真实的噪声和误导信息
- 开源更多沙箱环境,让社区可以自行扩展任务
如果这个基准能像 SWE-bench 那样形成事实标准,未来一两年企业级智能体赛道的演进路径会变得清晰很多。前沿模型从 50% 爬到 70%、从 70% 爬到 90% 的过程,差不多就是企业 AI 从"实验性投入"变成"基础设施投入"的过程。
现在的 49%,是个让人不太满意但充满想象空间的起点。
参考来源
- ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — IBM Research 与 Artificial Analysis 在 Hugging Face 发布的原始博客,包含完整方法论与排行榜数据