前沿模型集体翻车:ITBench-AA曝企业IT智能体短板

行业快讯

IBM联合Artificial Analysis发布首个企业级IT智能体基准ITBench-AA,覆盖SRE、FinOps、CISO三大场景。结果显示,包括GPT-5、Claude Opus 4.5、Gemini 2.5 Pro在内的主流前沿模型得分均未突破50%,企业级智能体落地难题被首次量化。

前沿模型集体翻车:ITBench-AA 曝企业 IT 智能体真实短板

5月26日,IBM 研究院联合独立评测机构 Artificial Analysis 在 Hugging Face 上正式放出了 ITBench-AA——业内第一个针对企业 IT 运维场景的智能体能力基准。结果有点扎心:参评的十几款 frontier 模型,没有一个在综合得分上摸到 50% 这条线。

这不是又一个跑分秀,而是一份真正意义上的"企业体检报告"。当模型厂商在 SWE-bench、AIME、MMLU 上互相内卷、把分数刷到 90+ 的时候,IBM 把场景换到了真实的企业生产环境——SRE 故障排查、FinOps 成本治理、CISO 安全合规——前沿模型的成绩瞬间被打回原形。

ITBench-AA 测评结果排行榜,前沿模型得分均低于50%

一、为什么需要这样一个基准

过去一年,"企业级 AI 智能体"几乎是所有大厂财报和发布会的高频词。微软推 Copilot Studio,Salesforce 推 Agentforce,IBM 自家也有 watsonx Orchestrate 和去年那个在 AppWorld 上拿了第一的 CUGA。但开发者圈子里有个公开的秘密:实验室 demo 和真实落地之间,隔着一条马里亚纳海沟

问题出在评测体系上。现有的智能体基准——AppWorld、WebArena、OSWorld、SWE-bench——要么是模拟环境,要么是开源代码仓库,要么是消费级网页操作。它们能告诉你模型会不会用浏览器、会不会改 Python 代码,但回答不了一个真正让 CTO 头疼的问题:当生产环境 Kubernetes 集群凌晨三点炸了,模型能不能像值班 SRE 一样定位根因?

ITBench-AA 想填的就是这个坑。它的设计思路很务实:

  • 场景源自真实工单:故障注入、告警、日志全部基于 IBM 内部及客户环境抽样过的真实事件
  • 端到端可执行:每个任务都有一个可复现的容器化沙箱,智能体需要在真实的 Kubernetes、Prometheus、Grafana、云控制台里操作
  • 结果可验证:不是看模型"说了什么",而是看它"改了什么"——配置文件、资源策略、IAM 规则是否真正修复了问题

这套方法论的潜台词很清楚:企业不为漂亮的解释付费,只为问题被解决付费

二、三个赛道,三种"翻车姿势"

ITBench-AA 当前覆盖三大企业 IT 场景,每个场景的难点不同,模型暴露的短板也各异。

1. SRE(站点可靠性工程)

这是最经典的赛道。任务大致是:给你一个出故障的微服务集群,告警雪片一样飘进来,你需要在限定时间内定位根因、给出修复方案,并实际执行修复。

典型任务示例:

# 一个 ITBench-AA SRE 任务的简化描述
incident:
  symptom: \"checkout-service 99 分位延迟从 200ms 飙升到 8s\"
  blast_radius: \"影响 23% 的下单请求\"
  available_tools:
    - kubectl
    - prometheus_query
    - jaeger_trace
    - loki_logs
success_criteria:
  - root_cause_identified: true
  - mitigation_applied: true
  - slo_restored_within: 15m

前沿模型在这里的通病是:会读日志,但不会"翻"日志。优秀的 SRE 知道在排查链路问题时第一步该看哪几个面板、哪几个指标的相关性,而模型经常一上来就疯狂调用 kubectl describe,把上下文窗口塞满之后开始幻觉编造服务名。

2. FinOps(云成本治理)

这是个相对新的方向。任务通常是:拿到一份云账单异常报告,找出成本飙升的根因,并制定整改方案。

这个赛道最容易暴露模型的"工程师品味"。便宜的方案不一定是对的方案——把 GPU 实例全部降配确实能省钱,但训练任务跑不完就是更大的浪费。ITBench-AA 在这里设计的评分函数会同时考量节省金额、SLO 影响和实施风险。

IBM 报告里有个有意思的发现:模型普遍倾向于给出"激进"建议,比如直接关停看起来空闲的实例。但这些实例可能是月底跑批的关键节点。这种"看起来很懂、其实是莽夫"的行为,在生产环境是灾难性的。

3. CISO(安全合规)

这个赛道最考验智能体的"长链条推理"能力。一个典型任务可能是:检测到一个可疑的 IAM 角色权限提升事件,需要判断是不是真正的攻击、影响范围多大、要不要立即撤权、撤权又会不会破坏正常业务。

这里前沿模型几乎集体溃败。原因不在于推理能力,而在于企业安全是高度上下文依赖的——同样一个权限变更,在测试环境是正常的 CI/CD,在生产环境就是 Red Flag。模型缺乏组织上下文,就只能靠模式匹配硬猜。

三、谁的成绩单更体面一些

IBM 这次没有藏着掖着,把所有主流模型的成绩都甩了出来。综合得分(三个赛道加权平均)大致呈现这样的格局:

  • 第一梯队(40%-49%):GPT-5、Claude Opus 4.5、Gemini 2.5 Pro Deep Think。三家几乎咬得很紧,差距在统计噪声范围内
  • 第二梯队(30%-40%):Claude Sonnet 4.5、DeepSeek-V3.5、Qwen3-Max、Grok 4
  • 第三梯队(低于 30%):开源中等规模模型,以及没有针对 agentic 场景做后训练的版本

几个值得注意的观察:

第一,"推理模型"不等于"会干活"。OpenAI o 系列、Gemini Deep Think 这种主打深度推理的模型,在数学竞赛和编程题上吊打通用模型,但在 ITBench-AA 上的领先优势小得多。原因是企业 IT 任务的瓶颈不在"想得深",而在"做得对"——你想得再深,工具调用出错、上下文管理崩溃,照样翻车。

第二,Claude 系列在 SRE 子项上表现意外强势。Opus 4.5 在 SRE 任务上的得分甚至略高于 GPT-5,这跟 Anthropic 过去一年在 tool use 和长链 agentic loop 上的工程投入是吻合的。

第三,开源模型差距没有想象中大。DeepSeek-V3.5 和 Qwen3-Max 跟第一梯队的差距在 8-12 个百分点,考虑到它们的成本是 GPT-5 的几分之一甚至十几分之一,这个性价比对预算敏感的企业其实非常可观。

四、为什么连 GPT-5 都过不了 50%

IBM 在博客里列了几个共性失败模式,每一个都值得 agent 框架开发者拿小本子记下来。

1. 长程上下文管理崩溃

企业 IT 任务的执行链条经常长达数十步。模型在第 30 步时已经忘了第 5 步看到的关键信息。当前所有 frontier 模型在超长 agent loop 上的表现都不稳定——不是上下文窗口不够大,而是注意力机制对"几小时前看过的一行日志"的检索能力远不如人类工程师的工作记忆。

2. 工具调用幻觉

模型会编造不存在的 kubectl 子命令、捏造云厂商 API 的参数名。在沙箱里这是失败一次,在生产环境这可能是直接事故。

3. 缺乏"停止"的判断力

人类工程师在不确定时会停下来问一句"这个能动吗?",模型则倾向于一往无前地执行。ITBench-AA 给了模型 "ask for help" 的选项,但绝大多数模型几乎从不使用。

4. 评估闭环薄弱

执行一个修复动作后,模型经常不主动验证"这个修复真的生效了吗",而是默认成功并进入下一步。这在企业运维里是大忌——SRE 黄金准则之一就是 "always verify"。

五、对开发者和企业意味着什么

ITBench-AA 的发布时间点其实很微妙。最近半年,企业市场对 AI 智能体的态度正在从 2024 年的狂热回归理性。Gartner 上个月那份 "2026 年 40% 的 agentic AI 项目将被取消" 的报告,把不少 CIO 浇了一盆冷水。ITBench-AA 算是给这盆冷水加了点数据支撑。

但悲观不是这份基准的本意。换个角度看,它第一次给"企业级智能体"画了一把可以量化的尺子。这意味着:

  • 模型厂商有了清晰的优化靶子,下一代模型的发布大概率会专门 cue 一下 ITBench-AA 分数
  • 企业采购方有了相对中立的参考,不必再被各家 demo 视频忽悠
  • agent 框架(LangGraph、AutoGen、CrewAI 等)也有了真实的压力测试场

对开发者而言,更直接的启示是:别迷信"换更强的模型就能解决"。从 ITBench-AA 的数据看,模型从 GPT-4 升到 GPT-5 在企业 IT 任务上的提升其实有限,反倒是 agent 框架本身的设计——记忆模块、验证回路、人机协作机制——决定了最终落地效果的下限。

顺带一提,对于想把不同模型在自己业务场景下对比一遍的团队,OpenAI Hub 这种聚合平台的价值在这种时候就体现出来了——一个 Key 把 GPT-5、Claude Opus 4.5、Gemini 2.5 Pro、DeepSeek-V3.5、Qwen3-Max 拉到同一个测试脚本下跑,比挨家挨户申请 API 配额省心得多。

六、接下来看什么

IBM 在博客末尾透露了 ITBench-AA 的后续规划:

  • 扩展到 DevOps、数据库运维、网络运维等更多场景
  • 加入"多智能体协作"任务,测试 agent 团队的协同能力
  • 引入"对抗性"测试,模拟生产环境中真实的噪声和误导信息
  • 开源更多沙箱环境,让社区可以自行扩展任务

如果这个基准能像 SWE-bench 那样形成事实标准,未来一两年企业级智能体赛道的演进路径会变得清晰很多。前沿模型从 50% 爬到 70%、从 70% 爬到 90% 的过程,差不多就是企业 AI 从"实验性投入"变成"基础设施投入"的过程。

现在的 49%,是个让人不太满意但充满想象空间的起点。

参考来源