IBM联合Artificial Analysis发布首个企业级IT智能体基准ITBench-AA，覆盖SRE、FinOps、CISO三大场景。结果显示，包括GPT-5、Claude Opus 4.5、Gemini 2.5 Pro在内的主流前沿模型得分均未突破50%，企业级智能体落地难题被首次量化。

前沿模型集体翻车：ITBench-AA 曝企业 IT 智能体真实短板

5月26日，IBM 研究院联合独立评测机构 Artificial Analysis 在 Hugging Face 上正式放出了 ITBench-AA——业内第一个针对企业 IT 运维场景的智能体能力基准。结果有点扎心：参评的十几款 frontier 模型，没有一个在综合得分上摸到 50% 这条线。

这不是又一个跑分秀，而是一份真正意义上的"企业体检报告"。当模型厂商在 SWE-bench、AIME、MMLU 上互相内卷、把分数刷到 90+ 的时候，IBM 把场景换到了真实的企业生产环境——SRE 故障排查、FinOps 成本治理、CISO 安全合规——前沿模型的成绩瞬间被打回原形。

ITBench-AA 测评结果排行榜，前沿模型得分均低于50%

一、为什么需要这样一个基准

过去一年，"企业级 AI 智能体"几乎是所有大厂财报和发布会的高频词。微软推 Copilot Studio，Salesforce 推 Agentforce，IBM 自家也有 watsonx Orchestrate 和去年那个在 AppWorld 上拿了第一的 CUGA。但开发者圈子里有个公开的秘密：实验室 demo 和真实落地之间，隔着一条马里亚纳海沟。

问题出在评测体系上。现有的智能体基准——AppWorld、WebArena、OSWorld、SWE-bench——要么是模拟环境，要么是开源代码仓库，要么是消费级网页操作。它们能告诉你模型会不会用浏览器、会不会改 Python 代码，但回答不了一个真正让 CTO 头疼的问题：当生产环境 Kubernetes 集群凌晨三点炸了，模型能不能像值班 SRE 一样定位根因？

ITBench-AA 想填的就是这个坑。它的设计思路很务实：

场景源自真实工单：故障注入、告警、日志全部基于 IBM 内部及客户环境抽样过的真实事件
端到端可执行：每个任务都有一个可复现的容器化沙箱，智能体需要在真实的 Kubernetes、Prometheus、Grafana、云控制台里操作
结果可验证：不是看模型"说了什么"，而是看它"改了什么"——配置文件、资源策略、IAM 规则是否真正修复了问题

这套方法论的潜台词很清楚：企业不为漂亮的解释付费，只为问题被解决付费。

二、三个赛道，三种"翻车姿势"

ITBench-AA 当前覆盖三大企业 IT 场景，每个场景的难点不同，模型暴露的短板也各异。

1. SRE（站点可靠性工程）

这是最经典的赛道。任务大致是：给你一个出故障的微服务集群，告警雪片一样飘进来，你需要在限定时间内定位根因、给出修复方案，并实际执行修复。

典型任务示例：

# 一个 ITBench-AA SRE 任务的简化描述
incident:
  symptom: \"checkout-service 99 分位延迟从 200ms 飙升到 8s\"
  blast_radius: \"影响 23% 的下单请求\"
  available_tools:
    - kubectl
    - prometheus_query
    - jaeger_trace
    - loki_logs
success_criteria:
  - root_cause_identified: true
  - mitigation_applied: true
  - slo_restored_within: 15m

前沿模型在这里的通病是：会读日志，但不会"翻"日志。优秀的 SRE 知道在排查链路问题时第一步该看哪几个面板、哪几个指标的相关性，而模型经常一上来就疯狂调用 kubectl describe，把上下文窗口塞满之后开始幻觉编造服务名。

2. FinOps（云成本治理）

这是个相对新的方向。任务通常是：拿到一份云账单异常报告，找出成本飙升的根因，并制定整改方案。

这个赛道最容易暴露模型的"工程师品味"。便宜的方案不一定是对的方案——把 GPU 实例全部降配确实能省钱，但训练任务跑不完就是更大的浪费。ITBench-AA 在这里设计的评分函数会同时考量节省金额、SLO 影响和实施风险。

IBM 报告里有个有意思的发现：模型普遍倾向于给出"激进"建议，比如直接关停看起来空闲的实例。但这些实例可能是月底跑批的关键节点。这种"看起来很懂、其实是莽夫"的行为，在生产环境是灾难性的。

3. CISO（安全合规）

这个赛道最考验智能体的"长链条推理"能力。一个典型任务可能是：检测到一个可疑的 IAM 角色权限提升事件，需要判断是不是真正的攻击、影响范围多大、要不要立即撤权、撤权又会不会破坏正常业务。

这里前沿模型几乎集体溃败。原因不在于推理能力，而在于企业安全是高度上下文依赖的——同样一个权限变更，在测试环境是正常的 CI/CD，在生产环境就是 Red Flag。模型缺乏组织上下文，就只能靠模式匹配硬猜。

三、谁的成绩单更体面一些

IBM 这次没有藏着掖着，把所有主流模型的成绩都甩了出来。综合得分（三个赛道加权平均）大致呈现这样的格局：

第一梯队（40%-49%）：GPT-5、Claude Opus 4.5、Gemini 2.5 Pro Deep Think。三家几乎咬得很紧，差距在统计噪声范围内
第二梯队（30%-40%）：Claude Sonnet 4.5、DeepSeek-V3.5、Qwen3-Max、Grok 4
第三梯队（低于 30%）：开源中等规模模型，以及没有针对 agentic 场景做后训练的版本

几个值得注意的观察：

第一，"推理模型"不等于"会干活"。OpenAI o 系列、Gemini Deep Think 这种主打深度推理的模型，在数学竞赛和编程题上吊打通用模型，但在 ITBench-AA 上的领先优势小得多。原因是企业 IT 任务的瓶颈不在"想得深"，而在"做得对"——你想得再深，工具调用出错、上下文管理崩溃，照样翻车。

第二，Claude 系列在 SRE 子项上表现意外强势。Opus 4.5 在 SRE 任务上的得分甚至略高于 GPT-5，这跟 Anthropic 过去一年在 tool use 和长链 agentic loop 上的工程投入是吻合的。

第三，开源模型差距没有想象中大。DeepSeek-V3.5 和 Qwen3-Max 跟第一梯队的差距在 8-12 个百分点，考虑到它们的成本是 GPT-5 的几分之一甚至十几分之一，这个性价比对预算敏感的企业其实非常可观。

四、为什么连 GPT-5 都过不了 50%

IBM 在博客里列了几个共性失败模式，每一个都值得 agent 框架开发者拿小本子记下来。

1. 长程上下文管理崩溃

企业 IT 任务的执行链条经常长达数十步。模型在第 30 步时已经忘了第 5 步看到的关键信息。当前所有 frontier 模型在超长 agent loop 上的表现都不稳定——不是上下文窗口不够大，而是注意力机制对"几小时前看过的一行日志"的检索能力远不如人类工程师的工作记忆。

2. 工具调用幻觉

模型会编造不存在的 kubectl 子命令、捏造云厂商 API 的参数名。在沙箱里这是失败一次，在生产环境这可能是直接事故。

3. 缺乏"停止"的判断力

人类工程师在不确定时会停下来问一句"这个能动吗？"，模型则倾向于一往无前地执行。ITBench-AA 给了模型 "ask for help" 的选项，但绝大多数模型几乎从不使用。

4. 评估闭环薄弱

执行一个修复动作后，模型经常不主动验证"这个修复真的生效了吗"，而是默认成功并进入下一步。这在企业运维里是大忌——SRE 黄金准则之一就是 "always verify"。

五、对开发者和企业意味着什么

ITBench-AA 的发布时间点其实很微妙。最近半年，企业市场对 AI 智能体的态度正在从 2024 年的狂热回归理性。Gartner 上个月那份 "2026 年 40% 的 agentic AI 项目将被取消" 的报告，把不少 CIO 浇了一盆冷水。ITBench-AA 算是给这盆冷水加了点数据支撑。

但悲观不是这份基准的本意。换个角度看，它第一次给"企业级智能体"画了一把可以量化的尺子。这意味着：

模型厂商有了清晰的优化靶子，下一代模型的发布大概率会专门 cue 一下 ITBench-AA 分数
企业采购方有了相对中立的参考，不必再被各家 demo 视频忽悠
agent 框架（LangGraph、AutoGen、CrewAI 等）也有了真实的压力测试场

对开发者而言，更直接的启示是：别迷信"换更强的模型就能解决"。从 ITBench-AA 的数据看，模型从 GPT-4 升到 GPT-5 在企业 IT 任务上的提升其实有限，反倒是 agent 框架本身的设计——记忆模块、验证回路、人机协作机制——决定了最终落地效果的下限。

顺带一提，对于想把不同模型在自己业务场景下对比一遍的团队，OpenAI Hub 这种聚合平台的价值在这种时候就体现出来了——一个 Key 把 GPT-5、Claude Opus 4.5、Gemini 2.5 Pro、DeepSeek-V3.5、Qwen3-Max 拉到同一个测试脚本下跑，比挨家挨户申请 API 配额省心得多。

六、接下来看什么

IBM 在博客末尾透露了 ITBench-AA 的后续规划：

扩展到 DevOps、数据库运维、网络运维等更多场景
加入"多智能体协作"任务，测试 agent 团队的协同能力
引入"对抗性"测试，模拟生产环境中真实的噪声和误导信息
开源更多沙箱环境，让社区可以自行扩展任务

如果这个基准能像 SWE-bench 那样形成事实标准，未来一两年企业级智能体赛道的演进路径会变得清晰很多。前沿模型从 50% 爬到 70%、从 70% 爬到 90% 的过程，差不多就是企业 AI 从"实验性投入"变成"基础设施投入"的过程。

现在的 49%，是个让人不太满意但充满想象空间的起点。

参考来源

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — IBM Research 与 Artificial Analysis 在 Hugging Face 发布的原始博客，包含完整方法论与排行榜数据

前沿模型集体翻车：ITBench-AA曝企业IT智能体短板