54 亿美元的难题
2024 年 7 月,一场大规模的宕机事故袭击了 CrowdStrike,波及全球的关键系统。航班停飞,医院服务中断,据估计财富 500 强企业因此遭受了 54 亿美元的损失。这一事件如同当头棒喝: 现代 IT 系统极其复杂、脆弱,且对全球经济至关重要。
管理这些系统——确保它们在线 (站点可靠性) 、安全 (合规) 且不乱烧钱 (FinOps) ——对于单纯依靠人类来说已经变得过于困难。行业正在转向 AI Agent (人工智能智能体) : 由大语言模型 (LLM) 驱动的自主软件,能够进行规划、推理并执行修复。
但问题在于: 我们如何知道一个 AI Agent 是否真的准备好接管生产环境的 Kubernetes 集群了?如果一个 Agent 在写诗时产生幻觉,那是幽默;如果它在管理银行服务器权限时产生幻觉,那就是灾难。
ITBench 应运而生。
在一篇新论文中,研究人员介绍了一个旨在系统评估 AI Agent 处理现实世界 IT 任务能力的综合框架。ITBench 不仅仅是一场多项选择考试;它是一个实时的、反应式的环境,模拟了现代 IT 运维中的混乱场景。
在这篇深度文章中,我们将探讨 ITBench 的工作原理、它测试的三大领域,以及当前最先进的 AI 模型在面对真实 IT 危机时的严峻结果。
现代 IT 的三大支柱
要理解 ITBench,我们首先需要了解它试图自动化的工作。该框架专注于三个截然不同但相互关联的角色,如下图所示。

- 站点可靠性工程 (SRE): 他们是数字世界的消防员。他们的目标是可用性和弹性。当服务器崩溃或延迟飙升时,他们负责诊断根本原因并缓解问题。
- 合规与安全运营 (CISO): 他们是守门人。他们确保系统遵守严格的法规 (如 CIS 基准) 并能抵御漏洞带来的安全风险。
- 财务运营 (FinOps): 他们是效率专家。在云计算的世界里,成本可能在几分钟内失控。FinOps 确保资源得到高效利用且不超出预算。
现有的基准测试通常依赖静态数据集或多项选择题。然而,真正的 IT 工作涉及查看日志、运行命令、观察结果并不断重试。ITBench 的构建正是为了反映这一现实。
幕后机制: ITBench 架构
ITBench 被设计为一个针对 Agent 的“黑盒”环境。Agent 会收到一个任务 (例如,“修复结账服务的高错误率”) ,但不会被告知如何去做。它必须探索环境、收集数据并执行命令。
自动化框架
该架构建立在开源技术之上,以确保可复现性。它由 场景环境 (实际模拟的 IT 系统) 、Agent (被测试的 AI) 和 评估器 (对 Agent 的成功进行打分) 组成。

如框架图所示,该系统将两个外部构建器——Agent 构建器和基准构建器——连接到一个中心核心。
- 基准运行器 (Benchmark Runner) 为每次测试运行启动一个全新的环境 (如 Kubernetes 集群) 。
- 它注入特定的故障或错误配置 (即“场景”) 。
- Agent 使用一组工具与该环境进行交互。
- 最后, 评估器 (Evaluator) 将系统的最终状态与预期的标准答案 (Ground Truth) 进行比较。
Agent 循环: POMDP
研究人员将 Agent 与 IT 系统之间的交互概念化为 部分可观测马尔可夫决策过程 (POMDP) 。 用通俗的话说就是: “Agent 无法一次性看到所有东西。”

在真实的 IT 故障中,你没有系统的“上帝视角”。你只能看到工具展示给你的内容。
- 观察 (\(o_t\)): Agent 运行一个命令 (如
kubectl get pods) 或查询日志工具。输出即为其观察结果。 - 思考: Agent 使用其后端 LLM 处理此观察结果 (例如,“Pod 正在崩溃,我应该检查日志”) 。
- 行动 (\(a_t\)): Agent 执行新的命令或工具调用。
- 状态转移: 环境根据该行动发生变化 (例如,服务器重启) 。
这个循环会持续进行,直到 Agent 认为它已解决问题或达到时间限制。
制造混乱: 场景
ITBench 包含 94 个场景 , 源自真实的事故、合规标准和财务 KPI。让我们分解一下这些场景是如何模拟现实的。
1. SRE 场景 (修复故障)
SRE 场景可能是最动态的。研究人员从 SaaS 产品中提取了 105 个真实事故并进行了重建。
想象一个“缓存故障”场景。系统可能会模拟 Redis 缓存中的内存泄漏。
- 触发器: Agent 收到警报: “前端服务错误率高”。
- 数据: Agent 可以访问 可观测性数据——日志 (Logs)、链路追踪 (Traces) 和指标 (Metrics)。

如上图所示,Agent 必须将 CPU 负载的峰值 (指标) 与特定的错误消息 (日志) 以及缓慢的请求路径 (链路追踪) 关联起来。这是一个“大海捞针”的问题。Agent 拥有像 NL2Kubectl (自然语言转 Kubectl) 和 NL2Logs 这样的工具来查询这些数据。
2. CISO 场景 (合规即代码)
安全不仅仅是抓黑客;它关乎严谨的配置。CISO 场景基于 CIS 基准 (互联网安全中心) 。
一个典型的任务可能是: “确保没有容器共享主机网络命名空间。” Agent 必须:
- 检查: 编写脚本 (使用 Ansible 或 Kubectl) 检查当前配置。
- 验证: 编写策略 (使用 OPA Rego 或 Kyverno) 来强制执行规则。
- 确认: 确认系统合规。
这里的复杂性在于生成语法正确的代码 (如 Rego 策略) ,并准确反映自然语言的需求。
3. FinOps 场景 (优化)
这些场景侧重于成本。Agent 可能会收到警报,提示某项服务的预算超支。它必须调查原因 (例如,配置错误的自动伸缩器启动了太多昂贵的节点) ,并推荐一个平衡成本与性能的修复方案。
复杂度分级
并非所有问题都是一样的。ITBench 将场景分为 简单、中等 和 困难 。

如上图所示,复杂度由故障传播链的长度 (警报触发前倒下了多少多米诺骨牌) 和涉及的技术数量等因素决定。有些场景仅涉及简单的 Pod 重启 (简单) ,而有些则需要追踪跨越不同语言编写的四个微服务的故障 (困难) 。
我们如何衡量成功?
如果一个 Agent 修复了问题,但在此过程中删除了整个数据库,这算成功吗?显然不算。ITBench 使用了一个严格的评估排行榜。

该框架使用了多个指标,但最关键的是:
- Pass@1: Agent 是否在第一次尝试中解决了问题?
- 对于 SRE : 警报是否清除了?
- 对于 CISO : 它是否正确识别了合规与不合规的设置?
- 对于 FinOps : 它是否在不破坏应用的情况下优化了成本?
- NTAM (归一化拓扑感知匹配) : 这是针对 SRE 的一种新颖指标。有时 Agent 会发现问题的一部分。NTAM 衡量 Agent 的诊断结果与系统拓扑中真实根本原因的接近程度。
- MTTD / MTTR: 平均诊断时间 (Mean Time to Diagnosis) 和平均修复时间 (Mean Time to Repair)。在 IT 领域,速度至关重要。
结果: AI Agent 准备好投入生产了吗?
研究人员使用 ITBench 框架测试了几种领先的模型,包括 GPT-4o、Llama-3 和 Granite 。 结果既令人大开眼界,又让人清醒。
SRE 表现: 任重道远
尽管 AI 编码助手被炒得火热,但解决实时事故被证明是非常困难的。

如表 4 所示, GPT-4o 表现最佳,但在诊断方面的成功率 (pass@1) 仅为 13.81% , 缓解方面仅为 11.43% 。
- Llama-3.3-70B 紧随其后,约为 3% 。
- 较小的模型 (8B 参数) 几乎没有成功记录。
复杂度悬崖: Agent 在“简单”场景上表现尚可 (GPT-4o 解决了约 36% 的诊断) 。然而,在“困难”场景中,所有模型的缓解成功率都降至 0% 。 复杂的多步骤故障目前超出了即使是最好的 LLM 的推理能力。
链路追踪的重要性: 研究人员发现,让 Agent 访问 Trace 数据 (请求流的详细地图) 至关重要。如果没有 Trace 数据,GPT-4o 的诊断成功率从 13.8% 降至 9.5%,缓解成功率跌至近 3%。这凸显了更好的可观测性工具能让 AI Agent 变得更聪明。
CISO 表现: 较好,但不稳定
Agent 在安全领域的表现稍好,这可能是因为这些任务严重依赖代码生成 (将英语规则翻译成代码) ,而这正是 LLM 通常擅长的。

GPT-4o 在“简单”的 Kyverno 任务上达到了约 40% 的通过率。然而,表现随场景类别的不同而波动巨大。对于现有策略的复杂更新 (kyverno-update) ,成功率骤降。
研究还强调了一个主要问题: 非确定性 (Non-determinism)。 一个 Agent 可能会在第一次运行时解决问题,而在第二次运行时失败,这仅仅是因为 LLM 生成代码的方式或环境响应的微小变化。
FinOps 表现: 最艰难的挑战
财务运营的结果最为严峻。

如表 6 所示, GPT-4o 在诊断成本问题上取得了 33% 的成功率,但 0% 的 Agent 能够成功缓解问题 (所有模型的 pass@1 均为 0%) 。
为什么?FinOps 需要平衡相互冲突的目标 (成本与性能) 并理解复杂的自动伸缩逻辑。Agent 经常能识别出高成本,但推荐的操作要么会让应用崩溃 (如删除所有副本) ,要么无法正确浏览配置文件。
探秘 AI 的大脑
为了理解 Agent 为何失败或成功,ITBench 捕捉了它们的“轨迹”——即它们思考和行动的逐步日志。
以下是使用 Llama-3.3 的一个 成功 轨迹示例:

在这个案例 (场景 15) 中,Agent:
- 检查警报: 发现高错误率。
- 调查: 使用
kubectl检查checkout部署 (deployment)。 - 推理: 注意到只有一个副本。
- 行动: 将部署扩容到 2 个副本。
- 成功: 补丁应用成功,服务稳定。
有趣的是,研究人员指出,在这个特定案例中,Agent 实际上错误识别了根本原因 (实际上是 HTTP 请求损坏) ,但扩容服务解决了症状。这反映了人类 SRE 的行为: 有时你并没有完全理解 Bug 就解决了宕机!
然而,失败更为常见。在许多“困难”场景中,Agent 会陷入循环,重复运行相同的 kubectl 命令,或者臆造不存在的工具语法,直到超时。
结论: 前进之路
ITBench 代表了 AI 评估的一个重大飞跃。它让我们从静态文本基准测试转向了混乱、不可预测的实时 IT 运维世界。
研究的关键结论很明确:
- 为时尚早。 SRE 的成功率约为 14%,FinOps 缓解成功率为 0%,AI Agent 尚未准备好自主运行生产系统。
- 上下文为王。 当提供丰富的可观测性数据 (Trace、日志) 和专用工具时,Agent 的表现显著更好。
- 复杂度是杀手。 当前的 LLM 难以处理涉及多种技术的“困难”场景所需的多步推理。
ITBench 提供了下一代 AI Agent 训练的“演练场”。通过标准化我们衡量成功的方式——使用真实的集群、真实的故障和真实的指标——我们可以更接近自愈、安全和高效 IT 系统的愿景。
目前,站点可靠性工程师 (SRE) 还可以高枕无忧: AI 暂时还不会抢走你的工作——但它可能很快就会成为一个非常有用的实习生。
](https://deep-paper.org/en/paper/2502.05352/images/cover.png)