AI 能让系统持续运转吗？深入剖析 ITBench：IT 运维 AI Agent 测试新标准

54 亿美元的难题

2024 年 7 月，一场大规模的宕机事故袭击了 CrowdStrike，波及全球的关键系统。航班停飞，医院服务中断，据估计财富 500 强企业因此遭受了 54 亿美元的损失。这一事件如同当头棒喝: 现代 IT 系统极其复杂、脆弱，且对全球经济至关重要。

管理这些系统——确保它们在线 (站点可靠性) 、安全 (合规) 且不乱烧钱 (FinOps) ——对于单纯依靠人类来说已经变得过于困难。行业正在转向 AI Agent (人工智能智能体) : 由大语言模型 (LLM) 驱动的自主软件，能够进行规划、推理并执行修复。

但问题在于: 我们如何知道一个 AI Agent 是否真的准备好接管生产环境的 Kubernetes 集群了？如果一个 Agent 在写诗时产生幻觉，那是幽默；如果它在管理银行服务器权限时产生幻觉，那就是灾难。

ITBench 应运而生。

在一篇新论文中，研究人员介绍了一个旨在系统评估 AI Agent 处理现实世界 IT 任务能力的综合框架。ITBench 不仅仅是一场多项选择考试；它是一个实时的、反应式的环境，模拟了现代 IT 运维中的混乱场景。

在这篇深度文章中，我们将探讨 ITBench 的工作原理、它测试的三大领域，以及当前最先进的 AI 模型在面对真实 IT 危机时的严峻结果。

现代 IT 的三大支柱

要理解 ITBench，我们首先需要了解它试图自动化的工作。该框架专注于三个截然不同但相互关联的角色，如下图所示。

样本角色和 IT 任务。铃铛图标代表事件触发的任务。信息图标代表其他任务，如数据分析、预防性维护任务或持续优化。

站点可靠性工程 (SRE): 他们是数字世界的消防员。他们的目标是可用性和弹性。当服务器崩溃或延迟飙升时，他们负责诊断根本原因并缓解问题。
合规与安全运营 (CISO): 他们是守门人。他们确保系统遵守严格的法规 (如 CIS 基准) 并能抵御漏洞带来的安全风险。
财务运营 (FinOps): 他们是效率专家。在云计算的世界里，成本可能在几分钟内失控。FinOps 确保资源得到高效利用且不超出预算。

现有的基准测试通常依赖静态数据集或多项选择题。然而，真正的 IT 工作涉及查看日志、运行命令、观察结果并不断重试。ITBench 的构建正是为了反映这一现实。

幕后机制: ITBench 架构

ITBench 被设计为一个针对 Agent 的“黑盒”环境。Agent 会收到一个任务 (例如，“修复结账服务的高错误率”) ，但不会被告知如何去做。它必须探索环境、收集数据并执行命令。

自动化框架

该架构建立在开源技术之上，以确保可复现性。它由 场景环境 (实际模拟的 IT 系统) 、Agent (被测试的 AI) 和 评估器 (对 Agent 的成功进行打分) 组成。

图 2: ITBench 自动化框架。

如框架图所示，该系统将两个外部构建器——Agent 构建器和基准构建器——连接到一个中心核心。

基准运行器 (Benchmark Runner) 为每次测试运行启动一个全新的环境 (如 Kubernetes 集群) 。
它注入特定的故障或错误配置 (即“场景”) 。
Agent 使用一组工具与该环境进行交互。
最后, 评估器 (Evaluator) 将系统的最终状态与预期的标准答案 (Ground Truth) 进行比较。

Agent 循环: POMDP

研究人员将 Agent 与 IT 系统之间的交互概念化为 部分可观测马尔可夫决策过程 (POMDP) 。用通俗的话说就是: “Agent 无法一次性看到所有东西。”

图 3: 作为 POMDP 的 Agent 和环境。Agent 通过 ITBench 工具箱提供的 API 与环境交互。

在真实的 IT 故障中，你没有系统的“上帝视角”。你只能看到工具展示给你的内容。

观察 (\(o_t\)): Agent 运行一个命令 (如 kubectl get pods) 或查询日志工具。输出即为其观察结果。
思考: Agent 使用其后端 LLM 处理此观察结果 (例如，“Pod 正在崩溃，我应该检查日志”) 。
行动 (\(a_t\)): Agent 执行新的命令或工具调用。
状态转移: 环境根据该行动发生变化 (例如，服务器重启) 。

这个循环会持续进行，直到 Agent 认为它已解决问题或达到时间限制。

制造混乱: 场景

ITBench 包含 94 个场景 , 源自真实的事故、合规标准和财务 KPI。让我们分解一下这些场景是如何模拟现实的。

1. SRE 场景 (修复故障)

SRE 场景可能是最动态的。研究人员从 SaaS 产品中提取了 105 个真实事故并进行了重建。

想象一个“缓存故障”场景。系统可能会模拟 Redis 缓存中的内存泄漏。

触发器: Agent 收到警报: “前端服务错误率高”。
数据: Agent 可以访问 可观测性数据——日志 (Logs)、链路追踪 (Traces) 和指标 (Metrics)。

图 10: SRE 任务的多模态数据。

如上图所示，Agent 必须将 CPU 负载的峰值 (指标) 与特定的错误消息 (日志) 以及缓慢的请求路径 (链路追踪) 关联起来。这是一个“大海捞针”的问题。Agent 拥有像 NL2Kubectl (自然语言转 Kubectl) 和 NL2Logs 这样的工具来查询这些数据。

2. CISO 场景 (合规即代码)

安全不仅仅是抓黑客；它关乎严谨的配置。CISO 场景基于 CIS 基准 (互联网安全中心) 。

一个典型的任务可能是: “确保没有容器共享主机网络命名空间。” Agent 必须:

检查: 编写脚本 (使用 Ansible 或 Kubectl) 检查当前配置。
验证: 编写策略 (使用 OPA Rego 或 Kyverno) 来强制执行规则。
确认: 确认系统合规。

这里的复杂性在于生成语法正确的代码 (如 Rego 策略) ，并准确反映自然语言的需求。

3. FinOps 场景 (优化)

这些场景侧重于成本。Agent 可能会收到警报，提示某项服务的预算超支。它必须调查原因 (例如，配置错误的自动伸缩器启动了太多昂贵的节点) ，并推荐一个平衡成本与性能的修复方案。

复杂度分级

并非所有问题都是一样的。ITBench 将场景分为简单、中等和困难。

图 4: ITBench 场景的特征描述。

如上图所示，复杂度由故障传播链的长度 (警报触发前倒下了多少多米诺骨牌) 和涉及的技术数量等因素决定。有些场景仅涉及简单的 Pod 重启 (简单) ，而有些则需要追踪跨越不同语言编写的四个微服务的故障 (困难) 。

我们如何衡量成功？

如果一个 Agent 修复了问题，但在此过程中删除了整个数据库，这算成功吗？显然不算。ITBench 使用了一个严格的评估排行榜。

图 6: ITBench 排行榜示例。

该框架使用了多个指标，但最关键的是:

Pass@1: Agent 是否在第一次尝试中解决了问题？
对于 SRE : 警报是否清除了？
对于 CISO : 它是否正确识别了合规与不合规的设置？
对于 FinOps : 它是否在不破坏应用的情况下优化了成本？
NTAM (归一化拓扑感知匹配) : 这是针对 SRE 的一种新颖指标。有时 Agent 会发现问题的一部分。NTAM 衡量 Agent 的诊断结果与系统拓扑中真实根本原因的接近程度。
MTTD / MTTR: 平均诊断时间 (Mean Time to Diagnosis) 和平均修复时间 (Mean Time to Repair)。在 IT 领域，速度至关重要。

结果: AI Agent 准备好投入生产了吗？

研究人员使用 ITBench 框架测试了几种领先的模型，包括 GPT-4o、Llama-3 和 Granite 。结果既令人大开眼界，又让人清醒。

SRE 表现: 任重道远

尽管 AI 编码助手被炒得火热，但解决实时事故被证明是非常困难的。

表 4: SRE-Agent 在 SRE 场景上的评估

如表 4 所示, GPT-4o 表现最佳，但在诊断方面的成功率 (pass@1) 仅为 13.81% , 缓解方面仅为 11.43% 。

Llama-3.3-70B 紧随其后，约为 3% 。
较小的模型 (8B 参数) 几乎没有成功记录。

复杂度悬崖: Agent 在“简单”场景上表现尚可 (GPT-4o 解决了约 36% 的诊断) 。然而，在“困难”场景中，所有模型的缓解成功率都降至 0% 。复杂的多步骤故障目前超出了即使是最好的 LLM 的推理能力。

链路追踪的重要性: 研究人员发现，让 Agent 访问 Trace 数据 (请求流的详细地图) 至关重要。如果没有 Trace 数据，GPT-4o 的诊断成功率从 13.8% 降至 9.5%，缓解成功率跌至近 3%。这凸显了更好的可观测性工具能让 AI Agent 变得更聪明。

CISO 表现: 较好，但不稳定

Agent 在安全领域的表现稍好，这可能是因为这些任务严重依赖代码生成 (将英语规则翻译成代码) ，而这正是 LLM 通常擅长的。

表 5: CISO 合规评估 Agent 在 CISO 场景上的评估

GPT-4o 在“简单”的 Kyverno 任务上达到了约 40% 的通过率。然而，表现随场景类别的不同而波动巨大。对于现有策略的复杂更新 (kyverno-update) ，成功率骤降。

研究还强调了一个主要问题: 非确定性 (Non-determinism)。 一个 Agent 可能会在第一次运行时解决问题，而在第二次运行时失败，这仅仅是因为 LLM 生成代码的方式或环境响应的微小变化。

FinOps 表现: 最艰难的挑战

财务运营的结果最为严峻。

表 6: FinOpsAgent 在 FinOps 场景上的评估。

如表 6 所示, GPT-4o 在诊断成本问题上取得了 33% 的成功率，但 0% 的 Agent 能够成功缓解问题 (所有模型的 pass@1 均为 0%) 。

为什么？FinOps 需要平衡相互冲突的目标 (成本与性能) 并理解复杂的自动伸缩逻辑。Agent 经常能识别出高成本，但推荐的操作要么会让应用崩溃 (如删除所有副本) ，要么无法正确浏览配置文件。

探秘 AI 的大脑

为了理解 Agent 为何失败或成功，ITBench 捕捉了它们的“轨迹”——即它们思考和行动的逐步日志。

以下是使用 Llama-3.3 的一个成功轨迹示例:

图 12: Llama-3.3-70b-instruct 在场景 15 中的轨迹示例

在这个案例 (场景 15) 中，Agent:

检查警报: 发现高错误率。
调查: 使用 kubectl 检查 checkout 部署 (deployment)。
推理: 注意到只有一个副本。
行动: 将部署扩容到 2 个副本。
成功: 补丁应用成功，服务稳定。

有趣的是，研究人员指出，在这个特定案例中，Agent 实际上错误识别了根本原因 (实际上是 HTTP 请求损坏) ，但扩容服务解决了症状。这反映了人类 SRE 的行为: 有时你并没有完全理解 Bug 就解决了宕机！

然而，失败更为常见。在许多“困难”场景中，Agent 会陷入循环，重复运行相同的 kubectl 命令，或者臆造不存在的工具语法，直到超时。

结论: 前进之路

ITBench 代表了 AI 评估的一个重大飞跃。它让我们从静态文本基准测试转向了混乱、不可预测的实时 IT 运维世界。

研究的关键结论很明确:

为时尚早。 SRE 的成功率约为 14%，FinOps 缓解成功率为 0%，AI Agent 尚未准备好自主运行生产系统。
上下文为王。 当提供丰富的可观测性数据 (Trace、日志) 和专用工具时，Agent 的表现显著更好。
复杂度是杀手。 当前的 LLM 难以处理涉及多种技术的“困难”场景所需的多步推理。

ITBench 提供了下一代 AI Agent 训练的“演练场”。通过标准化我们衡量成功的方式——使用真实的集群、真实的故障和真实的指标——我们可以更接近自愈、安全和高效 IT 系统的愿景。

目前，站点可靠性工程师 (SRE) 还可以高枕无忧: AI 暂时还不会抢走你的工作——但它可能很快就会成为一个非常有用的实习生。

54 亿美元的难题#

现代 IT 的三大支柱#

幕后机制: ITBench 架构#

自动化框架#

Agent 循环: POMDP#

制造混乱: 场景#

1. SRE 场景 (修复故障)#

2. CISO 场景 (合规即代码)#

3. FinOps 场景 (优化)#

复杂度分级#

我们如何衡量成功？#

结果: AI Agent 准备好投入生产了吗？#

SRE 表现: 任重道远#

CISO 表现: 较好，但不稳定#

FinOps 表现: 最艰难的挑战#

探秘 AI 的大脑#

结论: 前进之路#