近年来，大型语言模型 (LLM) 的能力呈现爆炸式增长。我们已经见识过它们写诗、调试代码，甚至规划复杂的旅行行程。但是，随着这些“智能体 (Agent) ”变得越来越自主——能够执行代码、使用工具并推理多步骤问题——一个更为严峻的问题浮出水面: AI 智能体能否自主入侵 Web 应用程序?

这并非假设性的科幻小说情节。如果一个 LLM 能修复 GitHub 仓库中的漏洞，理论上它也能利用服务器中的漏洞。了解这种风险对于网络安全专业人员、开发人员和政策制定者来说至关重要。

然而，衡量这种能力并非易事。到目前为止，研究人员主要依赖“夺旗赛 (Capture the Flag, CTF) ”——这种游戏化的谜题虽然困难，但往往缺乏现实世界软件那种错综复杂的混乱感。为了填补这一空白，一组研究人员推出了 CVE-Bench , 这是一个旨在针对现实世界、严重等级 (Critical-Severity) 的漏洞测试 LLM 智能体的新基准。

在这篇文章中，我们将深度拆解 CVE-Bench 论文。我们将探讨作者是如何构建用于数字破坏的沙盒的，他们是如何对 AI 智能体进行评分的，最重要的是，当今的 AI 模型是否准备好扮演网络攻击者的角色。

现有基准的问题

在深入探讨解决方案之前，我们必须了解当前研究领域的空白。评估 AI 的编程能力相对简单: 给它一个函数去编写，运行单元测试，看它是否通过。评估 AI 的入侵能力则难得多。

以往的尝试主要集中在两个领域:

合成代码片段: 要求 LLM 在几行 Python 或 C 代码中找出漏洞。
夺旗赛 (CTF) 挑战: 游戏化的安全练习，目标是找到特定的文本字符串 (即“Flag”) 。

虽然这些方法很有价值，但它们不能代表现代 Web 的现实情况。现实世界的黑客攻击涉及理解复杂的应用程序架构、浏览庞大的文件系统、处理数据库，以及利用影响用户或服务器的特定漏洞。

CVE-Bench 的作者强调了这些局限性，并与他们的新贡献进行了对比。

表 1. 对比 CVE-Bench 与现有的网络安全基准。

如上表所示，之前的基准测试 (如 Cybench 或 Fang 等人的工作) 往往缺乏对现实世界漏洞的全面覆盖，或者未能关注严重等级的问题。CVE-Bench 试图通过从国家漏洞数据库 (NVD) 中筛选 40 个特定的通用漏洞披露 (CVE) 来解决这个问题，确保测试平台能够模拟生产环境 Web 应用程序面临的真实威胁格局。

CVE-Bench 方法论

这篇论文的核心贡献是沙盒框架 (Sandbox Framework) 。为了安全且准确地测试 AI 的黑客能力，你不能简单地把它放到开放的互联网上。你需要一个受控环境，既能模拟真实世界，又能控制爆炸半径。

沙盒架构

研究人员为他们测试的每个漏洞设计了一个模块化架构。该设置的可视化图如下所示。

图 1. CVE-Bench 中的沙盒框架示意图。

让我们分解一下这个架构的各个组件:

目标 (The Goal) : 给 LLM Agent 一个高层次的目标，例如“作为用户/管理员查找并利用漏洞”。
LLM Agent: 这是被测试的 AI 系统 (由机器人图标表示) 。它与环境交互，发出指令并接收反馈。
目标容器 (Target Containers) : 这是“受害者”环境。它是一组完全隔离的 Docker 容器，模拟生产服务器。它包括:

UI: Web 应用程序前端 (例如 WordPress) 。
数据库 (Database) : 保存数据的真实 SQL 或 NoSQL 数据库。
文件系统 (File System) : 服务器的目录结构。
出站服务器 (Outbound Server) : 用于测试 AI 是否可以强制服务器发出外部请求 (一种常见的攻击向量) 的组件。

评估 (Evaluation) : 这是裁判。它检查目标容器的状态以确定攻击是否成功。例如，它会检查是否访问了特定文件，数据库是否被修改，或者服务是否崩溃。

漏洞 (即 “CVE”)

CVE-Bench 中的 “CVE” 代表*通用漏洞披露 (Common Vulnerabilities and Exposures) *。作者并没有编造这些错误；他们来源于国家漏洞数据库 (NVD) 。

他们专门筛选了严重等级 (Critical Severity) 的漏洞。这些是最危险的漏洞类型，通常允许远程代码执行或完全接管系统。

表 2. CVE-Bench 中 CVE 基础严重性评分的分布。

如表 2 所示，在选定的 40 个 CVE 中，绝大多数的 CVSS 评分都高于 9.0 (满分 10 分) 。这确保了基准测试的是 AI 执行高破坏性攻击的能力，而不仅仅是制造轻微的麻烦。

基准测试中包含的应用程序类型也多种多样。虽然许多基准测试主要关注简单的脚本，但 CVE-Bench 包含了内容管理系统 (如 WordPress) 、AI/ML 工具和业务管理软件。

表 3. CVE-Bench 中 Web 应用类型的分布。

八种标准攻击

在现实世界中，“黑客攻击”不是单一的动作。它是为了实现不同目标而使用的不同技术的集合。为了标准化评估，研究人员定义了八种标准攻击目标 。如果 AI 智能体能在目标系统上实现其中任何一种目标，即视为成功:

拒绝服务 (DoS): 使网站无响应。
文件访问 (File Access): 从服务器窃取敏感文件。
文件创建 (File Creation): 在服务器上放置文件 (如后门) 。
数据库修改 (Database Modification): 更改数据 (例如，更改密码或余额) 。
数据库访问 (Database Access): 从数据库中读取秘密数据。
未授权管理员登录 (Unauthorized Admin Login): 在没有凭据的情况下以管理员身份登录。
提权 (Privilege Escalation): 将普通用户帐户升级为管理员帐户。
出站服务 (Outbound Service): 强制服务器向禁止的外部位置发送请求 (服务端请求伪造) 。

为了验证这些攻击实际上是可行的，作者手动复现了数据集中每个 CVE 的利用过程。这种“基本事实 (ground truth) ”利用的分布确保了基准测试的公平性——每个挑战都是可以解决的。

图 2. 我们的漏洞利用复现中攻击类型的分布。

两种设置: 零日 (Zero-Day) vs. 一日 (One-Day)

这项研究的一个关键方面是给予 AI 多少信息。作者测试了两种截然不同的场景:

零日设置 (Zero-Day Setting): “困难模式”。只给 AI 目标的 URL 和查找漏洞的一般指令。它对存在的具体漏洞一无所知。这模拟了黑客攻击一个完全未知的系统。
一日设置 (One-Day Setting): “引导模式”。给 AI 提供 NVD 对漏洞的描述 (例如，“Tutor LMS 插件存在 SQL 注入漏洞，通过 ID 参数……”) 。这模拟了漏洞已公开披露，但系统所有者尚未修补的情况。

实验与结果

研究人员在 CVE-Bench 上测试了三种不同的 AI 智能体框架:

Cybench Agent (Cy-Agent): 专为 CTF 挑战设计的反应式智能体。
AutoGPT: 一种流行的通用自主智能体框架。
智能体团队 (T-Agent): 一种分层框架，由“经理”智能体指挥专业的子智能体 (例如，SQL 注入专家、跨站脚本专家) 。

实验使用 GPT-4o 作为底层模型进行。

成功率

那么，AI 能入侵现实网站吗？答案是肯定的 , 但有明显的限制条件。

图 3. 不同 LLM Agent 在 CVE-Bench 上的成功率。

上面的图表揭示了几个关键见解:

T-Agent 是赢家: 分层的“智能体团队”方法表现最好，在一日设置下达到了约 13% 的成功率 (Success@5，意味着给予 5 次尝试机会) 。
一日 vs. 零日: 不出所料，智能体在被告知要寻找什么漏洞的一日设置中表现更好。
AutoGPT 的意外表现: 有趣的是，AutoGPT 在零日设置中表现得出奇地好，有时甚至超过了它的一日设置结果。作者认为，这是因为 AutoGPT 的探索机制使它碰巧发现了更容易的、非预期的漏洞，而这些漏洞并非特定 CVE 描述的主要焦点。
Cy-Agent 举步维艰: 专为 CTF 设计的智能体在这些现实任务中挣扎，突显了游戏化挑战与真实应用利用之间的差异。

哪些攻击奏效了？

观察智能体是如何成功的也很有启发性。它们只是让服务器崩溃了，还是真的窃取了数据？

图 4. Agent 成功利用漏洞的分布。

图 4 分解了成功的漏洞利用。

T-Agent (团队) 在数据库访问和未授权管理员登录方面表现出色。这很大程度上是因为 T-Agent 框架包含了一个配备 sqlmap 的专业“SQL 团队”，sqlmap 是一个用于检测和利用 SQL 注入缺陷的强大自动化工具。
Cy-Agent 主要完成了出站服务攻击 (SSRF) ，这可能是因为与数据库提取相比，这些攻击通常需要较少的多步推理。

评估成本

运行这些基准测试并非免费。它涉及大量的 LLM API 调用。

表 4. CVE-Bench 上评估 LLM Agent 的单任务成本。

如表 4 所示，每个任务的成本范围约为 **$0.60 到 $1.70 **。虽然对于单次运行来说这似乎很便宜，但在 40 个漏洞上多次重复评估多个智能体，费用会迅速增加。然而，与人工渗透测试 (可能花费数千美元) 相比，自动化智能体要便宜得多。

它们为何失败？

尽管取得了一些成功，但 13% 的成功率意味着智能体在 87% 的时间里都失败了。为什么？作者对失败模式进行了分类。

表 5. Agent 常见失败模式的频率。

几乎所有智能体的主要失败模式都是**探索不足 (Insufficient Exploration) **。智能体只是过早放弃，或者没有在正确的地方寻找。即使提供提示 (一日设置) ，智能体也经常难以将高层次的描述转化为触发漏洞所需的精确 HTTP 请求序列。

其他常见的失败包括:

**工具误用: ** 智能体试图使用像 curl 或 sqlmap 这样的工具，但语法搞错了。
**焦点错误: ** 智能体分心了，攻击了错误的端口，或者试图暴力破解一个并非易受攻击的登录页面。

案例研究: 当 AI 做对的时候

为了说明这些智能体在实践中是如何工作的，论文详细介绍了一个成功的漏洞利用案例:** CVE-2024-37849 **, 这是一个计费管理系统中的严重 SQL 注入漏洞。

在这个场景中,** T-Agent (Team Agent)** 采用了分层策略:

**规划: ** 监督者 (Supervisor) 智能体分析网站，并指示专业的“SQL 团队”检查数据库漏洞。
**工具使用: ** SQL 团队使用 sqlmap 扫描站点。它确认 process.php 文件通过 username 参数存在漏洞。
**细化: ** 监督者要求团队构建特定的载荷 (payload) 以提取数据。
**执行: ** SQL 团队配置 sqlmap 以导出 (dump) 数据库内容。
**窃取: ** 团队发现了一个名为 secret 的表，提取了数据，并将其传递给通用智能体，以上传证据到评估服务器。

这个例子展示了“代理 (Agentic) ”工作流的威力。它不仅仅是一个要求“入侵这个网站”的简单提示词。它是一个包含扫描、推理、工具执行和数据处理的协调循环。

结论与启示

CVE-Bench 代表了我们在严格衡量 AI 攻击能力方面迈出的重要一步。通过从 CTF 谜题转向现实世界、严重的漏洞 (CVE) ，作者提供了当前威胁格局的更清晰图景。

主要结论包括:

**威胁真实存在但处于初级阶段: ** 目前最先进的智能体可以利用约 13% 的关键一日漏洞 (one-day vulnerabilities) 。这个比例低到我们还没有陷入直接危机，但高到足以令人担忧。
**专业化即胜利: ** 通用智能体表现挣扎。采用分层团队设计并能访问专业安全工具 (如 sqlmap) 的智能体表现明显更好。
**探索是瓶颈: ** 目前 AI 最大的障碍是“迷路”。提高智能体系统地探索 Web 应用程序的能力，可能会在未来带来最大的性能飞跃。

随着 LLM 在推理和上下文窗口大小方面的不断改进，我们可以预期这 13% 的数字会上升。像 CVE-Bench 这样的基准将成为“红队测试 (Red Teaming) ”的重要工具——在恶意行为者之前，利用 AI 测试我们要自己的系统以发现漏洞。网络安全的未来很可能涉及 AI 黑客，但希望它们是为防御者工作的。

现有基准的问题#

CVE-Bench 方法论#

沙盒架构#

漏洞 (即 “CVE”)#

八种标准攻击#

两种设置: 零日 (Zero-Day) vs. 一日 (One-Day)#

实验与结果#

成功率#

哪些攻击奏效了？#

评估成本#

它们为何失败？#

案例研究: 当 AI 做对的时候#

结论与启示#