人工智能实现自我研发 (R&D) 自动化的前景是现代计算机科学中最具变革性——同时也最具潜在风险——的概念之一。如果一个 AI 系统能够进行研发以提升自身，我们可能会进入一个能力加速的反馈循环。

但我们离这个现实还有多远？我们知道大型语言模型 (LLM) 可以编写 Python 脚本并解决 LeetCode 问题。然而，要回答“自我进化”这个问题，需要衡量一些更难的东西: 研究工程 (Research Engineering) 。

在 METR (模型评估与威胁研究) 的一篇新论文中，研究人员介绍了 RE-Bench , 这是一个严格的基准测试，旨在在现实的机器学习优化任务中，将前沿 AI 智能体与人类专家进行对决。

本文将拆解这篇 RE-Bench 论文，探讨评估是如何运作的、“人机大战”背后的方法论，以及那些耐人寻味的结果——这些结果表明，虽然 AI 智能体速度惊人，但它们仍然缺乏人类专家那种解决深度问题的持久力。

问题所在: 衡量“真正的”研究

目前的 AI 编程能力基准测试 (如 SWE-bench) 主要关注软件工程——即在标准代码库中修复错误或实现功能。虽然这些很有价值，但它们并未涵盖 AI 研发 所需的特定技能。

前沿 AI 研究涉及高层面的实验: 推导缩放定律 (scaling laws) 、优化 GPU 内核、稳定训练过程以及调试复杂的收敛问题。这些任务通常是开放式的，需要处理大量的计算资源 (如 H100 GPU) ，并要求结合理论知识与工程毅力。

RE-Bench 的作者旨在解决当前评估中存在的三个具体问题:

可行性 (Feasibility) : 确保任务实际上是人类可解的 (许多基准测试包含不可能完成或本身有缺陷的任务) 。
生态效度 (Ecological Validity) : 任务必须类似于 OpenAI、Anthropic 或 DeepMind 等实验室中实际进行的工作。
直接的人类对比 (Direct Human Comparison) : 我们不能凭空判断 AI 的分数；我们需要知道在完全相同的限制条件下，人类专家的表现如何。

RE-Bench: 设定与架构

RE-Bench 由七个手工构建的环境组成。为了确保公平竞争，研究人员对 AI 智能体和人类参与者的测试条件进行了标准化。

图 1: RE-Bench 是七个手工构建环境的集合，旨在测试当前 AI 系统的 AI 研发能力。人类和 AI 智能体在相同条件下进行测试。

如图 1 所示，该设置非常严格。无论是通过 VSCode 连接的“人类智能体”，还是使用脚手架 (scaffold) 的 AI 模型，他们都会收到:

目标: 例如，“加速此训练脚本”或“修复此损坏的模型”。
资源: 访问具有显著算力的虚拟机 (1 到 6 个 H100 GPU) 。
时间限制: 严格的预算 (通常为 8 小时) 。
初始材料: 一个可以运行但性能较差的代码库。
评分: 他们可以运行一个脚本来检查进度 (例如，验证集损失或运行时间) 。

七个环境

这篇论文的核心在于任务的多样性。它们涵盖了 AI 管道的不同阶段，从底层的内核优化到高层的架构决策。

表 2: 环境摘要。环境和参考方案的详细描述可在附录 C 中找到。

以下是表 2 中挑战的细分:

优化 LLM Foundry (Optimize LLM Foundry) : 智能体必须在不改变模型行为的情况下减少训练脚本的运行时间。这测试了系统工程和性能分析技能。
优化内核 (Optimize a Kernel) : 一个底层任务，智能体必须编写自定义 GPU 内核 (使用 Triton) 来计算前缀和。这是“硬核”工程。
修复嵌入层 (Fix Embedding) : 智能体面对一个嵌入层损坏的模型，必须恢复其性能。这测试了调试和假设生成能力。
缩放定律实验 (Scaling Law Experiment) : 智能体必须通过进行较小规模的实验来预测大规模训练运行的最佳超参数。这模仿了深度学习中的“科学研究”部分。
受限架构 MLM (Restricted Architecture MLM) : 在没有标准原语 (如除法或取幂) 的情况下构建掩码语言模型。这测试了数学创造力。
微调 GPT-2 用于问答 (Finetune GPT-2 for QA) : 在没有真实标签 (ground truth) 数据的情况下，使用强化学习 (RL) 或类似方法训练模型成为聊天机器人。
Rust 编程竞赛的脚手架 (Scaffolding for Rust Codecontests) : 编写一个 Python 脚本，提示 LLM 解决 Rust 编程问题。这测试了“AI 工程”或提示工程技能。

评分方法

由于每个任务都有不同的指标 (秒、准确率、损失) ，研究人员对分数进行了归一化处理。

公式: y_n = (y - y_s) / (y_r - y_s)

归一化分数 (\(y_n\)) 将 起始方案 (Starting Solution) 设为 0，将 参考方案 (Reference Solution) (由任务作者编写的强力方案) 设为 1。理想情况下，1.0 分意味着智能体的表现达到了基准测试创建者的预期水平。然而，如果智能体找到了比作者更好的解决方案，分数可以超过 1.0。

人类基准

这篇论文最有力的贡献之一是人类数据。研究人员没有猜测一项任务需要多长时间；他们招募了 61 位专家 执行了 71 次运行 。

这些不仅仅是随机参与者。他们包括来自顶尖大学 (MIT、斯坦福、伯克利) 的研究生，以及在主要实验室 (DeepMind、OpenAI) 有经验的专业人士。

表 5: 我们人类专家基准运行的统计摘要。

如表 5 所示，来自专业网络的专家表现 (平均分 0.98) 明显优于来自一般招聘渠道的申请人。这一区别至关重要: 要自动化前沿研究，AI 需要匹配的是顶尖专家，而不仅仅是普通工程师。

图 4: 7 个 AI 研发环境中人类专家分数随时间的变化。

图 4 展示了人类工作的轨迹。注意这条曲线: 人类起步较慢。他们花时间阅读代码、理解问题并进行设置。但一旦他们开始提交，分数就会稳步上升。关键是，82% 的专家尝试获得了严格的非零分数，证明了这些任务是可解的，但具有难度。

实验: 龟兔赛跑

研究人员测试了两个主要的模型系列: Claude 3.5 Sonnet (Anthropic) 和 o1-preview (OpenAI)。他们使用了两种不同的“脚手架” (即包装 LLM 以使其能够访问工具的代码) :

Modular (模块化) : 一个通用的脚手架，允许文件编辑和命令执行。
AIDE: 一个更专业的脚手架，专为数据科学设计，能够对解决方案进行树搜索。

基于花费时间的结果

最引人注目的发现是人类和 AI 工作方式的差异。

图 5: 7 个环境中随时间花费达到的平均 (归一化) 分数。

仔细观察图 5。

AI (蓝线/橙线) : AI 智能体起步飞快。在最初的 30 分钟到 2 小时内，它们通常就能拿出运行良好且得分尚可的解决方案。
人类 (黑线) : 人类起步较慢。然而，请看 2 小时左右的交叉点。

当 AI 智能体进入平台期时，人类在继续优化、调试和改进。到 8 小时标记时，人类专家的平均表现超过了最好的 AI 智能体。这表明目前的智能体擅长摘取“低垂的果实”——应用标准的修复或优化——但在需要从初期失败中恢复并进行深度调试的“迭代研究”苦差事中，表现得很挣扎。

基于采样 (Best-of-K) 的结果

既然 AI 比人工更便宜，如果我们让 AI 尝试 10 次、20 次或 100 次，然后取最好的结果会怎样？这就是所谓的 Best-of-k 评估。

图 2: 在不同的样本量和时间范围分配下，按总时间预算观察到的最佳 score@k 结果。

图 2 可以说是论文中最重要的图表。它比较了在特定 总时间预算 (并行尝试的总和) 下的表现。

在 2 小时总预算下: AI 占主导地位。最好的 AI 智能体得分比人类高出 4 倍。如果你需要立竿见影的快速修复，AI 获胜。
在 8 小时总预算下: 人类以微弱优势超过了最高 AI 得分。
在 32 小时总预算下: 人类的优势扩大。人类的得分是顶级 AI 智能体的 2 倍。

这揭示了当前智能体的一个关键局限性: 与人类在长时间会话中学习和适应的能力相比，单纯投入更多时间 (通过更长的上下文窗口或更多尝试) 给 AI 带来的边际收益是递减的。

成本因素

然而，性能并不是唯一的衡量标准。还有经济因素。

图 11: AI 智能体按代币成本和人类专家按支付金额的最佳 score@k 结果。

图 11 按成本展示了结果。x 轴是对数坐标。

AI 智能体每次 8 小时的运行成本约为 123 美元 。
人类专家同一时期的成本约为 1855 美元 。

用一个人类专家一天的价格，你可以运行一支智能体大军。这表明，即使智能体个体的能力较弱，它们在“暴力破解”研究方向上的经济可行性已经显现。

定性分析: 天才与愚蠢

数字告诉我们智能体表现如何，但定性分析告诉我们 为什么。研究人员发现，智能体拥有渊博的知识，但推理能力脆弱。

“超人般”的成功

在 优化内核 任务中，智能体产生了令人震惊的结果。编写 Triton 内核极其困难，需要许多人类专家 (参与研究的是通用机器学习研究员，不一定是 GPU 优化专家) 都缺乏的利基知识。

图 18: 优化内核的最佳智能体解决方案。智能体实现了自定义 CUDA 内核，并创建了一个比某些人类专家更快的解决方案。

如图 18 所示，o1-preview 智能体编写了一个自定义内核，其运行速度显著快于参考方案，实际上是“通关”了游戏。它利用了复杂的内存优化，这是研究中的人类专家未能发现的。这凸显了 LLM 的一个关键优势: 它们读过所有的文档，包括那些晦涩难懂的部分。

令人沮丧的失败

相反，智能体在“长程代理能力 (long-horizon agency) ”方面表现挣扎——即制定计划、注意计划何时失败并进行调整的能力。

图 15: 一个 Claude 3.5 Sonnet 智能体假设重新训练嵌入层超出了范围，尽管它有 8 小时的 H100 使用权。

在 修复嵌入层 任务中 (图 15) ，一个智能体正确地识别出嵌入层已损坏。然而，它固执地假设重新训练它们是“超出范围”或不可能的，尽管它有 8 小时的 H100 算力可用。它花了整个会话时间尝试注定会失败的变通方法。

人类专家在看到变通方法失败后，很可能会质疑他们的假设。然而，智能体却陷入了错误前提的死循环中。

同样，智能体在资源管理方面也很吃力。如果一个进程没有正确终止 (“僵尸进程”) 并占用了 GPU 内存，智能体通常无法杀掉它，导致反复出现“内存溢出 (OOM) ”错误。它们随后会尝试缩小模型以适应内存，从而降低了性能，而不是简单地运行一个 kill 命令。

按环境类型比较

图 9: 7 个环境中智能体与人类表现的比较。

图 9 按具体任务细分了性能差距。

智能体获胜或打平: “优化内核” (利基知识胜出) 。
人类主导: “受限架构 MLM”和“优化 LLM Foundry”。这些任务可能需要更具创造性的工程设计，或者需要在复杂的、相互依赖的代码库中导航，而在那里，一个小错误就会导致全盘崩溃。

对 AI 研发未来的启示

RE-Bench 论文为当前的能力提供了一个既令人清醒又令人兴奋的快照。

结论: AI 智能体目前还不能完全自动化机器学习研究工程师的角色。它们缺乏在 8 小时的研究苦战中所需的耐力、调试直觉和“常识”。

然而 , 差距比许多人预期的要小，特别是在较短的时间范围内。

速度: 智能体生成解决方案的速度比人类快 10 倍。
成本: 智能体的成本低一个数量级。
知识: 智能体拥有关于利基库 (如 Triton) 的百科全书式知识，这可以超越通才型的人类专家。

作者总结道，虽然我们尚未达到自动化自我进化的临界点，但轨迹是清晰的。随着上下文窗口的增长和脚手架的改进 (允许智能体在行动前更好地“思考”或管理其记忆) ，人类在 8 小时窗口内的优势可能会被侵蚀。

对于今天的学生和研究人员来说，这意味着工作方式的转变。未来不一定是 AI 立即取代研究人员，而是研究人员作为廉价、快速的智能体大军的“管理者”，让智能体处理初步的暴力实验，而将深度的、结构化的思考留给人类——至少目前如此。

问题所在: 衡量“真正的”研究#

RE-Bench: 设定与架构#

七个环境#

评分方法#

人类基准#

实验: 龟兔赛跑#

基于花费时间的结果#

基于采样 (Best-of-K) 的结果#

成本因素#

定性分析: 天才与愚蠢#

“超人般”的成功#

令人沮丧的失败#

按环境类型比较#

对 AI 研发未来的启示#