引言

像 GPT-4 这样的大语言模型 (LLM) 已经改变了我们对人工智能的预期。我们已经习惯了它们编写代码、总结历史，甚至推理逻辑谜题的能力。最近，机器人学家开始将这些“大脑”连接到机器人的“身体”上，让 LLM 生成高层规划或编写控制代码。然而，这里仍存在一个巨大的鸿沟。虽然 LLM 理解语言，但它们并不天生“理解”在桌子上滑动冰球或将绳子甩成特定形状所需的复杂底层物理规律。

通常，解决这些动态操控任务需要在海量数据集上训练专门的神经网络，或者精心建模摩擦力和质量等物理属性。但是，如果我们不需要训练新模型呢？如果让 LLM 完成句子的那种“模式匹配”能力，也能让它调整机器人的物理动作呢？

在论文 《In-Context Iterative Policy Improvement for Dynamic Manipulation》 (用于动态操控的上下文迭代策略改进) 中，研究人员 Mark Van der Merwe 和 Devesh K. Jha 探索了这种可能性。他们提出了一种称为上下文策略改进 (ICPI) 的方法。他们没有要求 LLM 去“懂”物理，而是将机器人的学习过程视为一个序列补全问题。通过向 LLM 提供包含“尝试与修正”的历史记录，模型就能学会预测实现物理目标所需的调整——而无需进行任何梯度更新。

图 1: 我们研究了用于迭代改进动态操控任务策略参数的上下文学习。

如图 1 所示，这种方法允许机器人通过极小的数据集，在仿真和真实世界中迭代地提高其在复杂任务 (如滑动物体或挥动绳索) 上的表现。

背景: 动态操控的挑战

要理解这项研究的重要性，我们首先必须区分准静态操控和动态操控。

准静态操控: 想象一个机器人慢慢拿起一个杯子。受力主要由重力和接触主导；惯性的作用很小。如果机器人停止移动，杯子也会停在原地。
动态操控: 想象抛球、挥鞭或在吧台上滑过一个啤酒杯。这些动作依赖于速度、加速度和动量。如果机器人在动作中途停止，物体仍会继续移动。

动态操控扩展了机器人的工作空间和效率，但也出了名的困难。成功取决于隐性的物理属性——物体的质量、表面的摩擦力或绳索的密度。这些属性通常对摄像头是不可见的，且难以直接测量。

人类通过迭代改进来解决这个问题。如果你试图把杯垫滑给朋友却滑得太近停下了，下次你就会推得更用力些。你不需要解物理方程；你观察误差 (停得太近) 并调整你的策略 (推得更用力) 。研究人员利用 Transformer 的上下文学习 (ICL) 能力复制了这种类似人类的试错循环。

权重内学习 vs. 上下文学习

LLM 表现出两种类型的学习方式:

权重内学习 (In-Weights Learning) : 在大规模预训练阶段存储在神经网络参数 (权重) 中的知识。这就是模型知道英语语法或历史事实的方式。
上下文学习 (In-Context Learning, ICL) : 在推理时从提供的提示词 (Prompt) 中“即时”学习新模式的能力。如果你给 LLM 三个关于某种自创文字游戏的例子，它通常能解决第四个例子，即使它在训练中从未见过这个游戏。

研究人员假设 LLM 是通用模式机器 。如果机器人动作与产生误差之间的关系作为一种模式呈现在文本提示中，LLM 应该能够预测正确的调整，从而有效地在上下文中学习任务的“物理规律”。

核心方法: 上下文策略改进 (ICPI)

该研究的目标是找到最佳策略参数 (\(\theta^*\)) ——例如机械臂的速度和角度——以最小化任务代价 (\(C_\tau\)) 。

公式 1

这里，\(s_0\) 是初始状态，\(T_\tau\) 代表世界的动力学 (物理过程实际如何发生) 。研究人员将其表述为一个迭代问题。他们希望学习一个改进算子——一个观察机器人刚才的动作并告诉它如何修正的函数。

策略改进算子

设 \(\theta^i\) 为第 \(i\) 次尝试时的机器人参数，\(s_{1:T}^i\) 为产生的轨迹 (发生了什么) 。我们需要一个函数 \(f\) 来输出参数的变化量 \(\Delta \theta^i\):

公式 6

传统上，这个函数 \(f\) 会是一个通过强化学习或监督学习训练的神经网络。这需要训练数据和时间。 ICPI 的核心创新是用预训练的 LLM 替换这个经过训练的网络。

研究人员不再训练权重，而是构建了一个包含过去经验数据集 \(\mathcal{D}\) 的文本提示。每个经验包含使用的参数、观察到的误差以及本应进行的修正。

公式 7

这将物理问题转化为序列补全问题。提示词看起来像这样:

“当参数为 X 且误差为 Y 时，修正量为 Z。”
“当参数为 A 且误差为 B 时，修正量为 C。”
“当前参数为 P 且误差为 Q。修正量是……” -> [LLM 在此补全]

图 2: 我们提出的上下文策略改进 (ICPI) 方法概览。我们将当前策略的策略参数和误差进行分词处理，并连同来自小型策略改进数据集的示例一起提供给提示中的 LLM。然后 LLM 输出策略参数的增量。

图 2 可视化了这个循环:

执行 (Execution) : 机器人使用参数 \(\theta^i\) 尝试任务。
观察 (Observation) : 系统记录误差 \(e^i\) (例如，偏离目标 10 厘米) 。
检索 (Retrieval) : 系统从小型数据集中查找类似的过往示例。
提示 (Prompting) : 这些示例加上当前误差被发送给 LLM (GPT-4o)。
更新 (Update) : LLM 预测 \(\Delta \theta^i\)，将其加到当前参数上得到 \(\theta^{i+1}\)。

分词处理: 将物理转化为文本

为了实现这一点，物理数据必须转换为 LLM 可以处理的 Token。

参数 (\(\theta\)): 直接转换为文本数字 (例如，速度 “0.5”) 。
状态轨迹 (\(s_{1:T}\)): 输入每一毫秒的原始坐标数据量太大且噪音太多。相反，研究人员计算到目标的相对误差 (\(e^i = s_T^i - \tau_g\))。

例如，如果机器人正在滑动冰球，输入给 LLM 的“状态”不是冰球的完整路径，而是一个代表它距离目标停止位置有多远的向量。这捕捉了关键信息: “我用了 5 的力推，结果它在距离目标 2 米处停下了。”

选择正确的示例

你无法将成千上万次过去的尝试放入单个 LLM 提示中。上下文窗口是有限的。因此，系统使用K-近邻算法 (KNN) 来寻找最相关的示例。

当机器人生成查询 (当前参数 + 当前误差) 时，系统会在数据集中搜索与此查询最相似的 \(k\) 个示例。这些 \(k\) 个示例 (实验中设为 20) 被格式化到提示中。这确保了 LLM 是基于与机器人当前面临的情况相关的历史进行推理的。

数据收集: 算法蒸馏

数据集 \(\mathcal{D}\) 从何而来？研究人员使用了一种称为算法蒸馏的过程。他们使用暴力搜索算法 (这种算法缓慢且昂贵) 在离线状态下解决各种条件下的任务。这些成功的运行提供了参数应该如何调整的“真值”。然后，LLM 仅通过少量示例就能学会模仿这种昂贵的搜索过程，从而在实际执行中大幅加快速度。

实验设置

团队在涉及仿真和真实机器人的五个任务变体上测试了 ICPI。

滑动 (Sim): 机器人击打冰球使其滑向目标。摩擦力和冰球大小会变化。
定点滑动 (Sim): 同上，但目标位置会变化 (目标条件化) 。

代价函数即冰球最终位置与目标之间的距离:

绳索摆动 (Sim): 机器人挥动一根柔性绳索以击中目标。杆长和绳长会变化。

这更难，因为绳索是可变形的。代价是绳索尖端在挥动过程中与目标的最小距离:

定点绳索摆动 (Sim): 目标位置变化的绳索摆动。
真实定点滚动 (Real Robot): 真实的物理机器人击打台球，使其滚动到目标像素位置。

结果与分析

研究人员将 ICPI 与几个基准进行了比较:

随机尝试 (Random Shooting): 随机猜测参数变化。
贝叶斯优化 (Bayesian Optimization): 调整参数的标准数学方法。
权重内推理 (In-Weights Reasoning): 要求 LLM 通过在提示中描述物理过程来直接解决问题，依赖其预训练知识而不是基于示例的模式匹配。
线性 KNN (Linear KNN): 拟合到检索示例的简单线性回归模型。

性能比较

表 1 总结的结果显示，ICPI (最后一行) 在几乎所有环境中始终实现了最低的任务代价。

表 1: 最终最佳策略平均性能比较

关键观察:

ICPI 优于随机尝试和贝叶斯优化: 它的样本效率更高，能更快收敛到好的解。
ICPI vs. 权重内推理: 有趣的是，“权重内推理”基准表现不佳。简单地向 GPT-4 描述物理过程 (“你正在推一个冰球……”) 是不够的。模型无法在其“脑海”中模拟详细的动力学。然而，通过 ICPI 向其展示错误的模式显然行之有效。这证实了“通用模式机器”的假设。
ICPI vs. 线性模型: 虽然简单的线性模型 (Linear KNN-20) 表现出人意料地好，但基于 LLM 的 ICPI 通常超过了它，特别是在像真实世界球体滚动这样的复杂任务中。这表明 LLM 捕捉到了简单回归所遗漏的非线性关系。

收敛速度

在动态操控中，你希望快速学习以最大限度地减少机器人的磨损。 图 3 显示了学习曲线。

图 3: 三个任务中每一步最佳策略的任务代价收敛图，比较了随机尝试、分段线性建模和我们提出的方法。

滑动 (图 a): ICPI (红线) 在 5-8 步内将误差降至接近零。
真实机器人滚动 (图 c): 在真实世界中，ICPI 迅速超越随机尝试和线性基准，在不到 10 次试验中找到成功的策略。这对于数据收集昂贵的现实世界部署至关重要。

定性成功

图 4 可视化了迭代改进过程。

第一行 (滑动): 在 \(t=1\) 时，冰球停得太远。到 \(t=5\) 时，机器人已经调整了击打角度和力度以更接近目标。到 \(t=18\) 时，它击中了目标。
第二行 (绳索摆动): 机器人调整挥动速度和关节角度。你可以看到绳索的弧线在变化，直到它与目标“X”相交。

图 4: 使用我们提出的 ICPI 对滑动和绳索摆动任务进行上下文迭代策略改进的定性示例。

消融研究: 模型选择重要吗？

研究人员还测试了不同的 LLM。他们发现 GPT-4o 显著优于 GPT-3.5-turbo 和 GPT-4o-mini。这表明较大模型的“推理”或“模式匹配”质量对于解析动态物理数据中的复杂关系至关重要。

此外，他们发现明确地对误差 (到目标的距离) 进行分词处理，比分别给 LLM 提供原始状态坐标和目标坐标更有效。这表明虽然 LLM 很聪明，但进行一些“预处理” (为它们计算误差) 有助于它们专注于修正逻辑。

结论与启示

这篇论文提出了一个令人信服的论点: 大语言模型不仅可以用作聊天机器人，还可以用作机器人的数值推理引擎。 上下文迭代策略改进 (ICPI) 方法表明，我们并不总是需要训练大规模的、特定任务的神经网络来处理复杂的物理问题。

通过将物理交互视为一系列“尝试、失败、调整”的数据点，我们可以利用像 GPT-4o 这样的模型所具备的海量预训练模式匹配能力。关键要点是:

LLM 是通用模式机器: 它们可以通过阅读提示中的输入-输出示例，泛化到物理动力学任务。
上下文优于权重内: 对于物理问题，向 LLM 展示行为示例比要求它理论性地推理物理定律要有效得多。
样本效率: 该方法仅需极小的数据集 (\(\leq 300\) 个示例) ，并在短短几步内就能改进策略。

这项工作为更灵活的机器人打开了大门，这些机器人可以利用驱动搜索引擎和聊天应用的相同智能，“即时”适应新工具和环境。

引言#

背景: 动态操控的挑战#

权重内学习 vs. 上下文学习#

核心方法: 上下文策略改进 (ICPI)#

策略改进算子#

分词处理: 将物理转化为文本#

选择正确的示例#

数据收集: 算法蒸馏#

实验设置#

结果与分析#

性能比较#

收敛速度#

定性成功#

消融研究: 模型选择重要吗？#

结论与启示#

引言