引言
想象一下繁忙仓库中的一条狭窄走廊。两个自主机器人朝相反方向移动,在中间相遇。两边都没有足够的空间让对方通过。人类会本能地知道该怎么做: 一个人退到门口或贴着墙壁,让另一个人通过。但对于机器人来说,这种简单的互动是一场复杂的数学对峙。
在机器人领域,这是一个典型的协同问题。传统上,工程师使用基于优化的控制器 (optimization-based controllers) 来解决这个问题。这些是严格的、手工设计的数学规则,用于保证安全性——确保机器人不会撞到墙壁或其他智能体。然而,这些系统在“社交”协商方面表现出了名的糟糕。它们经常导致死锁,即两个机器人都僵在原地,等待对方移动。
天平的另一端是多智能体强化学习 (MARL) 。 在这里,机器人通过试错来学习。经过数百万次模拟,它们学会了如何高效地穿梭于交通流中。问题在于?纯粹的学习是不可预测的。一个机器人可能学会了在 99% 的时间里完美导航,但在它失败的那 1% 的情况下,它可能会撞上货架或人,因为它缺乏正式的安全保证。
这引出了一篇引人入胜的新研究论文: “ReCoDe: Reinforcement Learning-based Dynamic Constraint Design for Multi-Agent Coordination” (ReCoDe: 基于强化学习的多智能体协同动态约束设计) 。 研究人员提出了一种混合解决方案,它无需在安全性和适应性之间做选择——它两者兼得。ReCoDe 没有抛弃可靠的手工设计控制器,而是将其作为基础,并使用神经网络对其进行动态约束。
在这篇深度文章中,我们将探讨 ReCoDe 如何成功地将控制理论的数学严谨性与深度学习的灵活性结合起来,使机器人能够在不牺牲安全性的前提下“协商”复杂的交通状况。
核心冲突: 安全性 vs. 协同性
要理解为什么 ReCoDe 是必要的,我们需要先了解该领域当前标准的局限性。
手工设计的专家
标准的机器人控制依赖于约束优化 (Constrained Optimization) 。 在每一瞬间,机器人都在解决一个数学问题: “在不与任何东西碰撞的约束下,找到能让我更接近目标的速度矢量。”
这通常被公式化为二次规划 (QP) 。 它之所以强大是因为它提供了保证。如果数学计算说机器人不会撞车,它就真的不会撞车。然而,这些控制器是“短视的”。它们只针对紧接着的下一步进行优化。它们不理解像“让路”或“排队”这样的高级概念。
学习型智能体
相反,强化学习 (RL) 智能体针对长期奖励进行优化。它们可以学习到工程师无法显式编码的协作行为。然而,RL 是一个“黑盒”。它直接将观测映射到动作。如果神经网络遇到以前没见过的情况,其输出是不可预测的。在安全关键型环境 (如自动驾驶或工业机器人) 中,“不可预测”是不可接受的。
混合方法
ReCoDe (基于强化学习的约束设计) 弥合了这一差距。其核心理念很简单: 不要取代专家控制器,而是增强它。
该系统允许神经网络观察环境和其他机器人的意图。但它不是告诉机器人具体做什么 (例如,“以 1.5 m/s 的速度移动”) ,而是输出一个约束 。 它本质上是在地面上画一个圈,然后告诉经典控制器: “你必须在这个圈内找到一个解决方案。”
ReCoDe 方法
让我们分解一下 ReCoDe 的架构。它是一个去中心化的框架,意味着每个机器人运行自己的软件副本,并根据本地信息做出自己的决定。

如图 1 (左) 所示,该架构包含两个主要模块:
- 学习策略 (紫色/绿色) : 一个图神经网络 (GNN) ,处理来自机器人及其邻居的观测值 (\(O_i\)) 。
- 优化控制器 (绿色框) : 一个经典的求解器,计算最终的控制输入 (\(u_i\)) 。
第一步: 通过图神经网络进行感知
群体中的机器人需要了解它们与邻居的关系。ReCoDe 为此使用了图神经网络 (GNN) 。
在这个图中:
- 节点代表智能体 (机器人) 。
- 边代表彼此靠近的机器人之间的通信链路。
GNN 允许机器人聚合信息。它查看自身的状态以及从附近机器人传递过来的“消息”。这对协同至关重要,因为协同需要共识。如果机器人 A 向左移动,机器人 B 需要知道这一意图以便向右移动。这个神经网络的输出不是移动指令,而是一组参数: \(\theta_i(t)\)。
第二步: 学习到的约束
这是论文贡献的核心。神经网络输出定义二次约束的参数。
具体来说,网络输出两个值:
- 参考动作 (\(\mathbf{a}_i(t)\)) : 理想情况下,神经网络认为机器人应该做什么。
- 不确定性半径 (\(b_i(t)\)) : 网络希望有多“严格”。
这些参数形成了一个约束方程:
\[ \|\mathbf{u}_i(t) - \mathbf{a}_i(t)\|_2 \leq b_i(t) + s_0 \]通俗地说,这个方程的意思是: “最终的控制动作 \(\mathbf{u}\) 必须在参考动作 \(\mathbf{a}\) 的距离 \(b\) 以内。”
- 如果 \(b\) 很小 : 约束很紧。神经网络迫使控制器非常紧密地跟随其参考动作。
- 如果 \(b\) 很大 : 约束很松。神经网络是在说: “我不确定,所以我给你很大范围的选择。你 (专家控制器) 在这个大区域内找出最好的一步。”
第三步: 优化问题
然后,机器人将这个学习到的约束添加到现有的安全规则列表 (如避障) 中。它求解以下优化问题:

让我们剖析一下这个方程:
- 最小化 \(J_i\) : 这是原始的、手工设计的目标 (例如,“以最小能量向目标移动”) 。
- 受限于 \(\|\mathbf{u} - \mathbf{a}\| \leq b + s_0\) : 这是 ReCoDe 约束。求解器必须在神经网络建议的附近找到解。
- 受限于 \(\mathcal{U}_i^s\) : 这些是硬性安全约束 (不要撞墙) 。这些永远不会被神经网络移除或修改,从而保证了安全性。
- \(\lambda_0 s_0\) : 这涉及到一个“松弛变量” (\(s_0\)) 。如果神经网络建议了一些不可能的事情 (例如,“穿过那堵墙”) ,求解器可以使用松弛变量来违反学习到的约束 (支付高昂的惩罚代价 \(\lambda_0\)) ,而不是撞车或无法找到解。
为什么这个设计如此精妙
这种架构允许权威的动态转移。
在简单场景 (空旷空间) 中,神经网络可能会输出一个巨大的 \(b\) (半径) ,有效地退后一步,让数学上最优的控制器接管。在复杂的社交场景 (拥挤的走廊) 中,控制器通常会死锁。这时,神经网络会缩小 \(b\) 并将 \(\mathbf{a}\) 移向特定一侧,迫使控制器执行纯数学方法无法找到的“让路”动作。
作者从数学上证明了这种设置提供了两全其美的效果。
理论保证: 适应性
论文提供了一个命题,指出如果不确定性半径足够小,ReCoDe 允许智能体跟踪任何安全轨迹。

这个不等式本质上证明了学习到的策略可以覆盖手工设计控制器的贪婪本质。如果专家控制器想要直行 (导致死锁) ,但最优的长期举措是后退,学习到的约束可以通过将 \(\mathbf{a}\) 设置向后并将 \(b\) 设置得很小,来强制系统后退。
理论保证: 缓解不确定性
反之,如果神经网络感到困惑怎么办?在标准 RL 中,困惑的网络会输出垃圾数据,导致行为不稳定。在 ReCoDe 中,作者分析了神经网络价值函数的“平坦度” (不确定性) 与半径 \(b\) 之间的关系。

这一分析表明,当学习到的策略“不确定” (其 Q 值的梯度很小/平坦) 时, 增加半径 \(b\) 是有益的。这允许手工设计的目标 \(J_i\) (它是严格凸的且具有决定性) 来引导智能体。随后的实证结果证实了机器人确实学会了这样做: 它们在人群中收紧半径,在空旷空间中放松半径。
实验与结果
研究人员在四个旨在打破标准控制器的独特挑战性场景中测试了 ReCoDe。

场景
- 狭窄走廊 (Narrow Corridor): 两组机器人必须在走廊中交换位置,走廊太窄,不进行协同无法通过。
- 连通性 (Connectivity): 智能体必须移动到目标,同时保持通信链。如果它们相距太远,链路断裂 (任务失败) 。
- 航点导航 (Waypoint Navigation): 大型机器人在小房间里,目标随机。相互阻挡的风险很高。
- 传感器覆盖 (Sensor Coverage): 一个多目标任务,传感器必须在保持队形的同时覆盖目标。
量化优势
如图 2 中的表格所示,ReCoDe 的表现优于所有基线:
- 手工设计 (Handcrafted): 在复杂的协同中经常失败 (在连通性任务中为负奖励) 。
- 纯 MARL (Pure MARL): 难以学习精确的控制,导致得分较低。
- 其他混合方法 (Online CBF, Shielding): ReCoDe 获得了显著更高的奖励 (例如,在狭窄走廊中 Shielding 为 0.55 , 而 ReCoDe 为 0.90 )。
平均而言,在所有任务中,ReCoDe 获得的奖励比排名第二的方法高出 18% 。
效率与安全
RL 最大的障碍之一是训练时间。因为 ReCoDe 使用专家控制器作为“向导”,它的学习速度比纯 RL 快得多。

- 样本效率 (图 3b): 看橙色线 (纯 MARL) 与绿色线 (ReCoDe) 的对比。ReCoDe 几乎立即 (在 20 步内) 达到接近最优的性能,而纯 MARL 在 500 步后仍在挣扎。
- 安全性 (图 3c): 蓝色线代表碰撞惩罚。ReCoDe (绿色线,顶部几乎看不见) 在训练期间的碰撞几乎为零。纯 MARL (橙色) 在学习过程中不断发生碰撞。
洞察: “会呼吸”的半径
也许最有趣的结果展示在图 3d 和 3e 中。研究人员绘制了学习到的不确定性半径 \(b\)。
- 图 3e: 随着邻居数量的增加 (人群密度上升) ,\(b\) 的值减小。
- 解读: 当机器人独自一人时,它信任专家控制器 (大半径) 。当机器人被包围时,它收紧束缚 (小半径) 以强制执行专家控制器无法处理的复杂协同。系统有效地进行“呼吸”——根据社交压力扩大和收缩其约束。
现实世界部署
模拟是一回事;现实是另一回事。作者在物理机器人 (“Cambridge RoboMasters”集群) 上部署了 ReCoDe。
再次参考图 1 (右) :
- 上排 (基线) : 机器人进入走廊,在中间相遇,然后死锁。它们就坐在那里不动。
- 下排 (ReCoDe) : 机器人相遇。学习到的约束生效。一些机器人靠边,改变队形,让对方队伍通过。它们成功交换了位置。
这是使用在模拟中训练的策略并直接转移到现实世界中实现的,处理了现实世界的噪声和通信延迟。
关于多目标任务的说明
传感器覆盖实验突显了另一个优势。在这里,机器人有相互竞争的目标: 去往目标点并且保持靠近队友。

手工设计的控制器难以平衡这两股对立的力量 (经常陷入局部极小值) 。ReCoDe 允许智能体进行协商。一个智能体可能会通过在该方向收紧约束来将队形“拉”向高价值目标,有效地领导团队。
结论
论文 “ReCoDe” 为混合控制系统提出了一个令人信服的论点。纯工程 (控制理论) 是安全但僵化的。纯 AI (强化学习) 是灵活但混乱的。通过使用 RL 来为控制理论设计约束,我们得到一个这样的系统:
- 安全: 硬性安全约束永远不会被移除。
- 适应性: 动态约束解决了死锁和复杂的社交互动。
- 高效: 训练速度比从头开始学习快几个数量级。
- 可解释: 我们可以分析“不确定性半径”来了解 AI 何时在掌管控制权。
对于进入机器人领域的学生和研究人员来说,ReCoDe 阐明了一个重要的教训: AI 并不总是必须取代经典方法。有时,最强大的系统是通过让 AI 引导现有的数学基础而不是推倒重来而构建的。随着我们迈向自动驾驶汽车和仓库车队,像 ReCoDe 这样的框架可能会成为确保这些机器能够顺畅合作而不发生碰撞的标准。
](https://deep-paper.org/en/paper/2507.19151/images/cover.png)