引言
想象一个仓库中的协作机器人场景。一个配备机械臂的机器人正试图从杂乱的架子上抓取一罐特定的苏打水。然而,它的传感器存在噪声,且一个大箱子挡住了它的视线。它知道罐子就在那里,但无法以足够的确定性来安全地精确定位它。在附近,第二个配备真空吸盘抓手的机器人正处于空闲状态。这第二个机器人可以移动箱子,露出罐子,从而显著降低第一个机器人的工作难度。
对人类来说,这是一个直观的决定: “把箱子移开,这样你的队友就能看见了。”但对于一个自主系统来说,这个决定在数学上却因为“不确定性”而变得寸步难行。提供帮助的机器人需要问自己: 移动这个箱子真的值得花费时间和精力吗?这真的会有帮助吗,还是说第一个机器人其实已经足够自信了?
这就是协助价值 (Value of Assistance, VOA) 估算的问题。
在一篇题为《Estimating Value of Assistance for Online POMDP Robotic Agents》 (估算在线 POMDP 机器人智能体的协助价值) 的新论文中,研究人员 Yuval Goshen 和 Sarah Keren 解决了这一复杂的挑战。他们探讨了“协助者”智能体如何在不陷入计算死局的情况下,计算介入另一个智能体任务的收益。

如图 1 所示,该场景涉及高层决策。智能体 2 可以移动障碍物 #1 以露出被遮挡的罐子,或者移动障碍物 #2 以清理路径。为了做出正确的选择,智能体 2 需要模拟智能体 1 在不同条件下的未来表现。
这项工作的核心贡献是一套高效的启发式方法,允许机器人在实时环境中估算这一价值,有效地在计算速度和决策准确性之间取得平衡。
背景: 机器人思维的复杂性
要理解为什么计算“有用性”如此困难,我们首先需要了解先进机器人是如何思考的。在简单的环境中,机器人确切地知道自己在哪里以及物体在哪里。但在现实世界中,传感器是有噪声的。机器人不知道世界的真实状态 (\(s\)) ;它维护一个信念 (Belief, \(\beta\)) ——即所有可能状态的概率分布。
POMDP 与在线规划
这个问题被建模为部分可观测马尔可夫决策过程 (POMDP) 。 一个 POMDP 由元组 \(\langle S, A, T, R, \Omega, O, \gamma \rangle\) 定义:
- S: 状态 (例如,精确的物体坐标) 。
- A: 动作 (例如,向左移动,抓取) 。
- T: 转移概率 (如果我向左移动,我实际到达那里的可能性有多大?) 。
- R: 奖励函数 (完成任务的得分) 。
- \(\Omega\) & O: 观测及其概率 (如果我看向架子,看到罐子的几率是多少?) 。
精确求解 POMDP 通常是不可能的 (PSPACE 完全问题) ,因为信念空间是连续且巨大的。因此,现代机器人使用在线规划 (Online Planning) 。 它们不再是在开始前背诵针对每种可能情况的策略 (离线) ,而是仅针对当前情况进行实时规划。
POMCP: 树形思维
一种流行的算法是POMCP (部分可观测蒙特卡洛规划) 。 它使用粒子滤波器来表示信念状态 (包含数千个“假设”状态的云) 。为了决定这一步怎么走,机器人会构建一棵搜索树。

如图 2 所示,树在采取动作和接收观测之间交替。
- 模拟 (Simulate) : 机器人模拟动作和观测的历史。
- 预演 (Rollout) : 当它到达一个新的、未探索的叶节点时,它运行一个快速的、随机的 (或基于启发式的) 模拟来猜测未来的价值。
- 反向传播 (Backpropagate) : 它将价值沿树向上传播,以决定最佳的即时动作。
这个过程允许机器人在不确定性下智能地行动。然而,它的计算成本很高。一个机器人可能需要花费 1 到 3 秒仅仅为了决定它的下一步行动。
核心方法: 定义协助价值
现在,引入协助智能体 (Helper Agent) 。 协助者想要执行一个动作 \(\alpha\) (比如移动一个箱子) ,这会改变环境或提供信息。为了知道 \(\alpha\) 是否是个好主意,协助者计算协助价值 (VOA) 。
VOA 定义为行动者 (即正在干活的机器人) 在获得帮助后的期望价值,减去其在没有帮助时的期望价值。
数学公式如下所示:

这个方程告诉我们要做的步骤:
- 我们对当前的信念状态进行平均 (\(s \sim \beta\)) 。
- 我们查看在协助动作 \(\alpha\) 将状态改变为 \(s'\) 并产生新观测 \(\omega\) 之后的预期未来价值 \(V^{\pi}\)。
- 我们减去如果我们什么都不做,智能体将获得的价值 \(V^{\pi}(\beta)\)。
如果结果是正数且很高,那么协助是有价值的。如果接近零,那么协助是无用的。
计算瓶颈
问题就在这里。要精确计算方程中的各项,协助者必须模拟行动者。但是请记住,行动者使用的是在线规划 (POMCP) 。
为了评估一个潜在的协助动作,协助者必须:
- 采样数千个可能的状态。
- 对于每个状态,模拟协助动作。
- 然后,模拟行动者的未来轨迹 (例如,50 步) 。
- 关键点: 在这 50 步轨迹的每一步,被模拟的行动者必须运行其自己的 POMCP 树搜索来决定做什么。
这是模拟中的模拟 。 如果行动者每步思考需要 1 秒,而我们想要为 100 个不同的初始粒子模拟 20 步的轨迹,那么仅仅估算一个协助动作的 VOA 就可能需要超过 30 分钟。这对于实时机器人技术来说是无用的。
我们可以通过算法 1 直观地看到这种基线“暴力”方法:

其复杂度大致为 \(O(k \cdot L \cdot (N_{s}N_{D} + N_{P}))\),其中 \(k\) 是样本数,\(L\) 是轨迹长度,括号中的项是行动者规划的成本。这太慢了。
启发式方法: 估算的捷径
研究人员提出了三种不同的启发式方法来近似 VOA。这些启发式方法通过不同程度地牺牲准确性来换取巨大的速度提升。
1. 首动作价值启发式 (\(h_{FA}\))
基线方法中最昂贵的部分是模拟完整的轨迹 (\(L\) 步) 。如果我们只看第一步会怎样?
在 POMCP 中,搜索树的根节点包含当前状态的估计价值 (\(V_{root}\)) 。 首动作启发式假设行动者规划树根节点的价值足以作为长期价值的“足够好”的代理。

协助者不再运行行动者在世界中移动的完整模拟,而是:
- 模拟协助。
- 运行行动者的规划器一次以生成搜索树。
- 读取该树根节点的价值。
优点: 将复杂度降低了 \(L\) 倍 (轨迹长度) 。 缺点: 仍然需要构建 POMCP 树,这很繁重。此外,POMCP 根节点的价值可能存在噪声。
2. Rollout 策略启发式 (\(h_{\pi_{Rollout}}\))
POMCP 使用“Rollout 策略”来评估叶节点。这通常是一个非常快速、轻量级的策略 (有时是随机的,有时是简单的贪婪规则) 。 Rollout 策略启发式提出的问题是: 如果我们完全跳过树搜索,只假设行动者根据这个简单的 Rollout 策略行动,会怎样?

在这里,\(V^{\pi_{Rollout}}\) 取代了昂贵的规划价值。
优点: 极快。不需要构建树。 缺点: Rollout 策略通常很“笨”。它低估了行动者的智能。如果行动者足够聪明,能找到 Rollout 策略错过的路径,这个启发式方法将会 (错误地) 报告 VOA 为零。
3. 全信息启发式 (\(h_{FO}\))
这是最具创新性的方法。它解决了复杂性的根源: 部分可观测性 。
在信念空间 (POMDP) 中规划很难。在已知状态 (MDP) 中规划要容易得多。 全信息启发式通过假设全结果确定化 (all-outcome determinization) 来放宽问题。
为了估算的目的,协助者假装在提供帮助后,行动者将有效地知道世界的真实状态及其行动的结果。这将概率难题转化为标准的路径搜索 (如 A* 搜索或 Dijkstra) 。

在这里,\(U(s)\) 代表在完全可观测、确定性的世界版本中最佳规划的价值。
优点: 求解确定性 MDP 比求解 POMDP 快指数级倍。 缺点: 这是一个乐观的上限。它假设行动者是全知的。然而,由于 VOA 是两个价值之间的差值,这种偏差通常会相互抵消,从而留下可靠的动作排名。
方法可视化
研究人员提供了这些方法在计算上的并排比较:

- 左 (基线) : 每一步都有深层树。
- 中左 (\(h_{FA}\)): 开始时有一棵深层树。
- 中右 (\(h_{\pi_{Rollout}}\)): 快速、浅层的执行。
- 右 (\(h_{FO}\)): 确定性规划 (没有分支概率云) 。
实验与结果
为了测试这些启发式方法,作者使用了两个领域:
- RockSample: 一个标准基准,漫游车必须在网格中对岩石进行采样。
- POMAN (部分可观测操作) : 使用 YOLO-world 物体检测的逼真机械臂模拟。

在 POMAN 任务 (图 4) 中,协助机器人可以移动大障碍物,帮助机械臂看到罐子 (提高可观测性) 或够到杯子 (提高可达性) 。
研究人员将启发式方法与“基线真值” VOA (通过离线运行数小时昂贵的基线计算得出) 进行了比较。他们关注:
- 准确性 (Accuracy) : 启发式方法是否选择了最佳的协助动作?
- 遗憾值 (Regret) : 如果我们遵循启发式方法,损失了多少价值?
- 时间 (Time) : 花了多长时间?
关键发现
结果非常引人注目,特别是在速度与质量的权衡方面。

观察图 5 :
- 基线 (红色) 不切实际: 计算时间 (右下角) 比其他方法高出几个数量级。
- Rollout 策略 (蓝色) 失败: 在机器人操作任务 (POMAN) 中,Rollout 启发式通常返回零值。它太简单了,无法理解移动障碍物以抓取杯子这一复杂序列。
- 全信息 (\(h_{FO}\) - 紫色) 占据主导地位:
- 速度: 运行时间不到 0.1 秒 (右下角) 。
- 准确性: 它与基线真值有很高的一致性 (右上角) ,遗憾值极低 (左下角) 。
- 一致性: 即使样本较少 (较浅的柱状条) ,它也能可靠地运行。
全信息启发式之所以表现出色,是因为在机器人技术中,问题的几何结构通常决定了价值。即使我们暂时忽略传感器噪声 (放宽条件) ,“移动这个箱子使路径缩短 2 米”这一物理事实捕捉到了协助价值的大部分。
补充指标
附录提供了关于“Top-k 选择率”的进一步见解——即启发式方法的首选在多大程度上至少属于前几个最佳动作之一。

如图 6 所示,全信息启发式 (紫色) 在操作任务中实现了近乎完美的选择率,证明即使精确的数值不完美,它也能可靠地识别出有益的动作。
结论与启示
这项研究为多机器人协作提供了关键的一块拼图。我们通常假设,机器人要提供帮助,就必须完全理解队友思维的复杂性和不确定性。
然而,Goshen 和 Keren 证明了简化即力量 。 通过放宽问题——仅为了评估目的而假装世界是确定性且完全可观测的——协助机器人可以在毫秒级而不是数小时内做出高精度的协助决策。
关键要点
- VOA 是核心指标: 计算未来预期奖励的差异是决定协助动作的原则性方法。
- 精确计算太慢: 你无法在实时环境中在一个在线规划器内部模拟另一个在线规划器。
- 确定化获胜: 全信息启发式 (\(h_{FO}\)) 基于确定性的“最佳情况”计划计算价值,提供了速度和准确性的最佳平衡。
这项工作为更智能的仓库和建筑工地铺平了道路,在那里的机器人可以直观地“看到”队友何时陷入困境,并流畅、高效地介入提供帮助。未来的工作旨在解决序列化协助 (规划一系列帮助动作) 以及机器人可能对世界持有不同信念的场景。
](https://deep-paper.org/en/paper/181_estimating_value_of_assist-2654/images/cover.png)