引言

想象你是一个在大型配送中心工作的机器人。你的任务是收集五种特定商品来完成一个订单。听起来很简单，对吧？但这里有个陷阱: “商品 A”不仅仅在一个地方。它放在 1 号货架、5 号货架和 12 号货架上。“商品 B”在另外两个位置也有库存。为了提高效率，你不需要访问每一个位置；你只需要为商品 A 选择一个位置，为商品 B 选择一个位置，以此类推，同时保持你的总行进距离尽可能短。

这并不是经典的旅行商问题 (TSP) ，即你必须访问每一个城市。这是广义旅行商问题 (Generalized Traveling Salesman Problem, GTSP) 。在 GTSP 中，目标点被分为若干个“簇 (clusters) ”，求解者必须找到一条最优路径，使得每个簇中恰好有一个节点被访问。

仓库环境中的 GTSP 表示。

如上图 1 所示，这个问题是现代物流的基础。虽然人类天生擅长扫一眼地图就能找出最高效的停靠点组合，但计算算法在这方面却很吃力。精确的数学求解器对于实时机器人应用来说太慢了，而启发式方法往往会陷入次优的死循环。

最近，来自中南大学和新加坡国立大学的研究人员提出了一种引人入胜的新方法。在他们的论文 《Multimodal Fused Learning for Solving the Generalized Traveling Salesman Problem in Robotic Task Planning》 (用于机器人任务规划中求解广义旅行商问题的多模态融合学习) 中，他们认为要有效地解决空间问题，算法不应仅仅将数据视为图 (graph) ——它们还应该像看图像一样“看”数据。

在这篇深度文章中，我们将探索他们的多模态融合学习 (MMFL) 框架，剖析将图拓扑结构与视觉几何相结合是如何创造出一个更聪明、更快的路径规划机器人的。

背景: 为什么 GTSP 这么难？

要理解这项创新，我们需要先了解现有技术的局限性。

GTSP 是一个 NP 难的组合优化问题。这意味着随着物品 (簇) 和潜在位置 (节点) 数量的增加，可能的路线数量呈指数级爆炸增长。

精确算法: 像分支切割法 (Branch-and-Cut) 这样的方法可以找到数学上完美的路线，但它们可能需要几分钟甚至几小时才能完成。仓库里的机器人需要在几毫秒内做出决定。
元启发式算法: 像蚁群优化算法或遗传算法这样的算法速度较快，但需要大量的“调参”。它们通常很脆弱——针对一种仓库布局优化后，在另一种布局中可能会失效。
神经组合优化 (NCO) : 这是现代人工智能的方法。我们训练一个神经网络来预测路径。大多数 NCO 方法纯粹将问题视为一个图——由边连接的节点列表。

这篇论文的作者发现了 NCO 方法的一个关键缺陷: 图神经网络 (GNNs) 往往只见树木，不见森林。 它们非常擅长理解特定节点之间的局部连接，但很难掌握全局的空间背景——即问题的“形状”，而这对看 2D 地图的人类来说是显而易见的。

核心方法: 多模态融合学习 (MMFL)

研究人员提出了一种模仿人类直觉的解决方案: 为什么不同时使用图数据 (精确坐标和连接) 和视觉表示 (地图的图像) 呢？

MMFL 框架通过两个并行的流——一个图编码器 (Graph Encoder) 和一个图像编码器 (Image Encoder) ——来处理问题，然后将它们融合在一起做出决策。

MMFL 的整体架构。

如图 2 所示，该架构主要包含四个阶段:

图像构建器: 将问题转化为视觉格式。
双编码器: 从图和图像中提取特征。
多模态融合: 智能地混合这些特征。
解码器: 一步步构建最终路径。

让我们逐一拆解。

1. 自适应图像构建器

第一个挑战是将数学问题实例转化为图片。系统获取每个节点的归一化 2D 坐标，并将它们映射到网格上。

网格上任何特定点的像素值对应于簇 ID。如果一个节点属于簇 5，该节点位置的像素将获得与 5 相关联的值。

基于像素位置和簇 ID 的图像构建公式。

规模的挑战: 固定大小的图像是有问题的。如果你有一个只有 20 个节点的小问题，使用大图像是浪费内存。如果你有 1000 个节点，小图像会导致点重叠，丢失关键细节。

为了解决这个问题，作者引入了自适应分辨率缩放 (Adaptive Resolution Scaling, ARS) 。他们根据节点数量 (\(n\)) 和视觉网络使用的图块 (patch) 大小 (\(w\)) 动态调整图像分辨率 (\(W \times H\)) 。这确保了无论问题是小是大，信息的密度都保持一致。

一旦网格构建完成，模型需要理解每个像素相对于其他像素的位置。他们使用多层感知机 (MLP) 来嵌入归一化坐标:

位置编码器公式。

2. 双编码器

现在数据准备好了，它被送入两个独立的神经网络。

图像编码器 (看见几何结构)

图像流使用的是 Vision Transformer (ViT) 。图像被切成被称为“图块 (patches) ”的小方块。这些图块被展平，并通过自注意力 (Self-Attention) 层和前馈网络 (FFN) 层进行处理。

Vision Transformer 层公式。

网络的这一部分负责理解空间分布 。它能看到节点的“团簇”和空白区域，提供地图布局的宏观视图。

图编码器 (理解拓扑结构)

同时，原始坐标数据被作为图进行处理。每个节点被转化为一个初始嵌入向量，结合了其位置和簇 ID:

图初始嵌入公式。

这些嵌入通过一个图注意力网络 (Graph Attention Network) 。该网络允许每个节点与所有其他节点“对话”，从而完善其对邻居和潜在连接的理解。

图编码器层公式。

3. 多模态融合模块

这是 MMFL 框架最具创新性的部分。我们有“视觉”特征 (图块) 和“图”特征 (节点) 。我们要如何结合它们？

简单的拼接效果并不好，因为它们代表了不同的抽象层级。相反，作者使用了一种瓶颈注意力机制 (Bottleneck Attention Mechanism) 。

他们引入了可学习的 “瓶颈 Token” (\(b_{graph}\) 和 \(b_{image}\)) 。把这些 Token 想象成翻译官或外交官。与其强迫每个像素与每个图节点对话 (这在计算上极其沉重) ，不如让图像数据将其信息压缩到图像瓶颈 Token 中，图数据将其信息压缩到图瓶颈 Token 中。

首先，通过将这些 Token 附加到特征列表中来准备输入:

融合的输入准备。

然后，应用交叉注意力 (Cross-Attention) 机制。图流“查询”图像流，反之亦然。这使得图拓扑结构能够被视觉空间上下文所丰富。

交叉注意力公式。

交叉注意力之后，特征经过归一化和前馈层以稳定学习过程:

融合模块的归一化和 FFN 公式。

最后，两个流被合并为一个单一的融合表示 (\(h_{fused}\)) 。模型获取优化后的图特征，并加上图像特征的加权平均值 (由 \(\alpha\) 控制，通常设为 0.5) 。

最终融合公式。

这个融合表示现在拥有了两个世界的优点: 图的精确连接性和图像的全局空间感知能力。

4. 多起点解码器

有了对环境的丰富理解，机器人需要规划实际的路线。解码器以自回归 (auto-regressively) 方式工作，意味着它一次选择一个节点来构建序列。

在每一步 \(t\)，解码器会查看之前访问的节点 (\(\pi_{t-1}\)) 以及整个图的上下文。

历史嵌入公式。

它生成一个“查询 (Query) ”向量 (\(q\)) ，询问: “考虑到我现在的位置和地图的样子，我下一步应该去哪里？”

查询向量计算。

兼容性检查: 解码器为每一个可能的下一个节点分配一个分数 (\(\alpha_i\)) 。关键在于，它采用了掩码机制 (masking mechanism) 。在 GTSP 中，一旦你访问了簇 A 中的一个节点，簇 A 就处理完毕了。掩码将簇 A 中所有其他节点的分数设为负无穷大，确保机器人永远不会浪费时间两次访问同一个簇。

兼容性分数和掩码公式。

最后，这些分数通过 Softmax 函数转换为概率。机器人选择概率最高的节点 (或在训练期间从分布中采样) 。

概率公式。

为了使系统更加稳健，他们使用了多起点策略 。在推理过程中，他们从仓库的做个不同“邻居”节点开始多次运行求解器，并选择结果最好的路径。

实验与结果

理论听起来很扎实，但效果如何？研究人员将 MMFL 与行业标准的求解器 (如 Google OR-Tools )、启发式大师 (如 LKH , 即 Lin-Kernighan-Helsgaun) 以及纯图神经网络模型 (如 POMO )进行了对比。

性能对比

表 1 总结了在不同问题规模 (\(n=20\) 到 \(n=200\)) 下的结果。

表 1: GTSP 算法在不同问题规模下的比较。

结果令人瞩目:

对比启发式算法: MMFL 始终优于 Google OR-Tools 和 LKH。在较大规模的问题上 (\(n=200\)) ，MMFL 实现了更短的路径 (Obj 3.63 对比 LKH 的 3.83) ，同时速度快了几个数量级 (0.14 秒对比 42 秒) 。
对比神经基线: MMFL 在几乎所有类别中都匹配或击败了 POMO (最先进的图学习模型) 。随着问题难度的增加，差距进一步拉大，证明了增加视觉上下文在复杂情况下变得更有价值。

泛化能力

现实中的仓库不是随机的数学分布。它们有通道、区域和不同密度的簇。研究人员在“混合”、“邻近”和“基于密度”的簇形状上测试了 MMFL。

表 2: 不同 GTSP 实例类型的性能。表 3: 不同组大小的 GTSP 性能。

如表 2 和表 3 所示，MMFL 展示了卓越的泛化能力。无论簇是紧密堆积还是分散分布，视觉组件都能帮助模型适应。值得注意的是，在“大型”组设置中 (簇包含许多节点) ，MMFL 大幅优于竞争对手，这可能是因为视觉编码器能更好地识别大型空间簇的最佳“入口和出口”点。

“图像”部分真的有用吗？

为了证明复杂的架构是物有所值的，作者进行了消融实验 , 移除了图像编码器和融合模块，看看会发生什么。

图 4: 收敛曲线。

图 4 中的收敛曲线清楚地说明了问题。绿线 (完整的 MMFL) 比蓝线 (无图像编码器) 或橙线 (无融合) 收敛得更快，且达到了更低 (更好) 的路径长度。这通过实验证明了“看见”地图能帮助智能体学得更快、规划得更好。

解决方案可视化

最后，这些解决方案看起来是什么样的？

用于多区域探索任务的 MMFL 解决方案路径。

图 5 展示了 MMFL 生成的路径。白线代表机器人的轨迹。请注意它是如何高效地穿过环境，从每个所需区域准确访问一个节点，而没有不必要的折返。研究人员甚至在物理移动机器人上验证了这一点 (如下图 6 所示) ，确认了计算出的路径能有效地转化为现实世界的导航。

现实环境中的运动。

结论

多模态融合学习 (MMFL) 框架代表了机器人任务规划向前迈出的重要一步。通过承认空间问题既是数学图也是视觉几何，研究人员构建了一个在速度和质量上都优于传统求解器的系统。

主要收获:

双重表示: 结合坐标 (图) 和像素网格 (图像) 提供了问题的整体视角。
自适应缩放: ARS 策略确保视觉模型能有效地处理任何规模的问题。
智能融合: 瓶颈 Token 允许图和图像模态之间进行高效的信息交换，而不会使系统过载。
实时速度: 该模型能在几分之一秒内生成近乎最优的解决方案，使其适用于动态的现实世界机器人技术。

对于仓库自动化、灾难响应机器人和自主监控的未来，像 MMFL 这样的方法表明，让机器人思考的最佳方式可能就是帮助它去“看”。

引言#

背景: 为什么 GTSP 这么难？#

核心方法: 多模态融合学习 (MMFL)#

1. 自适应图像构建器#

2. 双编码器#

图像编码器 (看见几何结构)#

图编码器 (理解拓扑结构)#

3. 多模态融合模块#

4. 多起点解码器#

实验与结果#

性能对比#

泛化能力#

“图像”部分真的有用吗？#

解决方案可视化#

结论#

引言