人类是卓越的学习者。从出生的那一刻起,我们就不断地吸收信息、识别新事物,并调整我们对世界的理解——而不会遗忘昨天所学的一切。如果你今天学会了什么是智能手表,你不会突然忘记什么是布谷鸟钟。这种贯穿一生的增量学习能力,是自然智能的标志。

对于驱动现代机器人的人工智能来说,这仍然是一个巨大的挑战。传统的深度学习模型通常在庞大且静态的数据集上进行训练,并在见过的数据上表现出色。但当你试图教它们新知识时,它们往往会遭受灾难性遗忘——新的知识会覆盖并摧毁旧的知识。这就像将新液体倒入已满的杯子,原来的水就被溢出。

要构建真正能够自主学习和运行的机器人,人工智能必须克服这一限制。这样的系统需要能够从连续的经验流中持续学习,通常仅有少量样本,还要能识别从未见过的事物并整合新知识——所有这一切都无需从头重新训练。

近期一篇研究论文 《自主机器人的持续学习: 一种基于原型的方法》 , 介绍了一种突破性系统,称为 持续学习原型 (Continually Learning Prototypes,CLP) 。 该算法使机器人能够在线学习、检测新物体,并进行半监督自适应——同时有效减轻遗忘。让我们一起看看 CLP 是如何工作的。


挑战: 在真实环境中学习

在深入了解 CLP 的设计之前,首先要理解让终身学习如此困难的挑战。研究人员定义了一个名为 开放世界持续学习 (Open World Continual Learning,OWCL) 的现实场景,它结合了几项核心难题:

  1. 在线持续学习 (Online Continual Learning) : 机器人一次只接收一个样本,必须立即处理并从每次经验中学习,而不能存储所有原始数据。
  2. 少样本学习 (Few-Shot Learning) : 机器人往往只会遇到某个新物体一两次,但仍需从极少的样本中进行泛化。
  3. 开放世界假设 (Open-World Assumption) : 与封闭的实验室环境不同,真实世界充满未知。机器人必须区分真正的未知对象,而不是错误地将其归类为已知物体。这种能力称为 新颖性检测 (novelty detection)
  4. 半监督学习 (Semi-Supervised Learning) : 理想情况下,机器人应能自主从未标记样本中学习,并在标签 (例如人类反馈) 可用时整合这些真实标签。

大多数持续学习方法难以同时处理这些挑战。许多依赖“重演” (rehearsal) 的方法需要存储旧数据以重新训练,这既耗内存又耗能——嵌入式机器人无法承担。其他方法则建立在严格的任务边界之上,假设学习环境高度结构化。CLP 抛弃这些假设,从零开始构建持续学习。


核心思想: 基于原型的学习

CLP 的核心是*原型 (prototype) *这一概念。与学习复杂的全局决策边界不同,CLP 学习一组具有代表性的点——即原型,用来概括特征空间中的数据簇。

输入图像首先通过预训练的神经网络 (如 EfficientNet) 作为特征提取器 , 将图像映射到高维特征空间,在这个空间内相似物体相互靠近。每个原型充当一个聚类的中心,对应一个概念 (例如“杯子”、“键盘”、“鞋子”) 。当新图像到达时,CLP 会找出与该输入最接近的原型,并用其标签进行预测。

持续学习原型 (CLP) 系统图。输入图像通过特征提取器;学习到的原型代表特征空间中已标记和未标记的聚类,从而实现新颖性检测和半监督学习。

图 1: CLP 概览。输入特征被映射到原型空间,该空间捕捉已知、新颖及漂移的类别。

CLP 通过归一化向量的点积高效计算相似度——这是余弦相似度的近似:

\[ s(\boldsymbol{\mu}, \boldsymbol{x}) = \boldsymbol{\mu} \cdot \boldsymbol{x} \]

当模型接收到带标签的样本 \((x, \hat{y})\) 时,它会找到最相似的原型 \( \mu^* \),然后:

  • 当原型标签 \( y^* \) 与真实标签 \( \hat{y} \) 一致时,中心 \( \mu^* \) 会向新的特征向量 \( x \)靠近
  • 若标签不一致,\( \mu^* \) 则会向 \( x \)远离

这一简单的“吸引与排斥”更新规则,让 CLP 能够进行逐样本的在线学习。


秘诀所在: 用元可塑性战胜遗忘

CLP 的关键创新在于解决了可塑性-稳定性困境 (plasticity–stability dilemma) ——即快速学习新知识与稳固保留旧知识之间的权衡。

传统模型采用单一、固定的学习率 \( \alpha \)。高学习率学习迅速但不稳定;低学习率则更稳定但适应性差。CLP 通过为每个原型引入自适应学习率解决这一问题,灵感源自生物学中的元可塑性 (metaplasticity) ——即神经元的可变性本身也会随时间而调整。

每个原型维护一个*良度分数 (goodness) *,反映其以往表现:

  • 当原型预测正确时,良度分数提高;
  • 当预测错误时,良度分数下降。

原型的学习率与该分数成反比:

\[ \alpha = \frac{1}{g} \]

因此:

  • 稳定原型 (高良度分数) 学习缓慢,保护已有知识;
  • 可塑原型 (低良度分数) 学习迅速,用于修正错误或获取新概念。

元可塑性更新规则,用于管理每个原型的中心、独立学习率和良度分数。

图 2: CLP 的元可塑性机制根据性能动态调整各原型的学习率。

这一自适应机制使 CLP 能够在局部自动地巩固知识。关键在于,它不再需要重演或内存缓存——这使得 CLP 非常适合存储和能耗有限的机器人。


进入开放世界: 新颖性检测与无监督学习

除了保留已有知识,机器人还需要识别新颖性——即它们必然会遇到的未知物体。CLP 通过基于相似度阈值 \( \tau \) 的新颖性检测函数优雅地实现这一点。

当新输入与所有现有原型的相似度都低于 \( \tau \) 时,该输入域被视为“开放空间”,并被标记为新颖。

CLP 中的新颖性检测机制。相似度低于所有原型阈值 τ 的输入被识别为新样本,从而实现自主聚类。

图 3: 通过相似度阈值识别未知样本。

检测到新颖性后,CLP 会:

  1. 分配新原型: 新特征向量成为新聚类的中心。
  2. 分配伪标签: 因为真实标签尚未知,CLP 会生成临时标识符。
  3. 进行无监督学习: 随着更多相似输入出现,原型位置持续更新,自动优化聚类表示。

随后,人类或多模态系统可以为这些聚类赋予真实标签,将伪标签转化为正确标签。这一过程将 CLP 的自主聚类扩展为半监督持续学习——无缝结合有监督与无监督学习。


捕捉复杂性: 多模态表示

现实世界中的类别很少形成整齐的单峰分布。“椅子”这一类别,就包含了扶手椅、办公椅和懒人沙发——视觉差异显著,分布在更广的特征空间内。多数学习方法假设每个类别只有一个原型,从而无法表达这种多样性。

CLP 的新颖性检测机制会在需要时自然地为同一类别分配多个原型,产生丰富的多模态表示 (multi-modal representations) 。 简单类别可能只有一个原型,而复杂类别则需要多个。这种灵活性能更真实地反映现实世界的变化,提高学习精度与效率。

t-SNE 可视化图,展示 CLP 如何为复杂的多模态类别 (4 和 18) 学习多个原型,并为简单的单峰类别 (13) 学习单个原型。左: 原始数据。右: 学习到的原型分布。

图 4: CLP 动态构建多模态表示,按类别需要分配原型。


CLP 实战: 实验结果

研究人员在 OpenLORIS 数据集上对 CLP 框架进行了严格测试。该数据集收录日常物体在家庭、办公室、商场等多种环境中的图像,包含遮挡、光照变化和背景干扰等挑战——非常适合评估真实场景中的持续学习。

测试 1: 监督式在线学习

在完全监督的持续学习场景中,CLP 被拿来与八种已有的单层方法进行比较。它在所有对比中表现最佳,尤其在少样本 (low-shot) 任务中更显优势。

不同持续学习方法的最终准确率对比。CLP (最右) 在全数据和少样本设置中均优于所有其他方法。

图 5: CLP 在监督式与少样本在线持续学习中均达到最优准确率。

测试 2: 新颖性检测性能

研究团队随后评估了 CLP 的开放集识别能力——即区分已知“基类”和未见“新类”。在所有测试阈值下,CLP 的精确率和召回率均显著优于当前最佳基线方法 (SLDA) 。

比较 CLP 和 SLDA 的 ROC 与精确率–召回率曲线。CLP 在所有阈值下精确率和召回率均更高。

图 6: CLP 在识别新类别方面远超 SLDA。

详细的新颖性检测指标,显示 CLP 在 AUROC、AUPRC 和 F1 分数上均优于 SLDA。

图 7: 新颖性检测准确率的量化比较。

CLP 在多个阈值下的精确率达到 1.0,意味着它的“新颖”分类始终正确——对于处理未知物体的机器人,这是一项关键能力。

测试 3: 完整的开放世界场景

最后,研究人员模拟了一个真实世界的持续学习周期:

  1. 阶段 1: CLP 以完全监督方式学习 20 个基类。
  2. 阶段 2: 遇到包含 20 个新的未标记类别 (少样本) 的数据,CLP 自动检测并无监督学习这些原型。
  3. 阶段 3: 之后为这些原型分配真实标签,并在所有 40 个类别上进行评估。

少样本半监督持续学习结果。CLP 在学习新类别的同时保持基类准确率。

图 8: CLP 在学习新类别的同时几乎完美保持基类准确率。

结果表明:

  • 无遗忘: 基类准确率保持在约 99%,彻底避免灾难性遗忘;
  • 强无监督学习能力: 新类准确率快速提升,仅凭十段短训练视频即可达到 76%。

这说明 CLP 能够在保留旧知识的同时,自主识别、聚类并学习新经验。


结论: 迈向真正的自主学习者

持续学习原型 (CLP) 算法是构建适应性强的终身学习系统的重要里程碑。其基于原型的架构,结合元可塑性,使机器人无需重演旧数据即可持续学习。凭借集成的新颖性检测与开放世界能力,CLP 能够以半监督方式从环境中学习——就像生物体一样。

CLP 在监督和开放世界场景中均超越了现有方法,为现实的开放世界持续学习设定了新的标杆。展望未来,研究团队计划将 CLP 扩展至持续目标检测,并在英特尔 Loihi 2 等神经形态芯片上实现,从而迈向实时、超低功耗的自主学习。

有了 CLP 等创新,机器人像人类一样自然地学习和适应的愿景正在成为现实。