引言: 一个我们谈论得不够的对齐问题
我们生活在一个 AI 技术令人惊叹的时代。生成式模型可以写诗、创作令人震撼的艺术作品,甚至帮助科学家发现新药。这些强大的工具正日益被定位为人机团队中的合作伙伴,增强我们解决复杂问题的能力。但任何团队要成功合作,成员之间必须达成共识。在 AI 领域,这被称为对齐问题: 确保 AI 系统的行为符合我们的目标和偏好。
虽然关于对齐的讨论大多集中在价值观和伦理上,但最近一个由大型跨学科研究团队撰写的观点论文,揭示了一个更深层、更根本的错位。这不仅关乎 AI 做什么,更关乎它如何思考。具体来说,这关乎**泛化 **(generalisation) ——即从具体例子中学习,并将其应用于新的、未见过的情况的能力。
人类是泛化的大师。一个孩子看到几只狗后,就能轻易认出从未见过的新品种。我们能理解抽象概念,掌握系统底层规则,并在完全不同的领域之间迁移知识。而现代 AI,尽管功能强大,却在这一点上举步维艰。它可以记住海量数据,但其泛化能力常常以令人惊讶和不可预测的方式失效。人类与机器在泛化方式上的这种差距,是创建一个真正有效和安全的 AI 合作伙伴的关键障碍,却常常被忽视。
本文将深入探讨《对齐人类与机器的泛化能力》 (Aligning Generalisation Between Humans and Machines) 这篇论文,以探索这一挑战。我们将解析:
- AI 与认知科学在泛化研究中的历史互动。
- “泛化”到底意味着什么——它比你想象的要复杂。
- AI 尝试泛化的三种主要方式——以及每种方式的权衡。
- 我们如何评估 AI 的泛化能力——以及为什么现有方法常常不足。
- 可能最终弥合人与 AI 之间泛化差距的未来方向。
让我们先来看人类智能与机器智能的互补——以及常常相互冲突的——优势。
两种智能的故事
人机团队的目标不是创造一个完美模仿人类的 AI,而是建立一种合作关系,让双方的优势互补彼此的弱点。该论文的作者们精妙地阐释了这一点。
图 1: 人类与统计机器学习模型泛化优势的比较。人类在小样本学习、组合性、常识和鲁棒性方面表现出色。机器在处理大规模数据、推理正确性、管理复杂性和通用逼近方面占优。两者都存在过度泛化的问题,这凸显了协作和解释的必要性。
人类在仅凭少量样本学习、理解组合性 (compositionality,即部分如何组合成整体,如句子中的单词) 以及运用深厚的常识方面有着惊人的天赋。这使我们对数据中的噪声和变化具备很强的适应性。
而统计型 AI 模型,如当今大语言模型 (LLM) 背后的深度神经网络,则拥有不同的优势。它们能高效、准确地处理大规模数据,管理巨大的数据复杂性,并且在理论上可作为**通用逼近器 **(universal approximators) ,能够学习几乎任何函数。
然而,人类和机器都容易出现**过度泛化 **(overgeneralisation) 。人类通过刻板印象和偏见来过度泛化;AI 则通过*幻觉 *(hallucinations) ,即自信地断言虚假信息。在人机团队中,信任要求透明度——AI 必须为其推理提供解释。而在这里,它们在泛化风格上的根本差异成了一个主要障碍。
共同的历史
理解和复制泛化能力的努力,长期以来一直受到 AI 研究和认知心理学之间交流的推动。该论文重点介绍了一些里程碑,展示了人类认知模型如何直接启发了 AI 的发展。
图 2: 人类泛化模型如何启发了三大 AI 方法家族的图示: 基于规则的、基于实例的和统计的。
具体分解如下:
- 基于规则的学习
早期的认知科学家研究人类如何通过规则来定义概念 (例如,“正方形有四条等长的边”) ,这启发了决策树和归纳逻辑编程等 AI 技术——这些方法能从数据中学习此类规则。
图 2a: 基于规则的学习示例,其中逻辑规则是从观察到的例子中归纳出来的。
- 基于实例的学习
其他认知理论则强调相似性而非规则。**原型理论 (Prototype theory) 认为我们为类别创建心理上的平均形象,而范例理论 **(Exemplar theory) 则假定我们将新实例与记忆中的特定例子进行比较。这些思想启发了 k-近邻算法等 AI 方法,并有助于解释情境效应——为什么一个容器在盛咖啡时被称为“杯子”,而在盛汤时被称为“碗”。
图 2b: 基于实例的泛化依赖于与原型的相似性、对情境的敏感性以及结构类比。
- 统计学习
“联结主义”思想——即神经网络模仿大脑式的统计学习——逐渐占据主导地位,在处理大型数据集方面表现出色。
图 2c: 早期神经网络中的统计泛化从数据中学习模式,而无需明确的规则。
尽管统计模型取得了成功,但它们仍面临着长期的批评: 缺乏明确的语义、可解释性差,以及依赖相关性而非因果关系。理解这些历史根源,将我们引向论文中用于解读“泛化”的框架。
我们所说的“泛化”究竟是什么?
该论文提出了一个关键观点: “泛化”有多种含义,他们将其分为三个概念。
1. 作为过程的泛化
从数据中创造通用知识的行为。
- 抽象 (Abstraction) : 从许多例子中形成一个宽泛的概念。
- 扩展 (Extension) : 将现有模型/模式应用于新场景。
- 类比 (Analogy) : 将一个模式迁移并应用于不同的情境。
2. 作为产物的泛化
该过程的输出。
- 符号化的**规则 **(“所有鸟都有翅膀”) 。
- 概念/类别——以特征列表、原型或范例的形式存在。
- 概率分布——在生成式 AI 中很典型,表示模式而无明确的概念定义。
3. 作为操作的泛化
将产物应用于新数据以做出准确预测的能力。
机器学习理论提醒我们:** 泛化的起点是记忆的终点**。一个记住了每个训练细节的模型,在真正的新数据上表现不会好。
巨大的错位
人类和机器在这三个概念上都有所不同:
- 过程: 人类偏好抽象和类比;统计型 AI 偏好数据驱动的模式发现。
- 产物: 人类产生稀疏的、概念性的规则;统计型 AI 生成密集的概率模型。
- 操作: 人类的泛化表现鲁棒且灵活,尤其是在处理分布外 (OOD) 数据时;而 AI 在面对新事物时往往很脆弱。
要对齐操作,就需要解决在过程和产物上的不匹配。
AI 如何尝试泛化: 三种相互竞争的理念
作者们根据 AI 方法的泛化方式对其进行分类。
表 1: AI 方法通常按算法细节进行分类,但以泛化为导向的分组能提供更深入的洞见。
1. 统计方法
- 理念: 从观察中推断一个模型,该模型能捕捉完整的数据分布,并优化预测准确性 (经验风险最小化) 。
- 优势: 具有通用逼近能力;擅长处理海量、复杂数据集;推理速度快。
- 弱点: 泛化能力局限于已见过的分布;在分布外 (OOD) 数据上表现差;黑箱不透明。
2. 知识驱动 (分析) 方法
- 理念: 从明确的理论/模型开始,并利用数据来验证或完善它们。
- 优势: 设计上具有可解释性;组合性强;允许审查。
- 弱点: 脆弱;仅限于有形式化模型的领域;结构学习的计算成本高。
3. 基于实例 (懒惰学习) 的方法
- 理念: 通过在新输入和已存储的样本中找到最相似的例子来进行预测。
- 优势: 灵活;对分布变化鲁棒;适用于持续/终身学习;能很好地检测分布外 (OOD) 数据。
- 弱点: 严重依赖有效的表示和相似性度量。
表 2: 统计方法、知识驱动方法和基于实例的方法之间的权衡。每种方法在某些属性上表现出色,但在其他方面则有所欠缺。
混合方法如**神经符号 AI **(neurosymbolic AI) 旨在结合这些优势。
衡量泛化能力
传统的评估方法——即基于独立同分布 (IID) 假设的训练集/测试集划分——在处理基础模型时遇到了困难,因为这些模型在训练期间很可能已经接触过“测试”数据 (数据污染) 。
作者们强调了三个关键的评估方面:
衡量分布变化
使用统计距离、对抗性扰动和反事实来判断鲁棒性。
判断欠泛化与过泛化
- 欠泛化: 无法对略有变化的输入产生类似的输出 (例如,对提示词过度敏感) 。
- 过泛化: 忽略了关键差异 (例如,幻觉、有偏预测) 。
区分记忆与泛化
决定何时应记忆事实 (“巴黎是法国的首都”) 与何时应泛化概念 (“什么使一个地方成为首都”) ,并测试结合两者的任务。
表 3: 将期望的泛化属性映射到 AI 方法家族和评估方法。展示了统计 (
S
) 、分析 (A
) 和基于实例 (I
) 方法的互补优势。
前路漫漫: 为对齐规划路线
结论部分是一个行动呼吁,并概述了新兴的研究方向:
为基础模型建立新理论
零样本/情境学习挑战了经典理论——需要解释它们为何有效以及何时会失效。不变性或类比等概念可能是关键。可泛化的神经符号方法
真正的混合方法,兼具神经网络的学习能力和符号方法的组合泛化优势。挑战包括更丰富的符号表示和可验证的属性。持续学习中的泛化
通过使用符号约束或基于实例的回放来避免灾难性遗忘;及早检测分布漂移。更好的评估框架
超越训练/测试集划分——建立用于抽象、类比和复杂推理的基准测试;评估服务器;模拟环境。对齐过程,而不仅仅是输出
排查分歧需要在概念层面进行对齐,通过共享、可解释的表示桥接人类的因果模型与 AI 的统计关联。
对齐人类与机器的泛化能力,是为了构建能够以与我们认知兼容的方式进行推理、适应和协作的 AI。这是创造真正“懂”我们的合作伙伴的必由之路——使它们更安全、更可靠,并最终更有用途。