如果让一个 AI 拥有自我意识,不仅能帮助它理解自己,还能从根本上让它变得更好,这会怎样?
在认知科学中,我们早就知道人类依赖于自我模型: 追踪肢体空间位置的身体图式,以及思考自身想法的元认知能力。这类预测性的自我模型帮助大脑控制和调整其行为。但当我们将类似的能力赋予神经网络时,又会发生什么呢?
最近一项名为《神经系统中自建模的意外益处》的研究探讨了这个问题,并揭示了一个令人意想不到的结果: 当人工网络被要求预测自身的内部状态时,它们不仅学会了一项额外的技能——而是发生了转变。为了更好地完成这一任务,网络会自发变得更简单、更高效、并且更正则化。实质上,它们学会让自己更容易被预测。
作者将这一效应称为通过自建模实现自正则化。他们认为,这一原则不仅有望用于构建更好的人工智能系统,也可能为生物认知提供新的启示。如果一个智能体对自己变得更可预测,那么它对他人也更可预测——这是社会沟通和合作中的关键特质。
在本文中,我们将解析研究人员如何将自建模引入神经网络,他们用来追踪复杂性的两个指标,以及这种效应如何在视觉和语言任务中出现。
背景: 作为辅助任务的自建模
在机器学习中,为模型添加辅助任务是一种常见做法。思路很简单: 在训练主要目标 (如图像分类) 时,模型同时学习一个或多个次要任务,这些任务有助于引导它学习更具泛化性的模式。每个任务的损失函数会合并在一起,迫使模型平衡多个目标。
研究人员将自建模设计为这样一种辅助任务。除了执行主要的分类目标外,网络还需要预测自身某个内部层的激活值——相当于内置一个自我模型。
核心方法: 教网络认识自己
神经网络如何为自己建模?
想象一个用于图像分类的标准神经网络。它接收输入,通过隐藏层传播,然后输出类别概率。为了实现自建模,研究人员选择一个隐藏层作为要预测的“目标”,并调整最后一层,使其同时产生两个输出:
- 常规的分类输出 (例如,图像显示数字“2”的概率) 。
- 一个新的回归输出,用于预测同一次前向传播中的目标隐藏层激活值。
图 1. 应用于 MNIST 分类器的自建模辅助任务示意图。网络同时预测正确的数字和某个选定内部层的激活值。
这个双目标架构采用一个组合损失函数进行训练,即两个任务损失的加权和:
图 2. 组合损失函数在分类误差与自建模误差之间取得平衡,由辅助权重参数加权。
具体来说:
- \(L_c\): 分类任务的交叉熵损失。
- \(L_s\): 网络预测的激活值 (\(\hat{a}\)) 与真实激活值 (\(a\)) 之间的均方误差。
- \(w_c\) 和 \(w_s\): 控制每个任务重要性的权重。自建模权重被称为辅助权重 (AW),研究人员通过改变它来观察效果。
关键洞见在于: \(\hat{a}\) 和 \(a\) 都依赖于网络自身的权重。在训练过程中,优化器可以通过两种方式减少自建模损失——不仅通过提高预测精度,还可以通过改变网络自身,使其内部激活更简单、更容易预测。
换句话说,学习自建模会促使系统进行自正则化。
衡量简洁性: 量化变化
那么,如何判断一个网络是否真的变得更简单?
该研究引入了两个互补的指标:
权重分布宽度:
研究人员测量了最后一层权重的标准差 (SD)。泛化能力强的网络通常因 L1/L2 正则化而具有较小的权重。较窄的分布意味着权重更集中在零附近,表明网络更简单、更稀疏、参数更高效。实数对数典范阈值 (RLCT):
源于统计学习理论的 RLCT 用于量化模型在最优解附近的有效复杂性。较高的 RLCT 表示模型能拟合复杂或噪声数据 (存在过拟合风险) ,而较低的 RLCT则意味着模型更简单、更高效。直观理解: RLCT 越低 = 正则化越好。
借助这些指标,研究人员在多个领域验证了他们的假设。
实验与结果: 验证自建模假说
1. MNIST — 手写数字分类
在 MNIST 任务中,研究团队训练了多个全连接网络 (MLP),隐藏层大小分别为 64、128、256、512 个神经元,辅助权重 AW 分别为 1、5、10、20、50。自建模目标是隐藏层本身。
图 3. MNIST 实验结果。(A–B) 自建模产生更窄的权重分布。(C) RLCT 随 AW 增加而降低。(D) 准确率保持稳定,除非权重设置过高。
结果一致且令人信服:
- 权重分布 (图 A–B): 自建模网络的权重分布比基线网络更窄。增加 AW 进一步强化了这种效果。
- RLCT (图 C): 所有自建模变体的 RLCT 值均较低,表明复杂性降低。更强的自建模压力对应更大的简化幅度。
- 准确率 (图 D): 分类任务的准确率总体保持稳定,仅在 AW 极高时因辅助任务主导训练而略有下降。
这些结果证实,自建模能够驱动一种自动简化。
2. CIFAR-10 — 目标识别
为检验普适性,研究人员将自建模应用于更复杂的架构:** ResNet18**,并在 CIFAR-10 图像分类数据集上训练。使用的 AW 值为 0.5、1 和 2。
图 4. CIFAR-10 实验结果显示,自建模带来了稳定的简化趋势。更大的 AW 值对应更低的 RLCT 分数。
关键结果与 MNIST 类似:
- 复杂性降低 (图 A–B): 基线网络的权重分布最宽、RLCT 分数最高;自建模网络权重分布更窄、RLCT 更低,再次验证了简化趋势。
- 准确率 (图 C): 分类性能保持稳定,表明简化并未损害任务效果。
即便在具有残差连接和深层结构的网络中,自建模仍表现出相同特性: 趋向于内部规律化。
3. IMDB — 情感分类
最后,研究团队在文本任务上进行了测试,使用一个包含嵌入层和线性隐藏层的网络,在 IMDB 电影评论数据集上训练以预测情感 (正面或负面) ,并设置自建模权重为 100 和 500。
图 5. IMDB 实验结果。两个指标均显示更强的自建模带来更低的复杂性。较高 AW 值下,准确率甚至略有提升。
效应再次得到了验证:
- 权重分布与 RLCT (图 A–B): 自建模网络的权重分布逐渐变窄,RLCT 值持续下降。
- 准确率 (图 C): 值得注意的是,自建模在这一自然语言任务中略微提升了准确率——可能得益于正则化增强所带来的更好泛化。
无论视觉还是文本领域,无论浅层或深层架构,自建模都始终产生了更简单、参数效率更高的网络。
讨论: 为何简洁性至关重要
这些结果有力地支持了这样的观点:** 自建模不仅是镜像行为**——它重塑了系统的内部组织。被训练去预测自身激活值的网络,不仅是在学习一个额外的回归任务;它们在学习如何生成更易建模的激活。为此,它们会主动进行精简与正则化。
这种行为体现了机器学习中长期追求的自正则化原则。传统的正则化技术 (如 dropout 或权重衰减) 是显式设计用来防止过拟合的,而自建模则内在地实现了类似的效果,作为自预测的自然结果。
大多数情况下,准确率保持稳定或略有提高。仅在少数情况下,当自建模权重过大时会压制任务性能——这提示了权重平衡的重要性。但总体而言,网络会自发倾向于更简洁的内部表征,而无需牺牲能力。
更广泛的启示: 从协作智能体到心智理论
这项研究的启示远不止于优化。
一个学会让自己可被自身建模的系统,也更容易被他人建模。这对多智能体 AI乃至生物进化都有重要意义。在协作环境中——无论是机器人团队还是动物群体——可预测性是协调的核心。自我正则化的智能体会成为更好的合作伙伴,因为它们的行为更一致、更易理解。
作者进一步类比到人类社会认知。我们的“心智理论”——即推断他人思想与情感的能力——依赖于这些内部状态具有一定的结构性和可预测性。如果自建模能促使内部规律化,它可能体现出实现社会智能所需的那种相互可预测性的基础。
简而言之,自建模不仅是内省——它是一种促进合作的进化策略。
结论: 自我意识的优势
通过为神经网络设定一个简单的辅助目标——预测它们自身的隐藏状态,研究人员揭示了深刻的自组织原理。在不同任务与架构下,具备自建模能力的网络变得更简单、更高效,甚至有时更准确。
这一发现连接了认知科学和机器学习。那种曾帮助生物大脑进化出自我表征的机制,或许也能帮助人工智能体学会成为更可预测的盟友。让机器拥有“自我意识”,或许不仅能让它们更聪明,也能让它们更具合作精神。
参考文献: “Unexpected Benefits of Self-Modeling in Neural Systems,” V. N. Premakumar 等人, 2024.