自我意识悖论：教神经网络自我建模如何使其变得更简单

如果让一个 AI 拥有自我意识，不仅能帮助它理解自己，还能从根本上让它变得更好，这会怎样？

在认知科学中，我们早就知道人类依赖于自我模型: 追踪肢体空间位置的身体图式，以及思考自身想法的元认知能力。这类预测性的自我模型帮助大脑控制和调整其行为。但当我们将类似的能力赋予神经网络时，又会发生什么呢？

最近一项名为《神经系统中自建模的意外益处》的研究探讨了这个问题，并揭示了一个令人意想不到的结果: 当人工网络被要求预测自身的内部状态时，它们不仅学会了一项额外的技能——而是发生了转变。为了更好地完成这一任务，网络会自发变得更简单、更高效、并且更正则化。实质上，它们学会让自己更容易被预测。

作者将这一效应称为通过自建模实现自正则化。他们认为，这一原则不仅有望用于构建更好的人工智能系统，也可能为生物认知提供新的启示。如果一个智能体对自己变得更可预测，那么它对他人也更可预测——这是社会沟通和合作中的关键特质。

在本文中，我们将解析研究人员如何将自建模引入神经网络，他们用来追踪复杂性的两个指标，以及这种效应如何在视觉和语言任务中出现。

背景: 作为辅助任务的自建模

在机器学习中，为模型添加辅助任务是一种常见做法。思路很简单: 在训练主要目标 (如图像分类) 时，模型同时学习一个或多个次要任务，这些任务有助于引导它学习更具泛化性的模式。每个任务的损失函数会合并在一起，迫使模型平衡多个目标。

研究人员将自建模设计为这样一种辅助任务。除了执行主要的分类目标外，网络还需要预测自身某个内部层的激活值——相当于内置一个自我模型。

核心方法: 教网络认识自己

神经网络如何为自己建模？

想象一个用于图像分类的标准神经网络。它接收输入，通过隐藏层传播，然后输出类别概率。为了实现自建模，研究人员选择一个隐藏层作为要预测的“目标”，并调整最后一层，使其同时产生两个输出:

常规的分类输出 (例如，图像显示数字“2”的概率) 。
一个新的回归输出，用于预测同一次前向传播中的目标隐藏层激活值。

一张示意图，展示自建模辅助任务的工作原理: 输入通过隐藏层，输出层同时对输入进行分类并预测隐藏层本身的激活值。

图 1. 应用于 MNIST 分类器的自建模辅助任务示意图。网络同时预测正确的数字和某个选定内部层的激活值。

这个双目标架构采用一个组合损失函数进行训练，即两个任务损失的加权和:

自建模网络的组合损失函数。它是分类损失 L_c 和自建模损失 L_s (一个均方误差项) 的加权和。

图 2. 组合损失函数在分类误差与自建模误差之间取得平衡，由辅助权重参数加权。

具体来说:

\(L_c\): 分类任务的交叉熵损失。
\(L_s\): 网络预测的激活值 (\(\hat{a}\)) 与真实激活值 (\(a\)) 之间的均方误差。
\(w_c\) 和 \(w_s\): 控制每个任务重要性的权重。自建模权重被称为辅助权重 (AW)，研究人员通过改变它来观察效果。

关键洞见在于: \(\hat{a}\) 和 \(a\) 都依赖于网络自身的权重。在训练过程中，优化器可以通过两种方式减少自建模损失——不仅通过提高预测精度，还可以通过改变网络自身，使其内部激活更简单、更容易预测。

换句话说，学习自建模会促使系统进行自正则化。

衡量简洁性: 量化变化

那么，如何判断一个网络是否真的变得更简单？

该研究引入了两个互补的指标:

权重分布宽度:
研究人员测量了最后一层权重的标准差 (SD)。泛化能力强的网络通常因 L1/L2 正则化而具有较小的权重。较窄的分布意味着权重更集中在零附近，表明网络更简单、更稀疏、参数更高效。
实数对数典范阈值 (RLCT):
源于统计学习理论的 RLCT 用于量化模型在最优解附近的有效复杂性。较高的 RLCT 表示模型能拟合复杂或噪声数据 (存在过拟合风险) ，而较低的 RLCT则意味着模型更简单、更高效。直观理解: RLCT 越低 = 正则化越好。

借助这些指标，研究人员在多个领域验证了他们的假设。

实验与结果: 验证自建模假说

1. MNIST — 手写数字分类

在 MNIST 任务中，研究团队训练了多个全连接网络 (MLP)，隐藏层大小分别为 64、128、256、512 个神经元，辅助权重 AW 分别为 1、5、10、20、50。自建模目标是隐藏层本身。

MNIST 分类任务的结果，展示了四个图: (A) 权重分布标准差随训练周期的变化，(B) 最终权重分布标准差与隐藏层大小的关系，(C) 最终 RLCT 与隐藏层大小的关系，以及 (D) 最终准确率与隐藏层大小的关系。

图 3. MNIST 实验结果。(A–B) 自建模产生更窄的权重分布。(C) RLCT 随 AW 增加而降低。(D) 准确率保持稳定，除非权重设置过高。

结果一致且令人信服:

权重分布 (图 A–B): 自建模网络的权重分布比基线网络更窄。增加 AW 进一步强化了这种效果。
RLCT (图 C): 所有自建模变体的 RLCT 值均较低，表明复杂性降低。更强的自建模压力对应更大的简化幅度。
准确率 (图 D): 分类任务的准确率总体保持稳定，仅在 AW 极高时因辅助任务主导训练而略有下降。

这些结果证实，自建模能够驱动一种自动简化。

2. CIFAR-10 — 目标识别

为检验普适性，研究人员将自建模应用于更复杂的架构:** ResNet18**，并在 CIFAR-10 图像分类数据集上训练。使用的 AW 值为 0.5、1 和 2。

CIFAR-10 分类任务的结果，展示了三个图: (A) 权重分布标准差随训练周期的变化，(B) 最终 RLCT，以及 (C) 最终准确率。

图 4. CIFAR-10 实验结果显示，自建模带来了稳定的简化趋势。更大的 AW 值对应更低的 RLCT 分数。

关键结果与 MNIST 类似:

复杂性降低 (图 A–B): 基线网络的权重分布最宽、RLCT 分数最高；自建模网络权重分布更窄、RLCT 更低，再次验证了简化趋势。
准确率 (图 C): 分类性能保持稳定，表明简化并未损害任务效果。

即便在具有残差连接和深层结构的网络中，自建模仍表现出相同特性: 趋向于内部规律化。

3. IMDB — 情感分类

最后，研究团队在文本任务上进行了测试，使用一个包含嵌入层和线性隐藏层的网络，在 IMDB 电影评论数据集上训练以预测情感 (正面或负面) ，并设置自建模权重为 100 和 500。

IMDB 分类任务的结果，展示了三个图: (A) 权重分布标准差随训练周期的变化，(B) 最终 RLCT，以及 (C) 最终准确率。

图 5. IMDB 实验结果。两个指标均显示更强的自建模带来更低的复杂性。较高 AW 值下，准确率甚至略有提升。

效应再次得到了验证:

权重分布与 RLCT (图 A–B): 自建模网络的权重分布逐渐变窄，RLCT 值持续下降。
准确率 (图 C): 值得注意的是，自建模在这一自然语言任务中略微提升了准确率——可能得益于正则化增强所带来的更好泛化。

无论视觉还是文本领域，无论浅层或深层架构，自建模都始终产生了更简单、参数效率更高的网络。

讨论: 为何简洁性至关重要

这些结果有力地支持了这样的观点:** 自建模不仅是镜像行为**——它重塑了系统的内部组织。被训练去预测自身激活值的网络，不仅是在学习一个额外的回归任务；它们在学习如何生成更易建模的激活。为此，它们会主动进行精简与正则化。

这种行为体现了机器学习中长期追求的自正则化原则。传统的正则化技术 (如 dropout 或权重衰减) 是显式设计用来防止过拟合的，而自建模则内在地实现了类似的效果，作为自预测的自然结果。

大多数情况下，准确率保持稳定或略有提高。仅在少数情况下，当自建模权重过大时会压制任务性能——这提示了权重平衡的重要性。但总体而言，网络会自发倾向于更简洁的内部表征，而无需牺牲能力。

更广泛的启示: 从协作智能体到心智理论

这项研究的启示远不止于优化。

一个学会让自己可被自身建模的系统，也更容易被他人建模。这对多智能体 AI乃至生物进化都有重要意义。在协作环境中——无论是机器人团队还是动物群体——可预测性是协调的核心。自我正则化的智能体会成为更好的合作伙伴，因为它们的行为更一致、更易理解。

作者进一步类比到人类社会认知。我们的“心智理论”——即推断他人思想与情感的能力——依赖于这些内部状态具有一定的结构性和可预测性。如果自建模能促使内部规律化，它可能体现出实现社会智能所需的那种相互可预测性的基础。

简而言之，自建模不仅是内省——它是一种促进合作的进化策略。

结论: 自我意识的优势

通过为神经网络设定一个简单的辅助目标——预测它们自身的隐藏状态，研究人员揭示了深刻的自组织原理。在不同任务与架构下，具备自建模能力的网络变得更简单、更高效，甚至有时更准确。

这一发现连接了认知科学和机器学习。那种曾帮助生物大脑进化出自我表征的机制，或许也能帮助人工智能体学会成为更可预测的盟友。让机器拥有“自我意识”，或许不仅能让它们更聪明，也能让它们更具合作精神。

参考文献: “Unexpected Benefits of Self-Modeling in Neural Systems,” V. N. Premakumar 等人, 2024.

背景: 作为辅助任务的自建模#

核心方法: 教网络认识自己#

衡量简洁性: 量化变化#

实验与结果: 验证自建模假说#

1. MNIST — 手写数字分类#

2. CIFAR-10 — 目标识别#

3. IMDB — 情感分类#

讨论: 为何简洁性至关重要#

更广泛的启示: 从协作智能体到心智理论#

结论: 自我意识的优势#