想象一下,在一场取证调查中,一封匿名电子邮件成为了关键证据。调查人员掌握了 100 名潜在嫌疑人的名单。他们将这封邮件输入到最先进的 AI 作者身份归因 (Authorship Attribution) 系统中。系统输出了一份排名列表,“嫌疑人 B”赫然位列榜首。

嫌疑人 B 成为了调查的主要焦点。他们的生活被审视,名誉受损。但这里有一个转折: 嫌疑人 B 并没有写这封邮件。AI 犯了一个错误。

在机器学习中,错误是难免的;我们接受没有任何系统是 100% 准确的。但请考虑一种更黑暗的可能性: 如果“嫌疑人 B”是 AI 最喜欢的替罪羊呢?如果在 AI 感到困惑时,仅仅因为嫌疑人 B 写作风格的数学属性,它就会默认指向他,那会怎样?

这不仅仅是一个假设性的缺陷——这是最近发表的研究论文 《量化作者身份归因中的错误归因不公平性》 (Quantifying Misattribution Unfairness in Authorship Attribution) 中描述的一种可测量的现象。

在这篇文章中,我们将深入探讨这篇论文,了解为什么高性能的 AI 模型可能在根本上是不公平的,我们如何从数学上衡量这种不公平性,以及为什么作为一个“普通”作家可能会让你面临更高的被诬陷风险。

问题所在: 准确性 vs. 公平性

要理解核心问题,我们首先需要看看现代作者身份归因 (AA) 是如何工作的。

“大海捞针”法

在典型的取证场景中,我们要处理一个 查询 (Query) (一篇作者不明的文档) 和一个 草堆 (Haystack) (大量已知作者及其文档的集合) 。目标是找到隐藏在草堆中的 针 (Needle) ——即真正的作者。

现代系统使用 嵌入 (Embeddings) 技术。它们不通过人工统计词频,而是使用深度学习模型 (如 BERT 或 RoBERTa) 将文档转换为高维几何空间中的密集向量 (一长串数字) 。其假设很简单: 同一个人写的文档在这个空间中应该靠得很近,而不同人写的文档应该相距甚远。

为了找到作者,系统将查询文档转换为向量,并测量其与草堆中每位作者的距离 (通常使用余弦相似度) 。然后,它按照从“最可能” (距离最近) 到“最不可能”的顺序对作者进行排名。

当前指标的盲点

传统上,研究人员使用 Recall@k (真正的作者是否在前 \(k\) 个猜测中?) 或 平均倒数排名 (MRR) 等指标来评估这些系统。这些指标问的是: 我们要抓对人的频率有多高?

然而,这些指标忽略了硬币的另一面: 当我们弄错时,我们在诬陷谁?

如果一个系统的准确率为 90%,那么它有 10% 的时间是失败的。如果这 10% 的责备随机分布在所有无辜者身上,那么系统是公平的。但如果这 10% 的责备反复落在 同一个 无辜者身上,那么该系统就是有偏见且不公平的。这篇论文指出,标准的评估措施完全遗漏了这一风险。

引入 MAUI: 错误归因不公平指数

为了解决这个问题,研究人员引入了一个名为 MAUI (Misattribution Unfairness Index,错误归因不公平指数) 的新指标。MAUI 的目标是量化模型的误报在多大程度上偏离了公平、随机的分布。

对公平性的直观理解

让我们做一个快速的思想实验。假设你有一个包含 100 位作者的草堆。你运行了 1,000 次查询,而真正的作者 不在 这 100 人之中 (或者我们只关注错误的猜测) 。

在一个完全公平的世界里,如果模型不知道答案,每一位无辜的作者应该有相同的概率出现在前 10 名中。因为一篇你没有写的文档而被排名靠前,这就是一种“错误归因”。

如果排名纯粹是随机的:

  • 出现在前 \(k\) 名的概率是 \(k / N_h\) (其中 \(N_h\) 是草堆中作者的数量) 。
  • 在 \(N_q\) 次查询中,一个无辜者出现在前 \(k\) 名的 期望次数 (Expected Count, \(E_k\)) 大约是 \((k / N_h) \times N_q\)。

当某些作者出现在前 \(k\) 名的次数显著超过这个期望次数 (\(E_k\)) 时,不公平就发生了。

公式

研究人员将这一概念形式化为 \(MAUI_k\) 指标。

MAUI 指标的公式,显示了超过期望值的错误归因总和,并用最大可能的不公平性进行了归一化。

让我们分解一下这个公式 (公式 1) :

  1. \(c_j^k\) : 这是作者 \(j\) 在他们 撰写的文档中实际出现在前 \(k\) 名的次数。
  2. \(E_k\) : 如果系统是公平的 (随机的) ,这是 期望 的次数。
  3. \(\max(0, c_j^k - E_k)\) : 我们只关心那些被“过度归因” (排名靠前太频繁) 的作者。如果一位作者出现的次数少于期望值,我们将差异视为 0。我们是在对“过度”的责备进行求和。
  4. 分母 : 这有效地将分数归一化在 0 到 1 之间。
  • 0 表示系统完全公平 (错误归因分布均匀) 。
  • 1 表示系统极其不公平 (同样的几个人承担了所有的责备) 。

实验: 优秀的模型公平吗?

研究人员测试了五种不同的嵌入模型:

  1. SBERT: 一个标准的句子转换器。
  2. LUAR: 专门为作者身份归因设计的模型。
  3. MPNet_AR: 微软针对作者身份微调的模型。
  4. Wegmann: 基于风格的嵌入模型。
  5. StyleDist: 另一种基于风格的模型。

他们在三个不同的数据集上测试了这些模型: Reddit 评论、博客 (Blogs)同人小说 (Fanfiction)

1. 有效性 (准确性)

首先,让我们看看这些模型在寻找 正确 作者方面的实际表现如何。

表 1 显示了 Recall-at-8 和 MRR 分数。LUAR 和 MPNet 在 Reddit 和博客上表现非常好。

如表 1 所示, LUAR 表现强劲。它在博客上的 Recall@8 达到 0.97,在 Reddit 上达到 0.82。它在识别正确作者方面非常有效。另一方面, Wegmann 在准确性方面表现得很挣扎 (在 Reddit 上 Recall@8 仅为 0.08) 。

2. 不公平性 (MAUI 分数)

现在,让我们看看使用新 MAUI 指标得出的公平性分数。请记住,分数越低越好 (0 代表公平) 。

表 2 显示了不同 k 值下的 MAUI 分数。SBERT 非常不公平。尽管 LUAR 准确率很高,但在博客数据上显示出高度的不公平性。

表 2 揭示了一个惊人的脱节现象。

  • SBERT 极其不公平 (在 Reddit 上 k=10 时为 0.31) 。它总是将文本错误地归因于同一群人。
  • Wegmann 虽然准确性最差,实际上却是 最公平的 (MAUI 分数最低) 。它将其困惑均匀地分散了。
  • LUAR 作为准确性冠军,却表现出令人担忧的不公平水平,特别是在博客数据集上 (0.12) 。

关键要点: 天下没有免费的午餐。一个模型可能在寻找正确人选方面高度准确,但在猜测错误时却存在高度偏见。仅仅因为一个系统拥有“97% 的准确率”,并不意味着它在法庭上使用是安全的,因为其错误模式可能会不成比例地针对特定个体。

风险的规模

这种“过度”责备有多严重?仅仅是多几次吗?

表 3 显示了排在前 10 名次数超过期望值的作者数量。成千上万的作者面临 2 倍或 4 倍的期望风险。

表 3 (上部分) 显示了 Reddit 数据集的原始计数。

  • 对于 SBERT , 超过 2,500 名作者 出现在前 10 名的频率比随机机会预测的高出 四倍 (\(> 4 \times E_{10}\)) 。
  • 即使是 LUAR , 也有数百名作者面临比同伴高出 4 倍或 5 倍的风险。

表 4 (图像的下半部分) 突出了极端情况。在使用 SBERT 的 Reddit 数据集中,有一个倒霉的个体,其被错误归因的可能性比普通人高出 39 倍 。 想象一下,仅仅因为你的写作风格,你在一个你没有犯下的罪行中成为嫌疑人的可能性就高出 39 倍。

为什么会发生这种情况?“质心”假设

为什么 AI 会针对这些特定的人?是他们的词汇量吗?还是语法?研究人员发现了一个几何解释: 到质心的距离 (Distance to Centroid) 。

在向量空间中 (每个作者都是一个点) ,有一个“中心”或“质心”——即所有作者的平均值。

  • 离群点 (Outliers) : 风格非常独特 (例如,使用生僻词、奇怪的标点符号) 的作者位于云团的边缘。
  • 质心作者 (Centroid Authors) : 风格非常“通用”或“普通”的作者位于中心附近。

几何陷阱

研究人员测量了每位作者到这个中心的距离,并将其与他们的平均排名 (他们出现在列表顶部的频率) 进行了比较。

图 1 散点图显示了平均排名与到质心距离之间的关系。越接近质心 (0.0) 的作者,排名越靠前 (越好) 。

图 1 显示了所有数据集 (Reddit、博客、同人小说) 的一个明显趋势。X 轴是到质心的距离 (0 是中心) 。Y 轴是平均排名 (越低越好/在列表中越靠前) 。

趋势是不可否认的: 当你越接近中心 (向 X 轴左侧移动) ,你的平均排名就越低 (你在列表中出现的位置就越靠前) 。

这意味着,如果你的写作风格是“普通”或“通用”的,你在几何上就更接近 所有人。当模型试图匹配一个查询文档,而它不确定是谁写的时,向量往往会落在空间的某个中间位置。谁住在中间?那些普通的作者。

因此, 普通作家成为了模型的通用“B 计划”。 他们是默认的嫌疑人。

作者的分布

由于作者在空间中的分布方式,这个问题被加剧了。

图 2 直方图显示了作者距离的分布。大多数作者聚集在特定距离附近,但形状因模型而异。

图 2 显示了不同距离下的作者密度。你可以看到模型的作者分布各不相同。 SBERT (绿线) 倾向于将用户紧密地聚集在一起,这导致了它的高度不公平性——每个人都太接近“通用”中心了。

平庸的讽刺

所以,成为一个普通作家会让你频繁成为错误的嫌疑人。但是,“普通”至少能帮助模型在你 真正 写了某段文字时找到你吗?

令人惊讶的是,不能。研究人员分析了“针”作者——那些被成功识别的作者 (最高 MRR) 与那些难以被找到的作者 (最低 MRR) 。

图 3 Reddit 的散点图,比较了易于找到 (红色) 与难以找到 (青色) 的作者到质心的距离。

图 4 博客的散点图,比较了到质心的距离。高 MRR 作者 (红色) 与低 MRR 作者 (青色) 明显分开。

图 3 和图 4 讲述了一个引人入胜的故事 (看红色与青色的点) :

  • 红点 (最高 MRR) : 这些是模型容易识别的作者。注意在某些模型中,它们通常向 偏移 (更接近质心) ,或者聚集得不同。
  • 青点 (最低 MRR) : 这些是模型未能识别的作者。

论文中的统计分析 (表 7) 证实了 Reddit 用户的一个残酷讽刺: 接近质心的作者更有可能被错误归因 (假阳性) ,但他们并不一定更容易被正确识别 (真阳性) 。

具体来说,对于 Reddit 数据集,那些最容易被找到的作者 (最高 MRR) 往往比随机人群 更远 离质心。这是有道理的: 独特的风格很容易被发现。但是“普通”的风格呢?它们很难彼此区分,但它们却不断被标记为其他所有人的错误匹配。

这对未来意味着什么?

这项研究强调了我们在构建和评估 AI 取证工具时存在的一个严重缺陷。

  1. 风险沟通: 如果执法部门使用这些工具,他们需要知道“前 5 名”名单不仅仅是一个可能的嫌疑人名单。它可能充满了“统计海绵”——那些无辜的人,他们的写作风格恰好在几何上处于中心位置。
  2. 校准: 我们需要能够识别“通用”查询的系统。如果一个查询落在向量空间的中间,系统也许应该返回“无法确定”,而不是输出居住在质心的那些倒霉蛋的名字。
  3. 新指标: 我们不能仅仅依赖 MRR 和 Recall。像 \(MAUI_k\) 这样的指标必须成为任何影响人类生活的 AI 模型的标准评分卡的一部分。

总结

这篇题为《量化作者身份归因中的错误归因不公平性》的论文教会我们,在向量嵌入的世界里,“普通”是一种劣势。

  • 不公平是真实的: AI 模型在犯错时会不成比例地针对特定个体。
  • 原因是几何学: 具有“质心” (普通) 风格的作者在数学上更接近所有其他文档。
  • 后果: 这些作者面临很高的错误归因 (诬告) 风险,同时又更难被唯一识别。

随着我们继续在取证等敏感领域部署 AI,理解这些隐藏的几何偏见不仅仅是一个学术练习——这是正义的要求。


本文对 Alipoormolabashi 等人 (2025) 的研究进行了拆解。文中提供的图片直接摘自他们的论文,以说明技术概念。