风格指纹：利用贝叶斯 LLM 解决作者归属问题

想象一下，你发现了一份丢失的手稿，据称是简·奥斯汀被遗忘的作品，或者你需要识别社交媒体上协同虚假信息传播背后的匿名始作俑者。这些场景都依赖于作者归属 (Authorship Attribution) ——这是一门依据语言模式确定特定文本作者的计算科学。

几十年来，该领域主要依赖于手动统计词汇或近年来对庞大神经网络进行微调。但是，一篇名为 A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution 的新论文提出了一个令人着迷的转变。研究人员不再训练模型对作者进行分类，而是利用像 Llama-3 这样的大型语言模型 (LLM) 原始的、经过预训练的概率特性。

在这篇文章中，我们将剖析这种方法是如何工作的，为什么它在“单样本 (one-shot) ”场景中优于传统技术，以及它如何将 LLM 的生成能力转化为精确的取证工具。

问题: 识别机器背后的幽灵

作者归属可以说是笔迹分析的数字化版本。每位作者都有独特的“风格计量 (stylometric) ”指纹——这是词汇、句子结构、标点习惯和语法特质的组合。

历史上，解决这个问题主要涉及两种方法:

风格计量学 (Stylometry) : 统计特征的统计方法 (例如某人使用“the”或“however”的频率) 。这些方法具有可解释性，但往往会忽略文本中复杂的长距离依赖关系。
微调神经网络: 采用像 BERT 这样的模型，并在特定的作者数据集上重新训练它。虽然准确，但这在计算上非常昂贵，需要大量数据，而且每当嫌疑人名单中增加新作者时，都需要重新训练模型。

大型语言模型的登场

随着 GPT-4 和 Llama-3 的兴起，我们拥有了几乎“阅读”过整个互联网的模型。它们隐式地理解风格。然而，简单地问 LLM“这是谁写的？” (一种称为问答或 QA 的技术) 效果很差。LLM 容易产生幻觉，并且往往难以从长长的候选名单中做出正确选择。

这篇论文的研究人员认为，我们使用 LLM 的方式是错误的。与其把它们当作能够生成答案的聊天机器人，我们应该把它们当作能够对可能性进行评分的概率引擎。

核心方法: 贝叶斯方法

这篇论文的核心是一种被称为 LogProb 的方法。它将经典的贝叶斯统计与现代 Transformer 架构结合在了一起。

1. 贝叶斯框架

目标很简单: 给定一段未知文本 \(u\) 和一组候选作者，我们想要找出特定作者 \(a_i\) 写出 \(u\) 的概率。

在数学上，这使用贝叶斯定理表示:

显示 P(a_i|u) 的贝叶斯定理公式。

这里:

\(P(a_i|u)\) 是后验概率 (posterior) : 即该作者写了这段文本的概率。
\(P(u|a_i)\) 是似然概率 (likelihood) : 即假设是该特定作者写的情况下，这段文本存在的概率。
\(P(a_i)\) 是先验概率 (prior) : 即我们在看到文本之前，该作者是撰写者的可能性 (通常假设所有候选者的先验概率相等) 。

由于 \(P(u)\) (文本通常发生的概率) 对所有作者来说都是常数，因此任务归结为计算似然概率 \(P(u|a_i)\)。如果我们能准确测量作者 A 写出文本 U 的可能性，我们就能解开这个谜团。

2. 从作者到文本蕴涵

为了计算 \(P(u|a_i)\)，研究人员使用了作者提供的一组已知文本，记为 \(t(a_i)\)。他们基于这样一个假设: 如果一位作者写了这些已知文本，那么未知文本 \(u\) 的“风格”分布应该与之匹配。

通过一系列基于“同一作者的文本是独立同分布 (i.i.d.) ”假设的推导，研究人员展开了概率计算:

展开给定已知文本 t(a_i) 时文本 u 的概率的公式。

这看起来很复杂，但在“充分训练集”假设下，它会显著简化。理想情况下，已知文本 \(t(a_i)\) 具有足够的辨识度，以至于它们只能来自作者 \(a_i\)。这将其他作者写出这些确切已知文本的概率变为零:

指示函数公式。

这导出了一个清晰可用的等式，即给定已知文本时未知文本的概率，实际上等同于给定作者时文本的概率:

简化的概率公式。

3. 利用 LLM 作为概率计算器

这就是大型语言模型发挥作用的地方。LLM 是自回归的——它们根据之前的 token 预测下一个 token。当 LLM 生成文本时，它会为其词汇表中每个可能的下一个词计算概率。

研究人员利用这一点来测量蕴涵 (entailment) 。他们构建一个包含作者已知文本的提示 (Prompt) ，然后附加上未知文本。他们不是要求 LLM 生成文本；而是将未知文本强制输入模型，并问: “你对这一系列词语感到有多惊讶？”

如果 LLM 在提示中看到了作者的写作风格，并且未知文本与该风格匹配，LLM 将为未知文本中的 token 分配高概率。

给定上下文 (\(x_1\) 到 \(x_m\)) 的一系列 token (\(y_1\) 到 \(y_s\)) 的概率，是每个单独 token 概率的乘积:

LLM token 概率的链式法则公式。

4. 算法实战

“LogProb” 方法将所有这些结合在一起。为了检查未知文本 \(u\) 是否属于某位已知作者，系统会:

获取该作者的已知文本 (\(t(a_i)\)) 。
构建一个提示 (例如，“这是同一位作者的一段文本: ”) 。
将其输入到 LLM 中。
计算未知文本 \(u\) 跟随该提示出现的概率。

LogProb 方法的最终公式。

系统会对每位候选作者重复此过程。得出最高概率 (或最小“惊讶度”) 的候选人被认定为作者。

整体架构如下图所示。请注意未知文本是如何针对每个候选作者的模型实例进行评估，以找到最佳匹配的。

插图说明了使用 LLM 进行贝叶斯作者归属的方法。

实验与结果

为了验证这一理论，研究人员使用了两个数据集: IMDb62 (来自 62 位多产用户的电影评论) 和一个 Blog 数据集 (来自数千名博主的帖子) 。

他们设置了一个“单样本 (one-shot) ”学习场景: 模型只获得候选人的一篇已知文章来学习其风格，然后尝试归属一篇新的匿名文本。

与基准的比较

结果令人印象深刻。研究人员将使用 Llama-3-70B 的 LogProb 方法与以下方法进行了比较:

QA 方法: 询问 GPT-4 或 Llama-3 “这是谁写的？”
嵌入方法: 需要训练的基于 BERT 的模型 (BertAA, GAN-BERT) 。

LogProb 方法在 10 个候选人的 IMDb 数据集上达到了约 85% 的准确率 。

表格显示了 IMDB 和 Blog 数据集上的实验结果。

结果的关键结论:

QA 失败: 如表所示 (标记为 QA) ，直接询问模型会导致性能不佳 (GPT-4-Turbo 为 34%) 。模型很难明确地推理作者身份。
LogProb 成功: 使用 Llama-3-70B 的贝叶斯方法达到了 85% 的准确率，与需要大量微调的方法相媲美甚至更优。
无需训练: 与 GAN-BERT 不同 (后者需要为每组新作者重新训练) ，LogProb 方法仅需一个提示即可即时工作。

规模化的挑战

作者归属中的一个常见问题是，随着嫌疑人数量的增加，准确率会直线下降。如果你有 50 个潜在作者，选出正确的那一个要比只有 2 个时难得多。

研究人员分析了 LogProb 方法是如何应对规模扩展的。

图表显示随着候选人数量的增加，准确率下降的情况。

如上图所示，虽然随着候选人池增长到 50 人，“Top 1”准确率 (找到确切作者) 有所下降，但 Top 5 准确率仍然很稳健 (接近 90%) 。这意味着即使模型没有把确切的作者排在第一位，正确的作者也几乎总是在前几个建议中。这对于缩小嫌疑人名单的取证团队来说非常有价值。

作为参考，“Top k Accuracy”指标定义如下:

Top k 准确率公式。

对提示词的敏感度

提示词的具体措辞重要吗？如果我们说“分析写作风格”而不是仅仅说“这是一段文本”，准确率会改变吗？

表格比较了不同的提示策略。

研究发现，使用某种提示比没有提示要好 (第 1 行与第 2-5 行相比) 。然而，提示的具体措辞 (Prompt 1 与 Prompt 4) 对最终分数的影响微乎其微。这表明该方法是鲁棒的，不需要脆弱的“提示工程”也能工作。

偏见与子群体分析

关于性别和年龄，出现了一个有趣的，也许是社会语言学方面的发现。

性别差异

模型发现归属女性博主的作者身份比男性博主更容易。

表格显示作者归属性能中的性别偏见。

如上表所示，女性作者的 Top-1 准确率 (89.0%) 明显高于男性作者 (77.0%) 。作者推测，该数据集中的女性撰写的博客可能包含更独特的个人风格标记，使其更容易被识别指纹。

我们也可以在这里看到汇总的性别数据:

表格总结了性别偏见结果。

年龄与内容评分

研究人员还查看了作者的年龄和评论的内容。

表格显示各评分和年龄子群体的归属性能。

年龄: 年轻作者 (13-17 岁) 更容易被识别 (90% 准确率) ，而年长作者 (33-40 岁，约为 88%) 则相对难一些。这符合语言学理论，即年轻群体通常使用更独特、不断演变的俚语和风格选择。
评分: 在 IMDb 数据集中，极端的评论 (评分非常高或非常低) 比中庸的评论 (评分 5-6) 稍微难归属一些，后者达到了最高的准确率。

效率: 速度与成本

最后，为什么要使用这种方法而不是标准的问答 (QA) ？除了准确性之外，还有一个巨大的效率论据。

在 QA 方法中，LLM 必须逐个生成 token 来写出作者的名字。在 LogProb 方法中，模型只需执行单次前向传播来计算概率。

表格比较了 LogProb 与 QA 方法的效率。

如表所示，LogProb 方法的速度大幅提升 (462 秒 vs 2065 秒) ，同时准确率也高得多。

结论

论文 A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution 标志着司法语言学迈出了重要一步。通过将大型语言模型不视为创意作家，而是视为概率计算器，作者们解锁了一种强大的、无需训练的作者身份识别方法。

这种 “LogProb” 方法:

消除了微调的需求 , 节省了计算资源。
大幅优于直接询问 LLM 的效果。
扩展性良好 , 可应对许多候选人，并能有效处理有限数据 (单样本) 。

虽然存在局限性——例如运行 70B 参数模型的高成本以及可能从训练数据中继承的潜在偏见——但这项研究表明，LLM 的真正力量可能潜藏在其生成的文本表面之下，深植于驱动它们的数学概率之中。对于 NLP 学生和研究人员来说，这是一个令人信服的提醒: 有时使用模型的最佳方式是停止向它提问，开始测量它的惊讶度。

问题: 识别机器背后的幽灵#

大型语言模型的登场#

核心方法: 贝叶斯方法#

1. 贝叶斯框架#

2. 从作者到文本蕴涵#

3. 利用 LLM 作为概率计算器#

4. 算法实战#

实验与结果#

与基准的比较#

规模化的挑战#

对提示词的敏感度#

偏见与子群体分析#

性别差异#

年龄与内容评分#

效率: 速度与成本#

结论#