引言
在深度伪造 (Deepfake) 检测的这场猫鼠游戏中,我们通常假设: 随着生成模型变得越来越好,检测模型只需要变得更复杂就能跟上步伐。我们依靠包含真实视频和篡改视频的海量数据集来训练这些检测器,相信神经网络正在学习识别微妙的伪造痕迹——不匹配的嘴唇运动、不自然的眨眼,或像素级的数字残留。
但是,如果我们的模型并没有学习到我们以为它们学到的东西呢?如果它们不是在分析音频和视频之间复杂的相互作用,而是在作弊呢?
在机器学习的语境下,这被称为“捷径学习” (shortcut learning) 或依赖虚假相关性。一个著名的例子是训练 AI 区分狼和哈士奇;模型并没有学会看动物本身,而是学会了“背景里有雪”就等于“狼”。
最近一篇题为 “Circumventing shortcuts in audio-visual deepfake detection datasets with unsupervised learning” (利用无监督学习规避音视频深度伪造检测数据集中的捷径) 的论文,揭示了深度伪造领域中一个巨大的“雪”问题。研究人员发现,在两个最流行的音视频数据集中,深度伪造视频包含一个微小到几乎难以察觉的人为痕迹: 音频轨道最开始的一瞬间静音。
这篇博客文章将探讨这种简单的静音是如何攻破最先进的监督学习模型的,使它们能够在完全不看伪造内容的情况下获得近乎完美的分数。随后,我们将深入探讨作者提出的解决方案: 转向无监督学习 , 仅使用真实数据来对齐音频和视频流,从而有效地使模型对这些有用但具有欺骗性的捷径“视而不见”。
隐蔽的缺陷: 静音偏差
数据是现代 AI 的燃料。在音视频 (AV) 深度伪造检测这一细分领域,研究人员依赖基准数据集来训练和评估他们的模型。该领域的两个重量级数据集是 FakeAVCeleb 和 AV-Deepfake1M 。
FakeAVCeleb 包含近 20,000 个使用换脸和声音克隆工具生成的伪造视频。AV-Deepfake1M 的规模更大,包含超过一百万个视频,主要涉及局部篡改 (如更改特定的单词) 。这两个数据集均源自包含 YouTube 名人采访的 VoxCeleb2 数据集。
这篇论文的研究人员对这些数据集进行了取证分析,发现了一个惊人的异常。

如 图 1 所示,真实视频与伪造视频的音频波形存在明显差异。蓝线代表真实视频;它从一开始 (\(t=0\)) 就显示出高频振荡。这是背景噪音——静电声、环境音或呼吸声——在真实录音中自然存在。
然而,红线代表伪造视频。请注意,振幅在前 30 毫秒内保持为零,然后信号才开始出现。这就是前导静音 (leading silence) 。这很可能是在生成过程中引入的人为痕迹,也许是在合成音频流与视频拼接时产生的。
量化偏差
这只是少数样本中的巧合吗?研究人员分析了两个数据集整个测试集中静音持续时间的分布。

图 2 描绘了一幅清晰的图景。蓝色分布 (真实) 密集地聚集在 0 毫秒附近,意味着音频立即开始。橙色分布 (伪造) 在 25 毫秒到 30 毫秒之间有明显的峰值。
这种区分是如此明显,以至于你不需要一个复杂的神经网络来区分真伪。你只需要一条简单的规则: “如果音频静音超过 10 毫秒,它就是深度伪造。”
仅基于这种“前导静音时长”使用一个基础分类器,研究人员在两个数据集上都实现了超过 98% 的受试者工作特征曲线下面积 (AUC) 。这意味着许多声称能检测复杂篡改的最先进模型,实际上可能只是在检测静音。
敏感性分析
为了进一步证明这种“捷径”的稳健性,研究人员测试了不同的阈值。

图 3 (左) 显示了静音分类器的性能随判定“静音”的阈值变化的情况。对于低振幅阈值 (\(\tau\)) ,性能保持在接近 100% AUC,这意味着静音真的是静音 (数字零或接近零) 。
图 3 (右) 从另一个角度切入: 查看前 \(\delta\) 毫秒内的最大振幅。如果你只看前 30 毫秒,分类器是完美的。当你查看视频更靠后的部分 (超过 500 毫秒) 时,仅凭振幅已无法区分真实音频和伪造音频,性能下降到随机概率 (50%) 。
这证实了偏差完全集中在文件的最开头。
对现有模型的影响
静音偏差的发现给之前的研究蒙上了一层阴影。如果一个复杂的深度学习模型被喂食的数据中,A 类 (伪造) 总是有静音,而 B 类 (真实) 没有,模型会懒惰地学会检测静音。这是阻力最小的路径。
为了验证这一假设,作者评估了三种现有的方法:
- RawNet2: 一种分析原始波形的纯音频模型。
- MDS (模态不协调分数) : 一种测量音频和视频特征之间距离的音视频方法。
- AVAD: 一种无监督异常检测方法。
他们在两种场景下测试了这些模型:
- 原始 (Original) : 完整视频 (包含静音) 。
- 裁剪后 (Trimmed) : 切除了前导静音的视频 (迫使模型查看实际内容) 。

表 1 揭示了破坏的程度。
- 静音分类器 (The Silence Classifier) : 不出所料,当静音被裁剪后,其性能从 ~98% 下降到随机概率 (~50%) 。
- RawNet2 (纯音频) : 在 AV-Deepfake1M 数据集上,其性能从 99.9% 显著下降到 88.1%。这表明该模型严重依赖静音线索。
- MDS: 这个模型在 AV-Deepfake1M 上基本上崩塌了,从 99.2% 跌至 54.9% (接近随机) 。
- AVAD: 有趣的是,这个模型未受影响。为什么?因为它是一种仅在真实数据上训练的无监督方法。它在训练期间从未见过伪造视频,因此从未学会“静音 = 伪造”这一规则。
这一结果是论文的关键转折点。它表明监督学习 (在标记的真实与伪造数据上训练) 在数据集存在隐蔽偏差时是危险的。模型会过拟合于特定数据集生成器的痕迹,而不是学习篡改的通用特征。
解决方案: AVH-Align
为了解决捷径问题,作者建议放弃监督学习,转而采用专门在真实数据上训练的无监督方法。如果模型在训练期间从未见过深度伪造,它就无法学会“静音捷径”。
他们提出的方法被称为 AVH-Align (AV-HuBERT 对齐) 。
核心思想是音画同步 (Audio-Visual Synchronization) 。在真实视频中,嘴唇和面部肌肉的运动与语音音频是完美同步的。在深度伪造中,即使是高质量的伪造,所见与所听之间也往往存在微妙的时间错位或语义不一致。
AVH-Align 从真实数据中学习“完美对齐”是什么样子的。在推理过程中,如果视频表现出糟糕的对齐,它就会被标记为深度伪造。
系统架构
该架构利用了一个强大的预训练模型,名为 AV-HuBERT 。

如 图 4 所示,该流程包括两个阶段: 特征提取和对齐学习。
1. 自监督特征提取
系统使用 AV-HuBERT,这是一个基于 Transformer 的模型,在大量音视频数据 (如唇语识别任务) 上进行了预训练。
- 视觉特征 (\(v_i\)) : 模型处理视频帧,同时掩蔽音频输入。
- 音频特征 (\(a_i\)) : 模型处理音频波形,同时掩蔽视觉输入。
这会产生两个高维特征向量流 (1024 维) ,分别代表每个时间步 \(i\) 的音频和视频内容。
2. 对齐网络 (\(\Phi\))
一旦提取了特征,它们会被归一化并传递给一个名为 \(\Phi\) 的轻量级网络。这是一个多层感知机 (MLP) ,它接收拼接后的音频和视觉特征,并输出一个代表它们兼容性的单一分数。

MLP 包含四个层,逐步压缩数据 (1024 \(\to\) 512 \(\to\) 256 \(\to\) 128 \(\to\) 1 个输出) 。
3. 目标: 对比学习
网络如何学习对齐?作者使用了一种概率对比方法。
对于特定的时间步 \(i\),音频特征 \(a_i\) 应该与视觉特征 \(v_i\) 匹配。这就是“正样本对”。然而,\(a_i\) 不应该与来自不同时间步的视觉特征匹配 (例如 \(v_k\),其中 \(k\) 在几秒钟之外) 。
模型使用 Softmax 函数在帧的邻域内计算视觉帧 \(v_i\) 与音频帧 \(a_i\) 匹配的概率:

这里,\(\mathcal{N}(i)\) 代表时间邻域 (目标周围的 30 帧) 。目标是最大化分数 \(\Phi_{ii}\) (正确匹配) 相对于邻居分数 \(\Phi_{ik}\) (错误匹配) 的比重。
最终的损失函数是这些概率的负对数似然,在视频持续时间 \(T\) 上取平均值:

通过仅在真实视频上最小化此损失,网络成为了识别自然音画同步的专家。
推理: 检测伪造
当 AVH-Align 面对一个新视频时:
- 模型计算每一帧的对齐分数 \(-\Phi_{ii}\)。
- 如果视频是真实的,对齐度很高 (分数低) 。
- 如果视频是伪造的,音频和视频将不同步 (分数高) 。
视频级别的分数通过汇通过池化这些帧级分数计算得出。至关重要的是,因为模型从未被告知“静音 = 伪造”,它将前导静音视为任何其他音频片段。如果静音与视频不匹配 (很可能不匹配) ,它会增加分数,但它不会像在监督模型中那样主导决策过程。
实验与结果
研究人员将他们的无监督 AVH-Align 与同一架构的监督版本( AVH-Align/sup )进行了比较。监督版本是在标记的真实和伪造数据上使用标准的二元交叉熵损失进行训练的。

这种比较旨在回答一个主要问题: 无监督方法对数据集偏差是否更具鲁棒性?
对裁剪的鲁棒性

表 2 展示了关键结果。让我们看看 AV-Deepfake1M (AV1M) 这一列:
- AVH-Align/sup (监督) :
- 在原始数据集上 (Trim: ✖️) ,当在 AV1M 上训练时,它获得了惊人的 100.0% AUC 。 看起来很完美。
- 但是当静音被裁剪后 (Trim: ✔️) ,性能显著下降 (例如,取决于训练数据,从 85.9% 降至 66.6% 或从 100% 降至 83.1%) 。这证实了监督模型在作弊。
- AVH-Align (无监督) :
- 在裁剪和未裁剪的数据上,性能完全相同 (例如 85.9% vs 83.5% 或 94.6% vs 94.6%) 。
- 裁剪静音通常会导致性能更好或保持稳定,因为模型不依赖于该伪影。
虽然监督模型 (利用静音作弊) 在有缺陷的数据集上技术上获得了更高的分数,但无监督模型是唯一真正在解决深度伪造检测问题,而不是静音检测问题的模型。
可视化“作弊”行为
为了可视化模型究竟在看什么,作者绘制了视频每一帧的“伪造分数”。

图 5 很有启示性。
- 红色阴影区域: 视频中实际被篡改的部分。
- 橙线 (监督) : 注意它在最开始 (时间 0) 是如何剧烈飙升的。监督模型纯粹基于第一毫秒的静音在尖叫“假的!”。它经常忽略视频后面实际的篡改区域 (红色区域) ,因为它已经下定决心了。
- 蓝线 (无监督) : 这条线在开始时保持较低。它在红色篡改区域期间或之后飙升。这表明无监督模型正在检测由深度伪造生成引起的实际不协调。
官方测试集评估
最后,作者将他们的模型提交给了官方的 AV-Deepfake1M 测试服务器。这是一个盲测,标签不公开,且说话者与训练集中的不同。

表 3 显示, AVH-Align 达到了 85.24% AUC , 击败了所有其他不利用静音偏差的帧级和段级方法。
标记为红色的方法 (AVH-Align/sup 和静音分类器) 获得了近乎完美的分数 (~99%) ,证实了官方测试集也包含静音缺陷。这意味着该数据集的排行榜目前被那些可能只是在检测静音的模型所主导。
消融实验
研究人员还精简了他们的模型,以了解哪些组件最重要。

表 4 强调了几个关键的架构见解:
- 特征归一化至关重要。
- 训练集大小很重要 (真实数据越多越好) 。
- 池化: “均值”池化对完全生成的视频 (整个视频都是假的) 效果更好,而“Log-Sum-Exp”对局部篡改效果更好。
他们还测试了对齐网络的复杂性。

表 5 显示,虽然简单的线性层对于监督学习是可行的 (因为学习“静音 vs 噪音”很简单) ,但对于捕捉音频和视觉特征之间复杂的非线性关系, MLP 对于无监督任务是必不可少的。
结论: 支持无监督学习的理由
这篇论文为深度伪造检测社区敲响了警钟。它强调了我们在构建和基准测试 AI 系统时的一个关键弱点: 在糟糕数据上的良好性能指标会导致糟糕的模型。
作者证明,两个主要数据集 FakeAVCeleb 和 AV-Deepfake1M 都受到简单的静音人为痕迹的影响。旨在不惜一切代价最大化准确性的监督模型利用了这一痕迹作为捷径,导致了在现实世界中无法站住脚的虚高性能评估。
提出的解决方案 AVH-Align 提供了一个稳健的替代方案。通过仅在真实数据上进行训练,模型被迫学习人类自然语言的内在属性——具体来说,即面部和声音之间的精确同步。
主要收获:
- 审计你的数据: 始终检查数据是否存在虚假相关性 (如前导静音) 。
- 警惕 99% 的准确率: 如果一项任务很复杂 (如深度伪造检测) 但结果极其完美,模型可能在作弊。
- 无监督的稳定性: 在真实数据上训练 (异常检测) 通常比在特定的伪造数据上训练 (二元分类) 更能抵抗未知的生成器痕迹。
随着深度伪造生成技术的发展,人为痕迹也会改变。“静音”漏洞最终会被生成器修复。在今天的伪造品上训练的监督模型将在明天的伪造品上失效。但人类语言的基本对齐方式将保持不变,这使得像 AVH-Align 这样的无监督方法成为面向未来的取证技术的一个有希望的方向。
](https://deep-paper.org/en/paper/2412.00175/images/cover.png)