生成模型,包括生成对抗网络(Generative Adversarial Networks, GANs)(Goodfellow 等人,2014年)和去噪扩散概率模型(Denoising Diffusion Probabilistic Models, Ho 等人,2020年),现在已经能够合成和操纵面部图像,其真实感足以挑战人类的感知。虽然这项技术在创新应用方面具有巨大潜力,但若被用于恶意目的(如传播虚假信息和实施身份盗窃),将严重威胁信息安全并破坏公众信任。因此,开发既准确又具有广泛泛化能力的深度伪造检测方法至关重要。
目前的检测方法主要集中在识别生成过程中固有的特征性伪痕迹。一个重要的研究方向是利用合成流程经常在频率域引入微妙伪痕迹的事实;旨在识别这些高频差异的检测技术已经显示出相当的有效性(Frank 等人,2020年;Liu 等人,2021年;Luo 等人,2021年;Qian 等人,2020年)。另一条补充性研究路径则关注生理上的不一致性,基于生成模型往往无法准确再现生物上合理的信号这一前提。针对不规则眨眼(Li 等人,2018a年)、不自然头部姿态(Yang 等人,2019年)或异常光电容积图信号(Qi 等人,2020年)的方法已经取得了成功。然而,这些方法的有效性通常仅限于特定的伪造特征,使得它们容易受到未见过的操纵技术的影响。
深度伪造检测器实际应用的主要限制在于其较差的泛化能力,这通常表现为跨数据集性能的显著下降。在像 FaceForensics++(FF++)(R?ssler 等人,2019年)这样的标准训练集上表现出色的模型,在面对 Celeb-DF(Li 等人,2020c年)或 Deepfake Detection Challenge(DFDC)(Dolhansky 等人,2020年)等数据集中的未见过的伪造内容时,其准确率往往会大幅下降。这种差异指向了一个根本问题:模型的捷径学习现象(Geirhos 等人,2020年)。这些捷径表现为多种形式,从广泛的环境线索(如重复的背景图案和身份)到更微妙的、模型在未使用强大数据增强训练时过度拟合的生成器特定伪痕迹(Wang 等人,2020年)。
我们认为,只有通过强制模型系统地忽略这些虚假线索,转而分离出真正的因果特征——即由操纵行为本身直接产生的特征,才能实现稳健的泛化。这一因果解耦原则构成了我们方法的理论基础。尽管因果原理已被用于提高其他视觉任务中的分布外鲁棒性(Arjovsky 等人,2019年),但将其应用于深度伪造检测中,以解开伪造伪痕迹与领域统计之间的复杂相互作用仍处于初期阶段。先前的工作已经尝试将图像内容与伪造痕迹分离(Liang 等人,2022年)或寻找跨领域的共同特征(Yan 等人,2023年),但一个能够动态发现潜在伪造结构同时确保稳定、协同解耦的框架仍有待完全实现。
受监督对比学习(Supervised Contrastive Learning, Khosla 等人,2020年)的启发,我们提出的框架采用了一个非对称的目标函数,其中虚假分支(Spurious Branch)作为因果分支(Causal Branch)的负锚点来源,同时避免受到冲突梯度信号的影响。这种协同机制的目标是引导网络形成一种与方法无关且领域不变的伪造表示。在这项工作中,我们提出了因果解耦网络(CD-Net),该框架通过一种创新的协同学习策略实现了这一原则。图 1 展示了我们的方法与以往方法的区别。我们的贡献有四点:
(1) 我们的双分支架构通过分配一个专门的因果分支用于处理通用的伪造伪痕迹,以及一个专门的虚假分支用于处理领域特定的干扰因素,系统地分离特征学习。
(2) 我们提出了可学习的频率注意力模块(LFAM),将其集成到因果路径中,以动态增强微妙的操纵线索。
(3) 我们引入了解耦对比学习(Disentanglement Contrastive Learning, DCL)作为主要的优化驱动因素。
(4) 我们的 CD-Net 在 demanding 的跨数据集场景中相对于几种最先进的方法取得了良好的结果。