动态解缠机制：一种用于深度伪造检测的对比性因果框架

《Computer Vision and Image Understanding》：Dynamic disentanglement: A contrastive causal framework for deepfake detection

【字体：大中小】 时间：2026年05月10日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　``作者：石辉 | 王贵斌 | 李飞 | 刘明阳 | 孟向宇单位：辽宁师范大学计算机科学与人工智能学院，中国大连 116029 摘要深度伪造检测方法在基准数据集上取得了很高的准确率，但在面对未见过的操纵技术时，其性能往往会大幅下降。这种泛化能力的差距的根本原因在于模型倾向

作者：石辉 | 王贵斌 | 李飞 | 刘明阳 | 孟向宇

单位：辽宁师范大学计算机科学与人工智能学院，中国大连 116029

摘要

深度伪造检测方法在基准数据集上取得了很高的准确率，但在面对未见过的操纵技术时，其性能往往会大幅下降。这种泛化能力的差距的根本原因在于模型倾向于记忆数据集特定的特征，而不是学习伪造行为的本质模式。为了解决这个问题，我们提出了一个基于因果解耦原理的创新框架。因果解耦网络（Causal Disentanglement Network, CD-Net）采用双分支架构，将因果（伪造特定）特征与非因果（领域特定）干扰因素分离。其中一个关键创新是可学习的频率注意力模块（Learnable Frequency Attention Module, LFAM），它能够动态调整因果特征，以在频率域中放大微妙的操纵痕迹。该框架通过多目标损失函数进行优化，其中 supervised contrastive loss 的作用尤为突出，它构建了一个与方法无关且具有高度辨别力的因果嵌入空间。通过迫使模型基于解耦后的因果证据进行预测，我们的方法在多个具有挑战性的数据集上实现了最佳的泛化性能。全面的实验表明，CD-Net 在跨数据集评估中优于现有方法，并且对各种未见过的操纵技术具有更强的鲁棒性。

引言

生成模型，包括生成对抗网络（Generative Adversarial Networks, GANs）（Goodfellow 等人，2014年）和去噪扩散概率模型（Denoising Diffusion Probabilistic Models, Ho 等人，2020年），现在已经能够合成和操纵面部图像，其真实感足以挑战人类的感知。虽然这项技术在创新应用方面具有巨大潜力，但若被用于恶意目的（如传播虚假信息和实施身份盗窃），将严重威胁信息安全并破坏公众信任。因此，开发既准确又具有广泛泛化能力的深度伪造检测方法至关重要。

目前的检测方法主要集中在识别生成过程中固有的特征性伪痕迹。一个重要的研究方向是利用合成流程经常在频率域引入微妙伪痕迹的事实；旨在识别这些高频差异的检测技术已经显示出相当的有效性（Frank 等人，2020年；Liu 等人，2021年；Luo 等人，2021年；Qian 等人，2020年）。另一条补充性研究路径则关注生理上的不一致性，基于生成模型往往无法准确再现生物上合理的信号这一前提。针对不规则眨眼（Li 等人，2018a年）、不自然头部姿态（Yang 等人，2019年）或异常光电容积图信号（Qi 等人，2020年）的方法已经取得了成功。然而，这些方法的有效性通常仅限于特定的伪造特征，使得它们容易受到未见过的操纵技术的影响。

深度伪造检测器实际应用的主要限制在于其较差的泛化能力，这通常表现为跨数据集性能的显著下降。在像 FaceForensics++（FF++）（R?ssler 等人，2019年）这样的标准训练集上表现出色的模型，在面对 Celeb-DF（Li 等人，2020c年）或 Deepfake Detection Challenge（DFDC）（Dolhansky 等人，2020年）等数据集中的未见过的伪造内容时，其准确率往往会大幅下降。这种差异指向了一个根本问题：模型的捷径学习现象（Geirhos 等人，2020年）。这些捷径表现为多种形式，从广泛的环境线索（如重复的背景图案和身份）到更微妙的、模型在未使用强大数据增强训练时过度拟合的生成器特定伪痕迹（Wang 等人，2020年）。

我们认为，只有通过强制模型系统地忽略这些虚假线索，转而分离出真正的因果特征——即由操纵行为本身直接产生的特征，才能实现稳健的泛化。这一因果解耦原则构成了我们方法的理论基础。尽管因果原理已被用于提高其他视觉任务中的分布外鲁棒性（Arjovsky 等人，2019年），但将其应用于深度伪造检测中，以解开伪造伪痕迹与领域统计之间的复杂相互作用仍处于初期阶段。先前的工作已经尝试将图像内容与伪造痕迹分离（Liang 等人，2022年）或寻找跨领域的共同特征（Yan 等人，2023年），但一个能够动态发现潜在伪造结构同时确保稳定、协同解耦的框架仍有待完全实现。

受监督对比学习（Supervised Contrastive Learning, Khosla 等人，2020年）的启发，我们提出的框架采用了一个非对称的目标函数，其中虚假分支（Spurious Branch）作为因果分支（Causal Branch）的负锚点来源，同时避免受到冲突梯度信号的影响。这种协同机制的目标是引导网络形成一种与方法无关且领域不变的伪造表示。在这项工作中，我们提出了因果解耦网络（CD-Net），该框架通过一种创新的协同学习策略实现了这一原则。图 1 展示了我们的方法与以往方法的区别。我们的贡献有四点：

(1) 我们的双分支架构通过分配一个专门的因果分支用于处理通用的伪造伪痕迹，以及一个专门的虚假分支用于处理领域特定的干扰因素，系统地分离特征学习。

(2) 我们提出了可学习的频率注意力模块（LFAM），将其集成到因果路径中，以动态增强微妙的操纵线索。

(3) 我们引入了解耦对比学习（Disentanglement Contrastive Learning, DCL）作为主要的优化驱动因素。

(4) 我们的 CD-Net 在 demanding 的跨数据集场景中相对于几种最先进的方法取得了良好的结果。

章节摘录

早期和基础性的深度伪造检测工作集中在识别生成过程中引入的特定且通常难以察觉的伪痕迹上。这些方法可以根据它们操作的领域进行广泛分类。

频率域分析。一个特别富有成效的研究领域是对频率域内图像的分析。GAN 架构中常见的上采样层通常会留下明显的周期性图案，在频率域中更为明显。

提出的方法

深度伪造检测的核心挑战在于泛化能力：尽管模型在已知伪造方法上表现良好，但在面对未见过的伪造操纵时，其性能往往会大幅下降。我们将这种脆弱性归因于一种普遍的学习伪痕迹：检测器倾向于过度拟合于数据集特定的虚假线索，如压缩伪痕迹、来源相机噪声甚至背景场景，而不是学习数字伪造的基本、可泛化的特征。

实验设置

数据集。训练时，我们使用了 FaceForensics++（FF++）（R?ssler 等人，2019年）和使用 SimSwap（Liu 等人，2015年）进行面部交换的 CelebA 数据集。FF++ 包含 1000 个真实视频和 4000 个经过各种技术处理的视频（Deepfakes、Face2Face、FaceSwap 和 NeuralTextures）。我们从每个伪造视频中提取前 16 帧。对于跨数据集评估，我们使用了三个外部基准数据集：Celeb-DF-v2（Li 等人，2020c年）、DFDC（Dolhansky 等人，2020年）和 DFD（2019年），这些数据集提供了更丰富的视觉信息。

结论

在这项工作中，我们解决了深度伪造检测中的泛化问题，将其归因于模型学习了数据集特定的虚假相关性。我们提出了 CD-Net，这是一个旨在显式隔离和利用数字操纵因果痕迹的创新框架。我们的方法包括用于特征分离的双分支架构、用于增强微妙伪造线索的可学习频率注意力模块（LFAM），以及解耦对比学习损失（Disentanglement Contrastive Learning loss）。

石辉：撰写——原始草稿、验证、方法论、研究、资金获取、概念化。王贵斌：撰写——原始草稿、可视化、监督、软件、方法论、研究、正式分析、数据整理。李飞：监督、研究、正式分析。刘明阳：验证、项目管理、正式分析。孟向宇：验证、研究、概念化。

资金信息

本研究部分得到了辽宁省自然科学基金（项目编号：2025-MSLH-435）和中国博士后科学基金（项目编号：2025M781459）的支持。

Google AI 博客（2019年）

作者声明他们没有已知的利益冲突或个人关系可能影响本文报告的工作。

```

摘要

引言