深度学习的快速发展[[1], [2], [3]]极大地推动了深度伪造技术的发展。在过去十年中,生成对抗网络(GANs)[[4], [5], [6], [7]]和扩散概率模型[8,9]的进步使得深度伪造技术能够生成越来越逼真的图像和视频。这些技术在动态图像合成和电影视觉效果等领域有着广泛的应用。然而,这些工具的广泛可用性和易用性也为恶意用途打开了大门,引发了严重的社会和政治问题。例如,假新闻的传播、伪造法律证据的制造以及政治人物的冒名顶替等现象。此外,这种滥用还威胁到了个人的声誉和财务安全,最终可能破坏国家稳定。例如,《独立报》报道了2024年韩国发生的一起深度伪造事件[10],其中利用面部替换技术制作并传播了针对女性的非自愿露骨视频,导致了严重的心理困扰和信任危机。这些令人担忧的发展凸显了迫切需要一种通用且鲁棒的深度伪造检测方法来应对这些威胁。
早期的检测方法依赖于手工制作的特征来提高在不同数据集上的性能,例如边界融合[11,12]和面部不一致性[[13], [14], [15]]。然而,随着后处理技术的进步,这些特征逐渐消失了。同时,一些方法开始关注与身份相关的特征[16,17],但研究表明这种关注可能会阻碍泛化性能的提升[18]。最近,许多研究开始利用频率或频域特征[[19], [20], [21]],利用局部的高频模式来增强深度伪造检测器的鲁棒性。尽管取得了这些进展,但这些方法往往难以识别细粒度区域,并且倾向于提取与伪造无关的特征,这限制了它们在检测微妙篡改方面的有效性,并降低了它们在实际应用中的通用性。为了解决这个问题,许多研究采用了特征融合策略[22,23],这些策略明显提高了模型对未见过的伪造内容的检测性能。然而,大多数方法主要集中在不同模态之间整合高级语义特征,而很大程度上忽略了能够进一步提高检测准确性的低级语义信息。
近年来,随着视觉变换器在面部伪造检测方面的进步,注意力机制被引入以聚焦面部区域,实现了有希望的泛化能力[21,24]。然而,这些模型往往缺乏可解释性,无法为面部取证或司法鉴定提供可靠的证据。基于这些观察,我们认为减少模型对背景和身份信息的依赖是提高泛化性能的关键。为了验证这一假设,我们在图1中展示了典型的深度伪造生成过程。深度伪造大致可以分为全脸合成[4]和面部替换[6],其中篡改主要影响面部区域和边界融合。此外,由于编码和解码过程的参与,合成面孔中的伪造线索较为微妙且分布不均。一些区域包含明显的伪造痕迹,而其他区域则包含细粒度的伪造线索,只有较小的篡改区域可以被检测到。这种限制源于现有检测方法倾向于只学习少数伪造线索,忽略了其他细粒度特征。因此,提高泛化能力的另一个关键步骤是训练网络忽略与伪造无关的信息,并充分利用所有可用的伪造证据。
考虑到这些因素,我们将伪造区域分割集成到检测过程中。在数据加载时,我们使用重混方法处理后的伪造图像作为模型的输入;这种数据增强突出了异常边界、面部特征的不一致性和一般的微妙篡改痕迹。为了引导模型关注伪造区域,我们使用了一种多尺度特征金字塔网络,该网络通过图像分割专门关注被篡改的区域。这种方法在提取背景和身份信息的同时,也关注边界区域。然而,随着分类网络的语义特征逐渐抽象化,特征金字塔网络对高级语义特征的约束能力逐渐减弱。为了解决这个问题,我们提出了一种简单而有效的跨特征空间注意力机制作为补充模块。此外,一些伪造线索存在于低级语义特征中,这些特征在卷积过程中容易丢失,导致局部信息在决策中的利用受到限制。因此,我们采用了多级特征融合模块来捕捉细粒度的局部篡改痕迹,使网络能够进行更详细的多级分析。总之,本文的贡献如下:
(1)我们引入了一种图像重混方法,显著增强了细粒度的伪造特征,并提升了模型的检测能力。
(2)我们设计了一种创新的多尺度特征金字塔网络,并结合了跨特征空间注意力机制,可以有效定位潜在的篡改区域,减少与伪造无关信息的提取,关注较大的伪造区域,并提高模型对未见过的伪造图像的检测性能。
(3)我们整合了多级特征融合模块,可以从不同层次整合全局和局部语义特征,减少细粒度信息的丢失。
(4)在六个数据集上的广泛实验证明了我们框架的有效性和优越性,与最先进的方法相比,我们的框架在性能上实现了持续的提升,并能够准确定位被篡改的区域。
本文的结构如下:第2节回顾了深度伪造检测的相关文献;第3节详细介绍了所提出的框架;第4节展示了实验结果和讨论;第5节总结了研究内容。