探索特征金字塔网络和特征融合技术在通用深度伪造检测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：Exploring Feature Pyramid Networks and Feature Fusion for Generalized Deepfake Detection

【字体：大中小】 时间：2026年01月21日 来源：Digital Signal Processing 3

编辑推荐：

　　多尺度特征金字塔网络与跨特征空间注意力机制结合的深度伪造检测方法，提出图像混合增强和多层特征融合策略，显著提升细粒度伪造痕迹识别与跨数据集泛化能力，在CDF2、UADFV、DFD数据集上AUC分别达到93.22%、96.88%、92.67%。

杨高明|孙标虎|王秀军

安徽科学技术大学计算机科学与工程学院，中国安徽省淮南市太平街168号，232001

摘要

深度伪造技术的加速发展引发了严重的信任危机，促使众多学者寻求有效的检测方法来识别此类伪造内容。然而，当前的检测方法主要依赖于有限的伪造线索和无关信息来提升数据集内的性能，但在实际应用中存在泛化能力和鲁棒性不足的问题。为了解决这些问题，我们设计了一种多尺度特征金字塔网络（MS-FPN），该网络专注于伪造区域，并采用了一种修改痕迹增强策略来揭示更多的篡改痕迹。具体而言，MS-FPN在特征提取过程中会对伪造区域进行分割，从而减少检测器对无关信息的依赖，使其能够更专注于被篡改的区域。此外，我们还提出了一种即插即用的跨特征空间注意力（CFSA）模块，以加强对高级特征的约束。同时，我们开发了一种伪造图像重混方法，通过混合两张增强后的伪造图像来突出更普遍的篡改痕迹；并且利用多级特征融合（MLFF）模块整合多尺度特征，使网络能够捕捉到细粒度的局部特征。在多个公开基准测试上的广泛实验表明，所提出的方法在跨数据集和跨操作场景下的泛化能力表现出色，在CDF2上获得了93.22%的AUC分数，在UADFV上获得了96.88%的AUC分数，在DFD上获得了92.67%的AUC分数。可视化结果进一步证实，我们的方法为面部伪造取证提供了可解释且可靠的证据。代码可在以下链接获取：https://github.com/Sun-researcher/SD-Net-main

引言

深度学习的快速发展[[1], [2], [3]]极大地推动了深度伪造技术的发展。在过去十年中，生成对抗网络（GANs）[[4], [5], [6], [7]]和扩散概率模型[8,9]的进步使得深度伪造技术能够生成越来越逼真的图像和视频。这些技术在动态图像合成和电影视觉效果等领域有着广泛的应用。然而，这些工具的广泛可用性和易用性也为恶意用途打开了大门，引发了严重的社会和政治问题。例如，假新闻的传播、伪造法律证据的制造以及政治人物的冒名顶替等现象。此外，这种滥用还威胁到了个人的声誉和财务安全，最终可能破坏国家稳定。例如，《独立报》报道了2024年韩国发生的一起深度伪造事件[10]，其中利用面部替换技术制作并传播了针对女性的非自愿露骨视频，导致了严重的心理困扰和信任危机。这些令人担忧的发展凸显了迫切需要一种通用且鲁棒的深度伪造检测方法来应对这些威胁。

早期的检测方法依赖于手工制作的特征来提高在不同数据集上的性能，例如边界融合[11,12]和面部不一致性[[13], [14], [15]]。然而，随着后处理技术的进步，这些特征逐渐消失了。同时，一些方法开始关注与身份相关的特征[16,17]，但研究表明这种关注可能会阻碍泛化性能的提升[18]。最近，许多研究开始利用频率或频域特征[[19], [20], [21]]，利用局部的高频模式来增强深度伪造检测器的鲁棒性。尽管取得了这些进展，但这些方法往往难以识别细粒度区域，并且倾向于提取与伪造无关的特征，这限制了它们在检测微妙篡改方面的有效性，并降低了它们在实际应用中的通用性。为了解决这个问题，许多研究采用了特征融合策略[22,23]，这些策略明显提高了模型对未见过的伪造内容的检测性能。然而，大多数方法主要集中在不同模态之间整合高级语义特征，而很大程度上忽略了能够进一步提高检测准确性的低级语义信息。

近年来，随着视觉变换器在面部伪造检测方面的进步，注意力机制被引入以聚焦面部区域，实现了有希望的泛化能力[21,24]。然而，这些模型往往缺乏可解释性，无法为面部取证或司法鉴定提供可靠的证据。基于这些观察，我们认为减少模型对背景和身份信息的依赖是提高泛化性能的关键。为了验证这一假设，我们在图1中展示了典型的深度伪造生成过程。深度伪造大致可以分为全脸合成[4]和面部替换[6]，其中篡改主要影响面部区域和边界融合。此外，由于编码和解码过程的参与，合成面孔中的伪造线索较为微妙且分布不均。一些区域包含明显的伪造痕迹，而其他区域则包含细粒度的伪造线索，只有较小的篡改区域可以被检测到。这种限制源于现有检测方法倾向于只学习少数伪造线索，忽略了其他细粒度特征。因此，提高泛化能力的另一个关键步骤是训练网络忽略与伪造无关的信息，并充分利用所有可用的伪造证据。

考虑到这些因素，我们将伪造区域分割集成到检测过程中。在数据加载时，我们使用重混方法处理后的伪造图像作为模型的输入；这种数据增强突出了异常边界、面部特征的不一致性和一般的微妙篡改痕迹。为了引导模型关注伪造区域，我们使用了一种多尺度特征金字塔网络，该网络通过图像分割专门关注被篡改的区域。这种方法在提取背景和身份信息的同时，也关注边界区域。然而，随着分类网络的语义特征逐渐抽象化，特征金字塔网络对高级语义特征的约束能力逐渐减弱。为了解决这个问题，我们提出了一种简单而有效的跨特征空间注意力机制作为补充模块。此外，一些伪造线索存在于低级语义特征中，这些特征在卷积过程中容易丢失，导致局部信息在决策中的利用受到限制。因此，我们采用了多级特征融合模块来捕捉细粒度的局部篡改痕迹，使网络能够进行更详细的多级分析。总之，本文的贡献如下：

(1)

我们引入了一种图像重混方法，显著增强了细粒度的伪造特征，并提升了模型的检测能力。

(2)

我们设计了一种创新的多尺度特征金字塔网络，并结合了跨特征空间注意力机制，可以有效定位潜在的篡改区域，减少与伪造无关信息的提取，关注较大的伪造区域，并提高模型对未见过的伪造图像的检测性能。

(3)

我们整合了多级特征融合模块，可以从不同层次整合全局和局部语义特征，减少细粒度信息的丢失。

(4)

在六个数据集上的广泛实验证明了我们框架的有效性和优越性，与最先进的方法相比，我们的框架在性能上实现了持续的提升，并能够准确定位被篡改的区域。

本文的结构如下：第2节回顾了深度伪造检测的相关文献；第3节详细介绍了所提出的框架；第4节展示了实验结果和讨论；第5节总结了研究内容。

部分摘录

传统检测方法

早期的研究通过利用从空间特征中提取的手工特征来检测面部伪造，例如Face X-Ray和SBI（Li等人[11]和Shiohara等人[12]），这些方法依赖于面部替换中常见的篡改边界，试图在最小化对特定伪造特征的过拟合的同时发现混合信息的证据。一些学者研究了生成视频中的高级语义不规则性。Haliassos等人[13]提出了一种跨模态方法

方法

在本节中，我们介绍了一个通用的深度伪造检测和分割框架。该框架旨在从多个层次捕获更多的伪造线索，关注更广泛的篡改区域，减少与伪造无关特征的提取，并为司法鉴定提供证据。

深度伪造检测的主要目标是提取面部区域中更具区分性的特征。因此，我们首先介绍了一个增强的特征金字塔网络

实验

在本节中，我们首先概述了实验设置和评估指标。随后，我们通过定性和定量分析将我们的方法与其他最先进（SOTA）方法进行了比较。这包括数据集内评估、跨数据集评估和跨操作评估。由于某些方法的官方代码和详细实验设置无法获取，因此除了基线方法外，所有方法的结果都来自原始论文。

结论

在这项工作中，我们设计了一个创新的增强型特征金字塔网络，用于通用深度伪造检测。具体来说，我们提出了一个多尺度特征金字塔网络（MS-FPN），该网络与跨特征空间注意力（CFSA）模块无缝集成，可以有效检测未知的伪造模式，同时最小化面部背景信息和身份表示的影响。然后，我们利用多级特征融合（MLFF）模块来捕获局部和全局信息

CRediT作者贡献声明

孙标虎：撰写 - 原始草稿、验证、方法论、形式分析、数据整理、概念化。杨高明：撰写 - 审稿与编辑、方法论、形式分析。王秀军：资源提供、监督。

数据可用性

数据可根据请求提供。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

传统检测方法

方法

实验

结论

CRediT作者贡献声明

数据可用性

热点排行