基于超像素增强提取技术和双分支视觉变换器的深度伪造检测方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Deepfake detection based on super pixels-enhanced extraction and dual-branch vision transformers

【字体：大中小】 时间：2026年01月25日 来源：Neurocomputing 6.5

编辑推荐：

　　针对深度伪造检测中伪造痕迹细微且区域特定、数据集类别不平衡的问题，本文提出RDFM模型，通过强化块增强局部特征，结合Swin和ViT的双分支结构捕捉多尺度不一致，并采用多部分处理训练策略缓解不平衡，实验验证其在DFDC、Celeb-DF V2和FaceForensics++上的性能提升。

Jingwen Meng|Duzhong Zhang|Xinchen Wang|Li Li|Taiyong Li

西南财经大学计算机与人工智能学院，中国成都，611130

摘要

随着深度伪造技术的进步，检测伪造视频变得越来越困难，这带来了诸如错误信息和安全威胁等严重风险。虽然混合CNN-Transformer模型提高了检测能力，但它们面临着双重挑战：伪造痕迹变得越来越微妙且具有区域特异性，而像DFDC这样的真实世界数据集存在严重的类别不平衡问题。在这种情况下，稀疏的、微妙的判别特征很容易被多数类（真实面孔）的主要信息或环境噪声所掩盖。为了解决这个问题，我们提出了精细双重融合模型（RDFM）。具体来说，RDFM引入了受Super Pixels启发的强化块（Reinforcement-block）模块。该模块作为一个具有内容感知能力的过滤器，显式增强这些微妙的、局部的伪造痕迹，同时抑制无关的背景噪声，以防止模型过度拟合不平衡的数据分布。此外，我们采用了一种结合了Shifted Windows（Swin）和Vision Transformers（ViT）的双分支结构来捕捉多尺度不一致性，并通过一个可学习的融合矩阵进行整合。为了进一步解决数据集不平衡问题，我们引入了一种多部分处理（Multi-Part-Processing）训练策略，该策略集成了在自适应样本比例上训练的模型。实验结果表明，RDFM在DFDC数据集上的AUC和F1分数上取得了显著提升，并在Celeb-DF V2和FaceForensics++（FF++）上展现了强大的泛化能力。

引言

随着人工智能的快速发展，特别是生成式神经网络，生成深度伪造内容的能力变得越来越复杂。合成的面部视频现在如此逼真，以至于肉眼往往无法将其与真实视频区分开来。这种伪造内容的广泛传播带来了重大风险，因为无法辨别真伪的人可能会被轻易误导，从而导致严重的社会和政治威胁[1]、[2]、[3]、[4]。因此，制定有效的诊断和检测这些伪造内容的技术至关重要。

为了解决高保真度伪造带来的挑战，研究人员探索了多种深度伪造检测策略。现有方法大致可以分为五个互补的方向：传统特征驱动模型[5]、[6]、整体到局部模型[7]、[8]、[9]、[10]、[11]、[12]、优化驱动模型[4]、[14]、[15]、粒度敏感模型[16]、[17]以及关注伪造痕迹的模型[8]、[18]。

早期研究依赖于使用手工制作的特征（如眨眼动态和头部姿态估计）的传统机器学习方法，并通过SVM或决策树进行分类[5]、[6]。随着深度学习的进步，整体到局部的建模方法变得主流，利用CNN和Transformer对全局面部表示进行编码，然后结合多尺度线索以提高敏感性[7]、[10]、[13]。优化驱动的方法通过设计特定于任务的损失函数来引导模型关注易被操纵的区域[4]、[14]、[15]。同时，粒度敏感的方法将检测重新定义为细粒度分类任务，整合注意力机制和纹理增强技术以隔离微妙的伪造痕迹[16]、[17]。最后，关注伪造痕迹的建模专注于局部不一致性，表明与仅使用全局表示相比，分析局部伪造痕迹可以提高模型对抗对抗性操纵的鲁棒性[8]、[18]。

最近的进展进一步扩展了这一领域。例如RLGC框架[19]等基于重建的方法，通过融合内容和梯度信息来突出微妙痕迹。像WATCHER[20]这样的纹理和关系感知方法，使用小波引导的编码器来模拟内容和纹理之间的相互作用。此外，像DSTI[21]这样的时空方法通过整合全局-局部光照线索，将检测范围扩展到单个帧之外。在这些方法中，混合CNN–Transformer模型因结合CNN骨干进行特征提取和Vision Transformers（ViT）进行关系推理而受到关注[1]、[7]、[8]、[22]。通常，这些框架从目标视频中提取帧，并使用深度CNN生成特征图，然后由ViT分类器进行处理。在针对的具体特征方面存在差异；例如，Soudy等人[1]分别对眼睛、鼻子和整张脸的特征进行分类，并通过多数投票融合预测结果，而Ha等人[22]和Heo等人[8]则使用集成方法和知识蒸馏来提高泛化能力。

尽管取得了这些进展，深度伪造检测模型在真实性验证和泛化方面仍然面临重大挑战，这体现在AUC和F1分数的限制上。我们认为这一瓶颈是由于特征微妙性和数据不平衡之间的相互作用。正如最近的研究[16]所指出的，区分特征变得越来越局部化和微妙。虽然细化输入特征（例如将补丁大小从

减少到

）可以捕捉局部细节，但会指数级增加计算资源，并使Transformer模型内的关系提取变得复杂。此外，对于像DFDC这样的不平衡数据集，仅仅扩展特征维度是不够的，因为大量真实样本会导致标准注意力机制过度拟合于琐碎的背景模式而非伪造痕迹。尽管最近的研究尝试通过双层框架[4]或细粒度分类[16]来解决这个问题，但如果没有有效抑制无关噪声，扩展特征空间仍然是不够理想的。

为了解决这些限制，本文提出了精细双重融合模型（RDFM），这是一种旨在增强特征提取和处理数据不平衡的双分支判别网络。该模型包括一个局部分支和一个全局分支。局部分支通过一种新颖的强化块（Reinforcement-block）处理卷积提取的特征，从而放大对局部区域的关注。同时，全局分支整合了Shifted Windows（Swin）模块来提取多尺度特征，确保对微妙伪造痕迹的全面感知。

具体来说，全局分支使用了在ImageNet-1K上预训练的Swin-S网络，该网络动态调整补丁大小，以克服标准ViT模型的固定补丁限制。为了整合这两个分支，我们引入了一个可学习的矩阵，在训练过程中优化局部和全局特征的融合。在局部分支中，所提出的强化块受到Super Pixel概念的启发，放大微妙特征并在传递给ViT之前调整特征之间的关系。残差连接将这些修改后的特征与原始输入结合，以确保详细的特征提取和计算效率。

此外，为了缓解DFDC数据集中的类别不平衡问题，我们提出了多部分处理（Multi-Part-Processing）训练方法。该方法受到AdaBoost的启发，在下采样大量负样本的同时保持固定数量的正样本，从而创建具有不同正负比例的局部特征空间。通过在这些子集上训练多个模型并融合它们的输出，我们有效地提高了在不平衡数据上的检测性能。

总之，所提出的RDFM的贡献有三个方面：

1.

我们将Swin-S网络作为全局分支，用于全面的特征表示，并引入一个可学习的矩阵来优化局部和全局分支的融合。

2.

受到Super Pixels的启发，我们提出了强化块（Reinforcement-block）模块，以严格增强或抑制局部区域内的特征。

3.

受到AdaBoost的启发，我们引入了多部分处理（Multi-Part-Processing）训练方法，该方法利用在不同正负样本比例上训练的集成模型来缓解数据不平衡。

本文的其余部分组织如下。第2节回顾了相关工作，包括Super Pixels和Swin Transformers。第3节详细介绍了RDFM和强化块的架构。第4节展示了实验结果、消融研究以及多部分处理方法的验证。最后，第5节总结了本文。

部分摘录

深度伪造检测

特别是在数字媒体中，人造人脸的制造对公共安全构成了重大威胁，因此检测这种伪造成为了一个关键的研究领域。为了补充引言中的简要概述，本小节提供了现有深度伪造检测方法的详细分类。我们根据它们的建模策略将代表性模型分为五个不同的类别：传统特征驱动模型、整体到局部模型

概述

深度伪造检测面临一个两难问题：区分伪造痕迹往往很微妙且具有局部性，但检测它们需要理解更广泛的全局背景，以避免误判为环境噪声。单流Transformer模型[7]、[16]往往难以平衡这些需求，因为固定补丁的分割可能会切断局部伪造痕迹与其周围环境之间的语义联系。为了解决这个问题，我们提出了RDFM，这是一种双分支架构，它协同工作

数据集

为了评估我们模型的鲁棒性和泛化能力，我们在两个广泛认可的深度伪造数据集上进行了实验：Deepfake Detection Challenge（DFDC）[41]和Celeb-DF v2 [42]。

DFDC数据集[41]目前是该领域最全面的资源之一，包含大约100,000个使用生成对抗网络（GANs）生成的伪造视频。如图6所示，该数据集涵盖了广泛的视觉变化。

从历史上看，该数据集的演变

结论

在本文中，我们提出了RDFM，这是一种旨在增强深度伪造检测中细粒度特征提取的新架构。在具有挑战性的DFDC数据集上的实验结果表明，RDFM在准确性、F1分数和AUC方面表现出色。此外，在Celeb-DF V2和基于扩散的DiFF数据集上的跨数据集评估也证实了该模型在面对未见领域时的强大泛化能力。此外，在FF++上的数据集内实验进一步验证了

CRediT作者贡献声明

Jingwen Meng：撰写——原始草稿、验证、软件、方法论、概念化。Duzhong Zhang：撰写——审阅与编辑、监督、方法论、概念化。Xinchen Wang：撰写——审阅与编辑、可视化、软件。Li Li：验证、软件。Taiyong Li：撰写——审阅与编辑、方法论、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本项工作得到了西南财经大学光华青年项目的支持[项目编号220810001002020113]。

科学写作中的生成式AI声明

在准备这项工作期间，作者使用ChatGPT来提高英语写作水平。使用该服务后，作者根据需要对内容进行了审阅和编辑，并对发表文章的内容负全责。

Xinchen Wang目前正在西南财经大学攻读计算机科学与技术硕士学位。他于2023年从南通大学获得了计算机科学与技术学士学位。他目前的研究兴趣包括图像隐写和图像加密。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

深度伪造检测

概述

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

科学写作中的生成式AI声明

热点排行