随着人工智能的快速发展,特别是生成式神经网络,生成深度伪造内容的能力变得越来越复杂。合成的面部视频现在如此逼真,以至于肉眼往往无法将其与真实视频区分开来。这种伪造内容的广泛传播带来了重大风险,因为无法辨别真伪的人可能会被轻易误导,从而导致严重的社会和政治威胁[1]、[2]、[3]、[4]。因此,制定有效的诊断和检测这些伪造内容的技术至关重要。
为了解决高保真度伪造带来的挑战,研究人员探索了多种深度伪造检测策略。现有方法大致可以分为五个互补的方向:传统特征驱动模型[5]、[6]、整体到局部模型[7]、[8]、[9]、[10]、[11]、[12]、优化驱动模型[4]、[14]、[15]、粒度敏感模型[16]、[17]以及关注伪造痕迹的模型[8]、[18]。
早期研究依赖于使用手工制作的特征(如眨眼动态和头部姿态估计)的传统机器学习方法,并通过SVM或决策树进行分类[5]、[6]。随着深度学习的进步,整体到局部的建模方法变得主流,利用CNN和Transformer对全局面部表示进行编码,然后结合多尺度线索以提高敏感性[7]、[10]、[13]。优化驱动的方法通过设计特定于任务的损失函数来引导模型关注易被操纵的区域[4]、[14]、[15]。同时,粒度敏感的方法将检测重新定义为细粒度分类任务,整合注意力机制和纹理增强技术以隔离微妙的伪造痕迹[16]、[17]。最后,关注伪造痕迹的建模专注于局部不一致性,表明与仅使用全局表示相比,分析局部伪造痕迹可以提高模型对抗对抗性操纵的鲁棒性[8]、[18]。
最近的进展进一步扩展了这一领域。例如RLGC框架[19]等基于重建的方法,通过融合内容和梯度信息来突出微妙痕迹。像WATCHER[20]这样的纹理和关系感知方法,使用小波引导的编码器来模拟内容和纹理之间的相互作用。此外,像DSTI[21]这样的时空方法通过整合全局-局部光照线索,将检测范围扩展到单个帧之外。在这些方法中,混合CNN–Transformer模型因结合CNN骨干进行特征提取和Vision Transformers(ViT)进行关系推理而受到关注[1]、[7]、[8]、[22]。通常,这些框架从目标视频中提取帧,并使用深度CNN生成特征图,然后由ViT分类器进行处理。在针对的具体特征方面存在差异;例如,Soudy等人[1]分别对眼睛、鼻子和整张脸的特征进行分类,并通过多数投票融合预测结果,而Ha等人[22]和Heo等人[8]则使用集成方法和知识蒸馏来提高泛化能力。
尽管取得了这些进展,深度伪造检测模型在真实性验证和泛化方面仍然面临重大挑战,这体现在AUC和F1分数的限制上。我们认为这一瓶颈是由于特征微妙性和数据不平衡之间的相互作用。正如最近的研究[16]所指出的,区分特征变得越来越局部化和微妙。虽然细化输入特征(例如将补丁大小从减少到)可以捕捉局部细节,但会指数级增加计算资源,并使Transformer模型内的关系提取变得复杂。此外,对于像DFDC这样的不平衡数据集,仅仅扩展特征维度是不够的,因为大量真实样本会导致标准注意力机制过度拟合于琐碎的背景模式而非伪造痕迹。尽管最近的研究尝试通过双层框架[4]或细粒度分类[16]来解决这个问题,但如果没有有效抑制无关噪声,扩展特征空间仍然是不够理想的。
为了解决这些限制,本文提出了精细双重融合模型(RDFM),这是一种旨在增强特征提取和处理数据不平衡的双分支判别网络。该模型包括一个局部分支和一个全局分支。局部分支通过一种新颖的强化块(Reinforcement-block)处理卷积提取的特征,从而放大对局部区域的关注。同时,全局分支整合了Shifted Windows(Swin)模块来提取多尺度特征,确保对微妙伪造痕迹的全面感知。
具体来说,全局分支使用了在ImageNet-1K上预训练的Swin-S网络,该网络动态调整补丁大小,以克服标准ViT模型的固定补丁限制。为了整合这两个分支,我们引入了一个可学习的矩阵,在训练过程中优化局部和全局特征的融合。在局部分支中,所提出的强化块受到Super Pixel概念的启发,放大微妙特征并在传递给ViT之前调整特征之间的关系。残差连接将这些修改后的特征与原始输入结合,以确保详细的特征提取和计算效率。
此外,为了缓解DFDC数据集中的类别不平衡问题,我们提出了多部分处理(Multi-Part-Processing)训练方法。该方法受到AdaBoost的启发,在下采样大量负样本的同时保持固定数量的正样本,从而创建具有不同正负比例的局部特征空间。通过在这些子集上训练多个模型并融合它们的输出,我们有效地提高了在不平衡数据上的检测性能。
总之,所提出的RDFM的贡献有三个方面:
1.我们将Swin-S网络作为全局分支,用于全面的特征表示,并引入一个可学习的矩阵来优化局部和全局分支的融合。
2.受到Super Pixels的启发,我们提出了强化块(Reinforcement-block)模块,以严格增强或抑制局部区域内的特征。
3.受到AdaBoost的启发,我们引入了多部分处理(Multi-Part-Processing)训练方法,该方法利用在不同正负样本比例上训练的集成模型来缓解数据不平衡。
本文的其余部分组织如下。第2节回顾了相关工作,包括Super Pixels和Swin Transformers。第3节详细介绍了RDFM和强化块的架构。第4节展示了实验结果、消融研究以及多部分处理方法的验证。最后,第5节总结了本文。