**角色(CAST):** 用于深度伪造检测的跨注意力时空特征融合(Cross-Attentive Spatio-Temporal feature fusion)

《Knowledge-Based Systems》:CAST: Cross-Attentive Spatio-Temporal feature fusion for Deepfake detection

【字体: 时间:2026年02月15日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  深度伪造检测中的时空特征融合与跨注意力机制研究。本文提出CAST模型,通过跨注意力机制动态融合CNN提取的时空特征,有效识别微妙的时空不一致性,如眨眼闪烁或嘴唇扭曲。实验表明在四个数据集上AUC达93.31%-99.49%,优于传统独立处理空间与时域特征的方法。

  
Aryan Thakre|Omkar Nagwekar|Vedang Talekar|Aparna Santra Biswas
印度马哈拉施特拉邦浦那市COEP技术大学计算机科学与工程系

摘要

深度伪造内容已成为数字媒体真实性的重大威胁,因此需要先进的检测技术来识别细微且随时间变化的篡改痕迹。卷积神经网络(CNN)在捕捉空间异常方面表现出色,而变换器(Transformer)在模拟时间不一致性方面具有优势。然而,许多现有的CNN-Transformer模型独立处理空间和时间特征。特别是基于注意力机制的方法通常为空间和时间特征使用独立的注意力机制,并通过简单的组合方式(如平均、加法或串联)将它们结合起来,这限制了时空交互的深度。为了解决这一问题,我们提出了一种统一的CAST模型,该模型利用交叉注意力以更集成化的方法有效融合空间和时间特征。我们的方法使时间特征能够动态关注相关的空间区域,从而增强了模型检测细微、随时间演变的手动篡改(如闪烁的眼睛或变形的嘴唇)的能力。这种设计实现了更精确的定位和更深入的上下文理解,从而在多样化和具有挑战性的场景中提升了性能。我们使用FaceForensics++、Celeb-DF、DeepfakeDetection和Deepfake Detection Challenge(DFDC)数据集在内部和跨数据集设置中评估了模型的性能,以证明我们方法的优越性。在内部数据集评估中,我们的模型取得了99.49%的曲线下面积(AUC)和97.57%的准确率。在跨数据集测试中,模型在未见过的DeepFakeDetection和DFDC数据集上的AUC得分分别为93.31%和81.25%。这些结果突显了基于交叉注意力的特征融合在增强深度伪造视频检测鲁棒性方面的有效性。

引言

由于生成建模和深度学习的进步,深度伪造技术取得了快速发展,使得合成逼真的面部视频变得越来越容易,这些视频能够令人信服地模仿真实人物。虽然这类内容在电影制作、游戏和虚拟现实等领域具有潜力,但它们对隐私、国家安全和数字媒体的完整性构成了严重威胁[1]。因此,深度伪造检测已成为一个关键的研究领域,以应对这些技术的滥用[2]。现有的检测框架可以根据它们对空间特征、时间动态或两者的结合程度的依赖进行分类。基于空间特征的方法利用了在生成过程中引入的帧级异常。基于CNN的模型在识别这些局部不一致性(包括纹理不规则性和混合异常)方面取得了成功[3]。最近在面部伪造检测[4]、[5]中的研究表明,空间线索学习和深度特征表示也可以区分真实和被篡改的面部内容。另一方面,时间模型能够捕捉帧与帧之间的运动异常,这些异常通常是由于表情不对齐或面部动态不一致引起的。循环网络、3D CNN和基于Transformer的方法[6]、[7]在模拟此类时空线索方面展示了潜力。为了提高检测的鲁棒性,提出了混合时空模型。这些模型通常利用CNN从每帧中提取空间特征,利用Transformer或RNN进行时间序列建模。在大多数情况下,空间和时间分支是独立处理的,特征融合采用简单的策略(如串联、平均或后期分数融合[8]、[9])。这限制了模型模拟空间线索及其时间演变之间复杂相互作用的能力。最近的研究尝试通过集成注意力机制来增强空间或时间特征,以克服这一限制。然而,这些机制通常分别应用于空间和时间领域,跨领域交互有限。在这些方法中,DFGaze[10]探索了时空注视不一致性,但避免了空间和时间注意力的深度整合。同样,DDL[11]使用MSA模块增强了时间建模,但避免了空间注意力的深度整合。在最近的研究中,集成多模态和跨域特征在增强对未见过的深度伪造方法的泛化能力方面显示出潜力。
尽管已经探索了几种基于CNN和Transformer的深度伪造检测架构,但大多数现有方法仍然难以以统一的方式有效结合空间和时间信息。CNN主要关注空间异常(如混合边界或纹理不规则性),但无法捕捉帧级的时间不一致性。相比之下,纯Transformer模型需要大量的数据和计算来共同学习空间和时间关系,这往往导致对未见过的篡改的泛化能力有限。本研究的核心问题是缺乏一种能够无缝融合空间和时间表示的鲁棒机制,同时保持对常见现实世界篡改的泛化和抵抗力。为了克服这些限制,我们提出了一种基于交叉注意力的时空融合框架(CAST),该框架使时间流能够选择性地关注CNN提取的空间线索,从而为深度伪造检测提供更具辨别力和鲁棒性的特征表示。
与传统的双流方法不同,我们的框架允许从Transformer输出中得到的时间标记关注从CNN中提取的空间特征标记,促进了丰富的跨领域交互。这种动态融合使模型能够捕捉复杂的篡改,例如闪烁的眼睛或时间不一致的面部表情,这些在单独处理模态时可能无法识别。我们提出的模型使用CNN骨干网络从单个帧中提取空间特征。然后这些特征被线性投影并时间对齐,再传递给Transformer编码器,后者捕捉视频序列中的时间依赖性。在CNN派生的空间嵌入和Transformer编码的时间标记之间引入了一个多头交叉注意力模块,从而实现了局部空间线索和全局时间上下文的有效融合。因此,该架构在内部和跨篡改场景中都提高了泛化能力。我们的主要贡献可以总结如下:
我们提出了一种基于交叉注意力的深度伪造检测框架,该框架动态融合空间和时间表示,以获得更具辨别力的视频级嵌入。
  • 我们的方法使时间标记能够关注空间特征,从而捕捉跨越两个领域的复杂篡改痕迹。
  • 我们利用多头交叉注意力动态权衡不同空间区域的重要性随时间的变化,从而提高了模型的可解释性,并专注于关键的篡改区域。
  • 我们的框架设计灵活且可扩展,能够与各种骨干架构兼容,并且可以扩展到更大的数据集而不会显著降低性能。
  • 相关工作

    相关研究

    在本节中,我们讨论了深度伪造视频领域的一些关键发展。我们将先前的工作分为两类:
    深度伪造生成:用于合成高保真面部篡改的某些方法。
  • 深度伪造检测:一些最近的设计方法,使用各种空间、时间和多模态线索来识别此类伪造内容。
  • 方法

    在本节中,我们介绍了我们框架中使用的完整架构,如图1所示。首先,视频样本经过预处理,其中提取并对齐帧,使用多任务级联卷积网络[40]完成。这一步骤确保了空间一致性,并为后续的特征提取做好准备。在模型的训练和测试阶段,我们考虑从每个视频中选取16帧,这些帧是均匀分布的

    实验

    在本节中,我们介绍了用于评估我们提出的CAST模型性能的实验设置。首先描述了研究中使用的公开可用基准数据集,然后是训练配置和优化策略。最后,我们概述了用于评估模型在内部和跨数据集场景中的性能和泛化能力的评估指标。

    实验结果和讨论

    为了全面评估我们提出方法的性能和泛化能力,我们在四个关键评估协议上进行了实验:单次篡改评估、内部数据集测试、跨数据集泛化和多源篡改评估。这些评估主要在FaceForensics++ [1]数据集上进行,同时使用了DFD [43]、DFDC [44]和Celeb-DF (v2) [2]数据集。我们采用了标准的分类方法

    局限性

    尽管提出的CAST框架在内部和跨数据集评估中表现出强大的性能,但仍存在一些需要关注的局限性。
    首先,在表2中,我们观察到尽管模型在内部篡改设置中的性能具有竞争力,AUC分别为100.00%(DF)和99.29%(FS),并且在大多数跨测试场景中也取得了高AUC分数,但在FS子数据集中的泛化能力相对较低。

    结论

    在这项研究中,我们提出了CAST,这是一种针对鲁棒深度伪造视频检测而设计的新型交叉注意力时空特征融合架构。具体来说,我们引入了一种交叉注意力机制,有效地融合了从CNN-Transformer网络中提取的空间和时间特征。通过明确建模空间和时间特征之间的相互作用,所提出的交叉注意力机制使时间表示能够选择性地关注容易受到篡改的空间特征

    CRediT作者贡献声明

    Aryan Thakre:撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据整理、概念化。Omkar Nagwekar:撰写——原始草稿、验证、软件、调查、形式分析、数据整理。Vedang Talekar:撰写——原始草稿、可视化、验证、调查。Aparna Santra Biswas:撰写——审阅与编辑、可视化、验证、监督、调查、形式分析。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
    致谢
    本研究未获得公共部门、商业部门或非营利部门的任何特定资助。
    Aryan Thakre目前正在浦那的COEP技术大学攻读计算机工程专业的最后一年。他最近在阿布扎比举行的第31届国际计算语言学会议IndoNLP Workshop – COLING 2025上展示了他的研究论文“BERTopic for Topic Modeling of Hindi Short Texts: A Comparative Study”。他对Transformer架构进行了深入研究,并从零开始实现了它
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号