编辑推荐:
Deepfake检测方法依赖多模态数据中的情绪不一致性,提出Emoencoder整合情绪嵌入提取和跨模态对比学习,结合文本引导的语义融合模块,通过交叉身份少样本训练验证泛化能力优于现有方法。
张腾|李根|肖彦辉|田华为|曹云
机构:中国人民公安大学信息与网络安全学院
地址:北京市西城区睦西底南里1A号
邮编:100038
国家:中国
摘要
随着深度伪造技术的不断进步,传统的单模态检测方法难以应对多模态操纵带来的挑战。大多数现有方法依赖于大规模训练数据,这限制了它们在少量样本情况下对未见身份或不同操纵类型的泛化能力。在本文中,我们提出了一种基于情感识别的多模态深度伪造检测方法,该方法利用情感信号进行伪造检测。具体来说,我们设计了一种情感嵌入提取器(Emoencoder)来捕捉不同模态中的情感表示。然后,我们采用情感感知对比学习和跨模态对比学习来捕捉跨模态不一致性并增强模态特征提取。此外,我们提出了一个文本引导的语义融合模块,其中文本模态作为语义锚点,指导音频-视觉特征的交互以实现多模态特征融合。为了在数据有限和未见身份的情况下验证我们的方法,我们在基准数据集上采用了跨身份的少量样本训练策略。实验结果表明,我们的方法优于现有最佳方法,并且在未见身份和不同操纵类型上表现出更强的泛化能力。
引言
随着生成式人工智能技术(如VAE(Kingma和Welling,2013年)、GAN(Goodfellow等人,2014年)和DM Ho等人(2020年)的快速发展,创建逼真的媒体伪造品已经变得对公众更加容易获得。其恶意使用已成为一个重大的社会威胁,导致身份验证、新闻真实性和法律证据等领域出现关键问题。为了应对这一日益增长的威胁,研究人员投入了大量精力开发深度伪造检测算法(Khan等人,2025年)。
近年来,研究人员提出了各种深度伪造检测技术,这些技术大致可以分为单模态和多模态方法。单模态方法主要依赖于手工制作的特征(Matern等人,2019年)、基于CNN的模型(Afchar等人,2018年;Qian等人,2020年)或时空特征(Bai等人,2023年;Ke和Wang,2023年;Masi等人,2020年)来提取面部伪造特征以进行视觉预测。然而,这些方法在跨数据集评估中的性能仍然有限。随着多模态伪造在现实世界场景中变得越来越普遍,多模态方法在研究中受到了广泛关注(Liu等人,2024年)。这些方法主要采用特征融合(Muppalla等人,2023年)、模态对齐(Yu等人,2023a)或跨模态注意力(Katamneni和Rattani,2024年)来捕捉不同模态之间的关联。然而,现有方法严重依赖于大规模训练数据来捕捉伪造特征,并且在少量样本情况下对未见身份或不同操纵类型的泛化能力有限。
为了解决这些挑战,我们提出了一种新的视角,即情感作为一种高级语义特征,可以为深度伪造检测提供有价值的线索。深度伪造可以操纵低级的视觉和音频特征(如嘴唇动作或语音音高),但它们难以令人信服地再现跨模态的微妙情感。如图1所示,在真实的人际交流中,面部表情、语音韵律和语言内容构成了一个统一的情感单元。微笑通常与温暖的语气和积极的词汇相一致,而皱眉则与尖锐的语气和批评性的文字相匹配(Balomenos等人,2004年)。当不同模态被投影到一个共同的特征空间时,它们的表示应该对应于相似的情感嵌入(Gunes和Piccardi,2007年)。然而,操纵往往会破坏这种情感一致性(López-Gil等人,2022年),例如将愤怒的语气与冷漠的面部表情配对。特别是,即使训练数据量减少,这种不一致性仍然存在,并且在未见身份和不同操纵类型中仍然明显。
本文提出了一种基于情感识别的多模态深度伪造检测方法,该方法利用跨模态的情感不一致性作为区分性线索,减少了对大规模训练数据的依赖。具体来说,我们设计了一种情感嵌入提取器(Emoencoder),并结合了情感感知对比学习和跨模态对比学习来捕捉跨模态不一致性。此外,我们提出了一个文本引导的语义融合模块,其中文本模态作为语义锚点,指导音频-视觉特征的交互以实现多模态特征融合。为了在数据有限和未见身份的情况下评估检测性能,我们采用了跨身份的少量样本训练策略,并确保训练集和测试集中的身份不重叠。我们的结果与现有的多模态最佳方法相比有显著改进。
我们的主要贡献如下:
- 我们提出了一种基于情感识别的多模态深度伪造检测方法,提高了在少量样本情况下对未见身份和不同操纵类型的泛化能力。
- 我们设计了一种情感嵌入提取器(Emoencoder),并结合了情感感知对比学习和跨模态对比学习,以捕捉跨模态不一致性并增强模态特征提取。
- 我们提出了一种文本引导的语义融合模块,其中文本模态作为语义锚点,指导音频-视觉特征的交互以实现多模态特征融合。
- 我们采用了跨身份的少量样本训练策略来验证检测性能。广泛的实验表明,与现有最佳方法相比,我们提出的方法在跨身份和跨操纵类型的评估中表现出更强的泛化能力。
单模态深度伪造检测的主要焦点是识别面部伪造引入的独特操纵特征。早期研究使用手工制作的特征来捕捉不一致的视觉特征(Agarwal等人,2017年;Guo等人,2022a)。随着深度学习的进步,一些方法训练了卷积神经网络(CNN)来捕捉细粒度的伪造特征(Hsu等人,2024年;Zhao等人,2021年)。例如,Yang等人(Yu等人,2023b)生成了桥梁效应...
在本文中,我们引入了从人的面部、语音和文本记录中提取的情感信号用于深度伪造检测。如图2所示,我们提出的方法包括五个阶段。在模态特征提取阶段,我们使用三个专用编码器分别从视频帧、音频序列和文本记录中提取模态特征。在情感嵌入提取阶段,我们设计了Emoencoder,它结合了稀疏GCN和多头注意力...
我们在三个基准数据集上评估了我们提出的方法:Deepfake TIMIT(DF-TIMIT)(Korshunov和Marcel,2018年)、Deepfake Detection Challenge(DFDC)(Dolhansky等人,2020年)和FakeAVCeleb(Khalid等人,2021年)。FakeAVCeleb:FakeAVCeleb是一个大规模的多模态深度伪造检测数据集,包含500个来自VoxCeleb2的真实视频,以及相应的合成假音频。
在本文中,我们提出了一种基于情感识别的多模态深度伪造检测方法,该方法引入情感信号作为区分性线索,以减少对大规模训练样本的依赖。我们设计了Emoencoder,并结合了情感感知对比学习和跨模态对比学习来捕捉跨模态的情感不一致性和语义不连贯性。此外,我们提出了文本引导的语义融合模块,其中文本模态作为语义...
张腾:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,方法论,调查,数据管理。李根:撰写 – 审稿与编辑,验证,监督,资源管理,方法论。肖彦辉:撰写 – 审稿与编辑,监督,资源管理。田华为:撰写 – 审稿与编辑,监督,资源管理,方法论。曹云:撰写 – 审稿与编辑,监督。
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
本工作得到了中国中央高校基本科研业务费(2024JKF02ZK09)的支持。