利用度量学习和注意力转移技术对压缩视频中的多视图面部伪造进行检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Multi-View Facial Forgery Detection for Compressed Videos Using Metric Learning and Attention Transfer

【字体：大中小】 时间：2026年03月16日 来源：Pattern Recognition 7.6

编辑推荐：

　　提出基于对抗学习和度量学习的空间-时间多视角检测框架，通过双分支网络构建压缩鲁棒特征空间，结合空间注意力模块和LSTM时间注意力模块提升伪造区域识别精度，有效解决压缩视频的伪造检测难题，实验验证优于传统方法。

邓攀叶|王睿|曹申豪|尚月云|邓家成|王中原|邹秦|向宇

广州大学先进技术网络空间研究所，中国广州，510006

摘要

在多媒体取证领域，检测图像和视频中的面部伪造是一项关键任务，尤其是在压缩格式被广泛使用的情况下。传统的伪造检测方法基于未压缩数据训练，因此在识别压缩伪造内容时遇到困难，导致性能显著下降。为了解决这一挑战，我们提出了一个具有抗压缩影响的创新面部伪造检测框架。该框架利用原始和压缩后的伪造数据来学习一个不受压缩影响的嵌入特征空间。我们的方法包括三个主要组成部分：通过对抗学习策略从未压缩和压缩的伪造图像中提取时空多视图特征；构建一个度量损失函数，以最小化嵌入空间中配对视频的多视图表示之间的距离，从而实现稳健的分割学习；并通过空间注意力转移模块和时间注意力模块提高篡改定位的准确性。此外，我们还结合了基于LSTM的时间注意力模块，以突出时间视图中的关键帧，将框架扩展到集成空间和时间视角的多视图视频级检测。实验结果表明，我们提出的技术能够有效处理压缩和未压缩的面部伪造，其性能明显优于传统方法。

引言

深度学习技术的快速发展，如生成对抗网络（GANs）[1]和变分自编码器[2]，使得攻击者能够利用各种基于深度学习[3]、[4]和计算机图形[5]的技术创建高度逼真的面部伪造图像。用户友好的应用程序使得伪造行为的制作变得越来越容易。这些技术的滥用可能会侵犯公民的肖像权和名誉权，甚至威胁国家政治安全，因此面部伪造检测的重要性日益凸显。

面部伪造可以通过多种技术生成，包括身份交换、表情交换[6]和GANs[7]，并且通常在颜色和频率域中都会出现伪影。已经提出了许多伪造检测方法，例如MesoNet[8]、Two-stream[9]和Face X-ray[10]等。然而，在现实世界中，视频平台通常使用压缩算法来减少通信开销，这会减弱空间和时间上的伪造痕迹。当视频被压缩时，有效的编码信息会减少，多视图伪影（例如空间操作和帧级异常）会变得模糊，从而大大增加了从单一视角检测伪造视频的难度。图1底部行中高度压缩的面部图像与顶部行的原始图像在真实性方面难以区分。压缩使得伪造伪影变得不那么明显，这使得面部伪造检测变得更加复杂。例如，XceptionNet[11]在原始数据上的准确率为99.26%，但在低质量数据上的准确率仅为81.00%。

在JPEG等压缩算法的量化过程中，伪造伪影的高频和部分中频特征会丢失，从而增加了伪造检测的难度。然而，原始图像在所有三个频率带（低、中、高）中都包含了完整的伪造信息，并且被操纵的区域在不同压缩级别下保持不变。现有的数据驱动方法训练二分类网络[12]或使用多任务联合训练[13]无法完全提取压缩伪造的有效信息。基于压缩伪造的伪造信息是原始伪造信息的一个子集的假设，我们发现现有的数据驱动方法和多任务联合训练无法有效提取压缩伪造信息。

为了解决这一挑战，我们提出了一个时空多视图框架，该框架利用原始伪造和压缩伪造之间的关系，使网络能够在不同的压缩级别下提取空间和时间伪造信息的交集。伪造视频表现出“帧跳跃”或帧之间的不连续性，这种不连续性对压缩具有鲁棒性。我们提出的双分支网络以具有不同压缩级别的配对图像或视频为输入，采用对抗学习和度量学习来学习时空多视图特征，其中一个分支专注于空间视图，另一个分支专注于时间视图。这使得网络能够在不受压缩影响的特征嵌入空间中学习共同特征。为了最小化特征空间中配对压缩视频和原始视频之间的距离，我们引入了一种度量学习策略。此外，我们在两个分支上实现了图像级注意力模块，以集中关注被篡改的区域。对于视频级检测，我们使用CNN和LSTM同时提取帧内空间特征和帧间时间特征，从而实现多视图分析，捕捉静态和动态的伪造痕迹，并提出了基于注意力的关键帧检测模块来识别伪造视频中的关键帧。

本文的主要贡献包括：

1.

一个采用对抗学习将伪造伪影映射到不受压缩影响的特征嵌入空间的双分支网络，以及一个度量损失函数，用于减少不同压缩级别配对视频在特征嵌入空间中的距离。

2.

一个空间注意力转移模块，将高质量分支的图像级信息传递到低质量分支，提高被操纵区域的预测准确性。

3.

一个基于LSTM的帧级时间注意力模块，用于视频伪造检测，为关键帧分配更高的权重，提高异常帧检测的准确性。

本文的结构如下：第2节讨论相关工作，第3节介绍提出的方法，第4节介绍实验和结果，第5节进行讨论，第7节总结。

提出的方法

本节介绍了我们在图像级和视频级检测压缩和原始伪造方面的方法。首先，我们讨论了两者之间的包含关系。接下来，我们描述了一个利用度量学习、对抗学习和注意力转移来提取抗压缩特征的双分支网络。此外，我们还介绍了一个带有帧级注意力模块的CNN-LSTM架构，用于视频级检测。

实验

我们在FaceForensics++数据集上评估了所提出的训练策略，并将其结果与最先进的方法进行了比较。

讨论

在本文中，我们提出了一个结合对抗学习、度量学习和注意力转移的双分支网络，用于解决图像和视频检测问题。该方法已在FaceForensics++数据集上进行了评估，该数据集包含具有不同压缩级别的多样化视频。尽管我们的训练策略在高质量（HQ）分支上的性能略有下降，但它能够有效捕获不受压缩影响的特征。

局限性

我们的框架在抗压缩方面表现出优越的鲁棒性，这主要归功于两个设计选择，这些选择带来了轻微的权衡。首先，双分支对抗训练在训练阶段的计算成本较高；然而，这并不影响推理效率，因为只有轻量级的压缩分支用于检测。其次，我们的当前研究采用带有配对的高/低质量数据的监督设置，以确保精确性

结论

在这项工作中，我们提出了一个专门用于解决压缩视频中面部伪造检测这一关键挑战的时空多视图框架。通过利用新颖的双分支网络架构，我们的方法通过对抗学习、度量学习和时空注意力转移机制成功弥合了未压缩和压缩媒体之间的性能差距。我们在FaceForensics++数据集上的广泛实验表明

CRediT作者贡献声明

邓攀叶：撰写——审稿与编辑、撰写——初稿、可视化、监督、方法论、调查、形式分析、数据整理、概念化。王睿：撰写——初稿、数据整理、概念化。曹申豪：撰写——审稿与编辑、方法论、概念化。尚月云：撰写——审稿与编辑。邓家成：撰写——初稿、可视化、数据整理。王中原：撰写——审稿与编辑、概念化。邹秦：

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：邓攀叶报告称获得了国家自然科学基金（NSF）的财务支持。如果还有其他作者，他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本研究得到了新一代人工智能国家重点研发计划（2025ZD0123603）、国家自然科学基金（NSFC，编号62472325、62473004）和湖北省重点研发计划（项目编号2025BAB021）的支持；部分得到了广东省科技计划（项目编号2024B0101010002）的支持；以及广东省工业控制系统安全重点实验室项目（项目编号2024B1212020010）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号