利用具有伪造痕迹检测功能的Swin Transformer进行视频篡改检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Video tampering detection with forgery trace-aware swin transformer

【字体：大中小】 时间：2026年02月10日 来源：Neurocomputing 6.5

编辑推荐：

　　针对视频篡改检测中多小物体篡改定位困难的问题，提出VFVNet双流架构。MVFE多视角提取篡改痕迹，CSFE建模上下文语义，结合Swin深度注意力模块优化特征融合，实现像素级精准定位。实验表明，相比现有方法，F1-score提升13.6%，MCC提升14.9%，AUC保持优越性。

胡振涛|张胜佳|刘福毅

河南大学人工智能学院，中国河南省郑州市450046

摘要

随着复杂视频编辑工具的普及，视频伪造已成为一个严重的安全危机。虽然现有的取证方法能够在传统数据集上实现像素级篡改的初步定位，但它们往往难以有效处理涉及多个小对象篡改的场景，而这在现实世界的取证任务中是一个普遍且具有挑战性的问题，长期以来一直被主要研究忽视。为了解决这一核心问题，我们提出了一种新型的通用视频取证视觉网络（VFVNet）。VFVNet采用双流架构：一个多视图特征提取器（MVFE）从多个角度捕捉多样化的低到中等级别的线索（例如纹理、伪影），以及一个上下文语义特征提取器（CSFE）来建模更高层次的语义上下文和空间关系，以检测取证痕迹中的不自然放置或变化。然后，来自两个流的特征融合进入Swin深度注意力模块（SDAM），该模块探索不同尺度和位置之间的潜在特征相关性。SDAM的深度注意力细化了表示，增强了与篡改相关的线索，同时抑制了背景噪声。最后，由注意力引导的特征与最初提取的特征相结合，实现了对真实区域和被操纵区域的精确区分，从而实现像素级定位。在三个公开和自建数据集上的广泛实验表明，VFVNet在像素级定位方面达到了最先进的性能。平均而言，与之前的最佳方法相比，它在F1分数上提高了13.6%，在MCC上提高了14.9%，同时保持了更高的AUC。

引言

数字编辑工具的日益复杂和易用性导致了视频篡改的广泛传播，对多媒体内容的完整性构成了重大威胁。作为回应，视频篡改检测已成为一个关键的研究领域，专注于识别恶意修改的视频片段并分类诸如拼接、删除、复制移动和深度伪造等篡改技术。鉴于其在数字取证、媒体验证和社交平台内容认证中的重要性[1]，这一领域将开发强大且高效的检测算法作为计算机视觉和多媒体安全研究的重点。因此，不断增长的篡改技术复杂性和多样性要求推进复杂的方法论，以确保在各种应用场景中的视觉内容真实性[2]。

在应对普遍存在的视频篡改挑战时，研究人员开发了多种检测和定位技术。当前的方法主要通过直接学习来检测已知类型的伪造作品，或通过探索取证痕迹中的局部异常来进行分析[3]、[4]、[5]、[6]、[8]、[9]、[10]。然而，三个持续存在的相互关联的限制继续阻碍着视频取证的进步：（1）研究不对称性明显偏向于图像伪造检测和深度伪造检测，而忽视了视频特定的取证挑战；（2）固有的粒度限制，传统方法针对的是粗略的时间篡改（例如帧删除/插入[4]、[5]、数字相机[9]、运动不一致性检测[7]），但仍根本无法实现像素级定位；（3）最先进的架构在面对新兴的混合篡改范式时表现出显著的性能下降。最近的进展显示了一定的进步，但仍然存在差距，例如SCFNet[10]采用三流架构并进行注意力融合以提取空间特征，但在面对异构篡改时表现出显著的性能下降。同样，最新的VideoFACT[11]虽然结合了上下文嵌入模块以提高压缩鲁棒性，但它没有充分考虑视频中的篡改痕迹，经常提取不相关的信息和篡改伪影。

为了解决上述限制，我们提出了VFVNet，这是一种用于联合检测和像素级定位多种视频伪造作品的新型通用架构。VFVNet的核心由三个协同工作的组件组成：（1）多视图特征提取器，利用受限卷积层层次化地整合来自像素强度、边缘不连续性和频域异常的篡改痕迹；（2）上下文语义特征提取器，捕获与取证痕迹变化相关的上下文信息；（3）Swin深度注意力模块，通过移窗自注意力进行全局特征评估，动态分配空间时间重要性权重以生成具有区分性的注意力图。重要的是，VFVNet学习了代表各种篡改操作的通用特征嵌入，并创新性地引入了上下文背景的概念来约束局部痕迹的变化。更重要的是，该网络摆脱了孤立分析，通过深度自注意力机制，相互评估局部取证特征的质量和相对重要性，从而更准确地识别伪造留下的异常痕迹。总之，本文的主要贡献如下：

•

我们提出了一种新的视频篡改检测和定位框架。具体来说，我们引入了新的网络架构和模块。这些组件专门设计用于解决与视频篡改相关的固有复杂性。

•

我们构建了两个专门的特征提取器，一个是多视图伪造特征提取器，采用了一种结合多种卷积操作的新架构。这种方法有效地抑制了非必要特征，同时保留了对检测至关重要的取证痕迹。另一个是上下文语义特征提取器，专注于通过分析视频序列中的语义上下文来捕捉微妙的空间不一致性。该提取器专注于识别和隔离通常表明篡改的时间变化。

•

我们设计了一个Swin深度注意力模块来细化两个提取器生成的融合特征嵌入。该模块系统地提取并利用异构特征之间的潜在跨模态依赖性，从而增强了局部篡改痕迹验证的区分能力。

•

我们进行了全面的实验评估，以比较所提出网络与现有取证网络的性能。结果表明，VFVNet在视频篡改检测和定位方面表现出优越的性能。此外，我们开发了一个新的视频伪造数据集，说明该网络可以通过微调在其他数据集上提高性能。消融实验进一步验证了VFVNet每个组件对整体性能的贡献。

章节片段

图像和视频取证

早期的取证方法侧重于通过设计专门的手工特征来检测篡改签名，这些特征利用了篡改操作固有的噪声不一致性。代表性工作针对常见的篡改操作，如JPEG压缩[12]、[13]、[14]、中值滤波[15]、对比度增强[16]和重采样[17]，建立了取证检测的基础数学框架。为了应对捕捉多样化和微妙

提出的方法

所提出的VFVNet用于视频篡改检测的总体框架如图1所示。我们提出了一个双特征提取器，包括（a）多视图特征提取器（MVFE）和（b）上下文语义特征提取器（CSFE）。MVFE通过多视角分析捕捉多样化的视觉模式，而CSFE则通过上下文推理专门识别不一致的篡改痕迹。两个模块的特征图被融合并由（c）Swin深度注意力处理

实验设置

为了进行实验评估，我们使用了VideoFACT [11]中的视频相机模型拼接（VCMS）和视频感知可见篡改（VPVM）数据集。VCMS数据集包含从多个源片段拼接的视频，而VPVM数据集包含通过常见编辑操作（如模糊、对比度增强和锐化）修改的内容，这些操作的修改强度具有感知显著性。为了严格评估模型在复杂条件下的鲁棒性，我们进行了

结论

在本文中，我们介绍了VFVNet，这是一种用于视频篡改检测和定位的新型网络架构。为了捕捉表明篡改的固有微妙和多样的取证伪影，我们引入了一个双流特征提取框架。多视图特征提取器分析互补视觉域中的篡改线索，而上下文语义特征提取器建模视频序列中的高阶依赖性和语义一致性。然后融合这些

CRediT作者贡献声明

胡振涛：资金获取、形式分析、概念化。张胜佳：撰写——原始草稿、可视化、验证、软件、方法论、调查、数据管理。刘福毅：撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本研究得到了河南省科学技术厅的科技重点项目（252102211041）的支持。

胡振涛：出生于1979年。他于2010年在西北工业大学获得控制科学与工程博士学位。他分别于2003年和2006年在河南大学获得学士和硕士学位。目前，他是河南大学人工智能学院的教授。他的研究兴趣包括复杂系统建模和估计、多源信息融合和图像翻译等。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号