论文标题：面向压缩视频的鲁棒Deepfake检测：基于可扩展网络策略的统一框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Robust Deepfake Detection in Compressed Videos with Scalable Network Strategies

【字体：大中小】 时间：2026年02月22日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文针对视频在社交媒体传播中的压缩问题导致的Deepfake检测性能下降难题，提出了一种创新的统一框架。研究结合了面向压缩视频的MPEG数据增强策略，设计了多头部网络（MHN）与多分支网络（MBN），在FaceForensics++和Celeb-DF数据集上显著提升了模型在压缩场景下的检测性能，尤其为资源受限环境提供了高效的解决方案。

随着人工智能技术的飞速发展，以生成对抗网络（GANs）为代表的Deepfake（深度伪造）技术能够生成高度逼真的虚假图像和视频，从而对数字媒体的安全性和可信度构成了严峻挑战。这项技术在带来娱乐与创作可能性的同时，也被滥用于传播虚假信息、实施诈骗、操纵舆论甚至进行政治攻击，引发了广泛的社会忧虑。因此，发展高效、精准的Deepfake检测技术已成为保障信息安全与数字信任的关键研究领域。然而，现实世界中的视频并非总是“原汁原味”。为了节省带宽、便于在社交媒体或即时通讯应用中快速分享，视频通常会被进行有损压缩，这引入了一系列伪影（如块效应、振铃效应、模糊和锯齿边缘），这些噪声会掩盖或干扰用于检测伪造痕迹的关键特征。这使得许多在高质量（如原始RAW格式）视频上表现出色的检测模型，在面对压缩内容时性能急剧下降。

当前，视频压缩更多地被视为影响模型鲁棒性的“障碍”而非一个可以被模型认知并利用的特征维度。多数方法致力于提升模型在不同数据集或伪造技术间的泛化能力，却忽视了跨压缩级别的泛化问题。一个直观但笨拙的解决方案是为不同压缩级别训练多个专用模型，但这带来了巨大的计算成本和存储开销，缺乏实际部署的可行性。针对这一核心挑战，来自意大利卡利亚里大学的研究团队在《Expert Systems with Applications》上发表了一篇题为《Robust Deepfake Detection in Compressed Videos with Scalable Network Strategies》的论文，提出了一套统一的框架，旨在通过让模型“感知”压缩水平，来提升其在各种压缩程度下的检测稳健性。

为开展研究，作者团队采用了几个关键技术方法。首先，他们设计了一套针对压缩视频的数据增强策略，通过视频压缩模拟社交媒体的视频处理过程，在训练期间让模型系统性地接触从低到高不同程度的压缩内容。其次，提出了两种新颖的网络架构：多头部网络（MHN）和多分支网络（MBN）。MHN通过对标准主干网络进行最小化改造，增加了并行的、轻量级的输出“头”，同时进行Deepfake分类和压缩级别估计两个任务。MBN则将多个MHN单元组合成一个模块化的并行架构，通过分支训练和特征融合，实现了不依赖于加深模型的横向扩展。实验在两个主流数据集（FaceForensics++和Celeb-DF (v2)）上进行，模型训练采用分层bootstrap重采样策略以促进分支多样性，并遵循特定的冻结与微调步骤来优化MBN。评价指标包括帧级与视频级准确率（ACC）、ROC曲线下面积（AUC）以及F1分数。

研究结果表明，该框架在不同压缩条件下均表现出优越的稳健性。

•
数据增强策略对比：实验比较了视频中心化（video-centric）和帧中心化（frame-centric）两种数据增强策略，结果显示，帧中心化策略能提供更均衡的压缩水平覆盖，从而在所有测试的骨干网络上均能带来更优的AUC性能。
•
多头部网络（MHN）的效能：相比于仅在单一压缩级别（如仅LQ、HQ或RAW）上训练的传统模型，使用MHN模型配合数据增强后，其在所有压缩级别（LQ、HQ、RAW）的测试集上都取得了显著提升。例如，在FaceForensics++数据集上，MobileNetV3Small的MHN版本相较于其基础版本，在LQ、HQ和RAW测试集上的帧级准确率分别从80.50%、90.27%和94.74%提升至83.02%、92.63%和98.25%。这表明联合学习压缩估计任务能有效增强模型对压缩不相关伪造特征的提取能力，提升泛化性能。
•
多分支网络（MBN）的扩展优势：在MHN的基础上构建的MBN通过集成多个基于不同数据子集训练的轻量级分支，进一步提升了性能。例如，一个由四个MobileNetV3Small分支构成的MBN，在FaceForensics++数据集上达到了94.22%的帧级准确率和95.80%的AUC，其性能超越了参数数量相近但更深的单路Xception网络（92.78%的帧级准确率和96.33%的AUC）。这证实了通过“横向”扩展而非“纵向”加深模型，可以在可控的计算开销内获得更强的检测能力。研究还通过消融实验验证了MBN中分支间多样性的重要性。
•
压缩感知能力分析：MHN架构中的回归头不仅能辅助分类任务，其输出的压缩级别（CRF）估计值与真实值也表现出强相关性（例如，在EfficientNetV2B0上，LQ测试集的估计误差在-3.85到+3.21之间），证明了模型确实学会了从输入中解析压缩信息，实现了“压缩感知”。

该研究的结论与讨论部分明确指出，视频压缩是Deepfake检测实际应用中一个不可回避且严重影响性能的因素。本文提出的框架通过两个核心创新——一个系统性的、面向压缩的数据增强策略，以及能够联合进行Deepfake检测和压缩估计的多头/多分支网络架构——成功应对了这一挑战。这种方法使得单一模型能够稳健地处理从高度压缩到原始质量的广泛视频内容，避免了训练多个压缩专用模型的繁琐和低效。特别是MBN架构，它提供了一种有效的模型扩展范式，证明了通过集成多个轻量级网络来获得高精度是可行的，这对在计算资源有限的边缘设备上部署强大的Deepfake检测器具有重要意义。总之，这项工作为构建在现实世界复杂压缩环境中仍能保持高精度的、可扩展的Deepfake检测系统提供了有力的理论框架和实践方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号