《Journal of Visual Communication and Image Representation》:SFNet: Hierarchical perception and adaptive test-time training for AI-generated military image detection
编辑推荐:
现有通用伪造检测技术无法满足军事场景需求,因其缺乏对军事装备严格结构设计和材料特性的先验知识。本文提出SFNet框架,通过军事层次感知模块提取多尺度结构特征,结合自适应测试时间训练策略动态优化检测能力,在包含80万张真实与合成军事图像的MilForgery数据集上达到95.80%检测准确率,并在公开基准测试中超越现有最优模型8.47%和6.49%。
李敏阳|穆文鹏|袁一凡|李胜岩|徐强
上海交通大学安泰经济与管理学院,上海,200240,中国
摘要
现有的通用伪造检测技术在军事场景中存在不足,因为它们缺乏关于真实资产设计、制造和部署的军事特定先验知识。真实的军事平台遵循严格的工程和设计标准,从而导致高度规则的结构布局和特征性的材料纹理,而人工智能生成的伪造品往往在这些约束上存在细微的违规。为了解决这一关键问题,我们提出了SentinelFakeNet(SFNet),这是一个专门用于检测人工智能生成的军事图像的新框架。SFNet具有军事层次感知(MHP)模块,该模块通过跨层次特征融合(CLFF)提取与军事相关的层次化表示——这是一种巧妙结合骨干网络不同深度特征的机制。此外,为了确保对多样化生成模型的鲁棒性和适应性,我们提出了军事自适应测试时训练(MATTT)策略,该策略结合了局部一致性验证(LCV)和多尺度签名分析(MSSA)作为专门设计的任务。为了促进这一领域的研究,我们还推出了MilForgery,这是第一个大规模的军事图像取证数据集,包含800,000张真实和合成生成的与军事相关的图像。广泛的实验表明,我们的方法平均准确率达到95.80%,代表了最先进的性能。此外,在公共AIGC检测基准测试中,它的泛化能力也表现出色,在GenImage和ForenSynths上的平均准确率分别比领先基线高出8.47%和6.49%。我们的代码将在作者的主页上提供。
引言
近年来,人工智能图像生成技术取得了前所未有的进步,尤其是得益于DALL-E 2 [1]和Stable Diffusion [2]等强大模型的出现。这些技术彻底改变了图像创作,能够生成与真实照片难以区分的高逼真图像。虽然这些进步带来了显著的创造性可能性,但同时也引入了重大的安全挑战,特别是在军事领域。生成令人信服的军事图像伪造品的能力引发了对情报和国家安全的严重担忧。因此,开发可靠且强大的方法来检测人工智能生成的军事图像已成为技术和防御领域的紧迫任务。
当前的人工智能生成内容(AIGC)技术主要沿着两种技术途径发展:主动取证和被动取证。主动取证通过嵌入数字水印或隐写标记来实现可追溯性验证;然而,其实际应用受到预先生成基线标志的要求限制。被动取证作为主要研究方向,通过分析图像特征来进行认证,可以大致分为两类:空间域方法[3]、[4]、[5]、[6]、[7]、[8]、[9],这些方法依赖于低级视觉特征;以及频率域方法[10]、[11]、[12]、[13]、[14]、[15]、[16],这些方法关注高频模式。
尽管通用AIGC伪造检测技术有所进步,但在军事场景中应用这些方法时仍暴露出三个关键缺陷。首先,现有的检测模型在了解军事特定视觉特征方面存在知识空白。这些模型主要针对日常对象和场景进行训练,很少观察坦克、战机、导弹车辆或军舰等在操作条件下的情况,因此无法编码由军事设计标准强加的严格结构规则性和材料依赖的外观模式。其次,尽管在常见场景中表现良好,但通用伪造检测模型的设计缺乏利用人工智能生成的军事图像特定漏洞所需的专门机制。真实平台具有高度受限的几何形状和特征性表面属性,而伪造品通常包含这些约束的细微但系统的违规,这些违规容易被通用的、非层次化的特征提取器忽略。最后,多样化的人工智能生成模型的迅速普及使得静态检测方法很快过时。由于缺乏适应能力,这些模型难以应对新型未见生成技术引入的不断变化的特征模式和分布变化。因此,迫切需要专门设计并训练用于检测人工智能生成的军事图像的强大检测模型。
为了确保对不断变化的人工智能威胁引入的各种特征模式和分布变化的鲁棒性,我们提出了一种新的训练范式:军事自适应测试时训练(MATTT)(图1)。这种范式在部署过程中不断改进整个检测架构的检测能力,显著提高了在动态军事场景中对不同生成模型的泛化能力。MATTT采用了两个自监督任务:局部一致性验证(LCV)和多尺度签名分析(MSSA)。LCV利用对比学习来识别违反军事设计标准的空间不一致性。MSSA通过分析空间和频率域的多尺度签名来检测生成伪迹。作为对MATTT的补充,我们提出了军事层次感知(MHP)模块作为其特征提取器。MHP模块通过跨层次特征融合(CLFF)提取与军事相关的层次化表示——这是一种巧妙结合骨干网络不同深度特征的机制。MHP模块和MATTT共同构成了整个检测架构SentinelFakeNet(SFNet)。
此外,我们构建了MilForgery,这是一个专门为人工智能生成的军事图像检测设计的大规模和全面的数据集,包含800,000张图像。该数据集分为两类:由九个最先进(SOTA)生成模型生成的人工智能生成的军事图像和真实的军事照片。该数据集涵盖了广泛的军事资产类别,如军事火箭和军舰,确保了对现代军事资产的广泛表示。因此,MilForgery为推进这一领域的研究提供了高质量的训练资源和可靠的评估基准。
我们进行了一系列实验来证明SFNet的有效性。我们的主要贡献可以总结如下:
(1) 我们提出了SFNet,这是一个专为军事图像伪造检测设计的新检测框架,在MilForgery数据集上实现了最先进的性能,并在公共AIGC检测基准测试中表现出出色的泛化能力。
(2) SFNet引入了MHP模块,通过CLFF协同提取与军事相关的层次化空间-语义表示。
(3) 我们提出了MATTT策略,结合LCV进行空间不一致性检测和MSSA进行多尺度签名分析,确保了对不同生成模型的强大泛化能力。
(4) 我们构建了MilForgery,这是第一个用于军事图像伪造检测的大规模数据集,为安全关键合成图像分析在防御相关场景中建立了重要的基准。
相关工作
相关工作
在介绍相关工作之前,我们首先澄清本文中使用的“军事特定”一词的含义。在本研究中,该术语指的是描绘现代军事资产和环境的图像内容,包括但不限于地面车辆(例如坦克、装甲车、导弹发射器)、飞机(例如直升机、战斗机)、海军舰艇(例如军舰、潜艇)、火炮系统以及步兵武器。这些类别具有高度标准化的结构布局。
方法
为了解决在敏感军事环境中检测人工智能生成伪造品的迫切需求,我们提出了一个专门设计的框架< />
。SFNet的总体结构如图2所示。SFNet的核心是军事层次感知(MHP)模块,这是一个旨在协同提取与军事相关层次化表示的新模块。此外,为了确保对不断发展的对抗性人工智能技术的鲁棒性,我们
MilForgery数据集构建
为了促进对人工智能生成的军事图像检测的研究,我们引入了,这是一个包含真实和合成生成的与军事相关图像的新的、全面的数据集,涵盖了多种类别。
合成伪造图像: MilForgery包含了由九个最先进(SOTA)图像合成模型生成的伪造图像。这些模型包括基于扩散的基本方法(Stable Diffusion v1.4 [2]、Stable Diffusion v1.5 [2]和Latent Diffusion [2])
实验设置
实施细节: 我们从训练子集中的九个模型中选择了六个模型(每种模型两个:BigGAN、CycleGAN、FLUX、Glide、LatDiff、SD v1.4)。这种训练设置不仅使模型能够从不同生成模型类别的多样化属性中学习,还确保了有一些测试图像是我们SFNet在训练期间未见过的模型生成的。我们还在训练期间添加了CNNSpot [41]使用的360k张真实图像,
结论
在这项工作中,我们提出了SFNet,这是一个专门为解决检测人工智能生成的军事图像这一紧迫挑战而设计的新框架。SFNet利用MHP模块有效捕获与军事相关的层次化特征,从而能够识别细微的伪造不一致性。此外,我们的MATTT策略通过在测试时进行适应,确保了对不同生成模型的强大泛化能力。为了促进这一关键领域的研究,我们还
CRediT作者贡献声明
李敏阳:撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、监督、软件、项目管理、方法论、调查、形式分析、数据管理、概念化。穆文鹏:数据管理。袁一凡:数据管理。李胜岩:数据管理。徐强:资源获取。
资助
这项工作部分得到了国家自然科学基金(项目编号:62502308)的支持,部分得到了上海浦江项目(项目编号:24PJA056)的支持,部分得到了中国上海自然科学基金(项目编号:25ZR1402266)的支持,部分得到了浙江大学区块链与数据安全国家重点实验室开放研究基金(项目编号:A2536)的支持。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。