《Neural Networks》:Similarity-Aware Contrastive Learning for Face Anti-Spoofing via Frequency Enhancement and Reconstruction
编辑推荐:
面部反欺骗技术中,提出基于频率域相似性感知对比学习新方法。通过动态整合多频带信息增强模块和随机替换高频率谱重建策略,有效平衡结构一致性与欺骗特征可视化,结合相似性矩阵优化对比学习目标,显著提升未知攻击类型和跨域场景下的检测性能。
牛雅坤|林雪琳
河南大学计算机与信息工程学院,开封,475004,中国
摘要
随着面部识别系统的广泛应用,面部防伪(FAS)已成为一个关键的研究课题。最近的研究越来越多地关注频域而非空间域,因为在频域中可以更有效地捕捉到细微的伪造模式。然而,如何更全面地挖掘不同频段中的伪造线索仍然是一个具有挑战性的问题。在本文中,我们提出了一种基于频域的、具有相似性意识的对比学习方法用于FAS。具体来说,我们设计了一个频域自适应增强模块,该模块动态地整合了多个频段以学习与领域无关的特征。此外,我们引入了一种高频信息重构策略,在保留结构一致性的同时,通过将原始频谱与其对应的高频成分混合来突出细微的伪造线索。最后,我们构建了一个相似性矩阵来量化不同类型面部样本之间的关系,并制定了一个对比学习目标,以强化类内紧凑性和类间可分性。广泛的实验表明,我们的方法在多个公共数据集和评估协议上优于现有的最先进方法。
引言
随着技术的快速发展,面部识别已成为日常生活的重要组成部分,在访问控制、身份验证和在线支付中发挥着关键作用(参见Dong等人(2019年);Kemelmacher-Shlizerman等人(2016年);Li等人(2022年);Zhao等人(2003年)的研究)。尽管面部识别高效且方便,但它仍然容易受到伪造攻击。为了提高其安全性和可靠性,面部防伪(FAS)技术因此成为学术界和工业界的研究和开发重点。
早期的FAS方法主要依赖于手工制作的特征来揭示伪造线索(参见Boulkenafet等人(2015年);de Freitas Pereira等人(2012年);M??tt?等人(2011年))。随着深度学习的快速发展,基于卷积神经网络(CNN)的方法(参见Jourabloo等人(2018年);Wang等人(2020年);Yu, Li, Niu, Shi, Zhao, 2020a;Yu, Zhao, Wang, Qin, Su, Li, Zhou, Zhao, 2020c)能够有效地捕捉局部细粒度细节,显著提高了FAS的性能。随后,视觉变换器(ViT)(George和Marcel,2021年;Li等人(2024c);Wang等人(2022a);Zhu和Xiang,2023年)被应用于FAS,通过其强大的全局建模能力进一步提升了检测精度。然而,这些方法在遇到未知攻击类型或未见过的领域时仍然会出现性能下降。这主要是由于训练数据和测试数据之间的分布差异,严重限制了它们在现实世界场景中的泛化能力。
为了解决这一挑战,领域泛化(DG)被引入到FAS领域。基于DG的方法(参见Cai等人(2024年);Jia等人(2020年);Kong等人(2024年);Liu等人(2021a);Shao等人(2019年);Wang等人(2022b)从多个源领域学习,以最小化领域间特征分布的差异。这些方法使得能够训练出能够很好地泛化到未见过的领域的鲁棒模型。然而,大多数现有方法主要依赖于来自空间域的纹理或结构信息,这些信息极易受到领域变化的影响。相比之下,频域表示为DG提供了另一种视角,揭示了更深层次的结构模式。研究表明(参见Gonzalez等人(2009年);Xu等人(2021年),低频成分主要包含平滑的结构信息,但仍容易受到领域变化的影响。相反,高频成分主要捕捉纹理和细节,通常对领域变化不敏感,因此具有更好的跨领域泛化能力。受这些见解的启发,最近的研究开始将频域信息纳入FAS(参见Chen等人(2021b);Fang等人(2022年);Miao等人(2023年))。然而,这些方法通常仅利用高频伪影或低频异常来发现伪造线索。因此,如何动态利用不同频段之间的互补信息来揭示伪造线索仍然是一个关键挑战。
为了解决这个问题,我们提出了一种基于频域的、具有相似性意识的对比学习方法用于FAS。一方面,我们设计了一个频域自适应增强模块来挖掘区分性信息。由于不同频段在结构和纹理上的差异,该模块首先动态调整多个频段的权重以捕捉更鲁棒的区分性线索。然后,通过空间注意力自适应地增强这些线索,进一步放大真实面部和伪造面部之间的差异。另一方面,尽管高频信息对领域变化不敏感,但它容易受到环境变化和后处理操作的影响。为了减轻这种脆弱性,我们引入了一种高频信息重构策略。具体来说,我们随机用原始高频成分替换高频谱的一部分,构建一个混合表示。这种策略在保持结构一致性和增强细微伪造线索的显著性之间取得了平衡。所得到的混合表示作为辅助特征,补充了频域自适应增强图像的输出。最后,我们构建了一个相似性矩阵来量化类内和类间的关系。通过最小化类内相似性和最大化类间相似性,我们学习了同一类样本之间的一致表示,并增强了真实面部和伪造面部之间的语义区分。这种相似性约束策略有效地减少了跨领域分布差异,从而缓解了领域变化问题。本文的主要贡献如下:
•我们设计了一个频域自适应增强模块,根据不同频段的权重动态地整合它们,以充分利用它们的互补性并有效学习与领域无关的特征。
•我们提出了一种高频信息重构策略,通过随机将原始频谱与其对应的高频成分混合来保持结构一致性,同时突出真实面部和伪造面部之间的细微伪造线索。
•为了缩小跨领域分布差异,我们构建了一个相似性矩阵来测量不同类型面部样本之间的关系,然后建立了一个对比学习目标,以强化类内紧凑性和类间可分性。
本文的其余部分结构如下:第2节回顾了现有的面部防伪研究。第3节介绍了我们提出的框架的详细信息。第4节我们进行了全面的实验评估,以验证我们方法的有效性。最后,第5节总结了本文并提出了未来的研究方向。
部分摘录
面部防伪
早期的面部防伪研究主要依赖于手工制作的特征描述符,如LBP(Boulkenafet等人,2015年)、HOG(Komulainen等人,2013年)和SIFT(Patel等人,2016年),来表示真实面部和伪造面部之间的区分性线索。尽管这些方法在领域内场景中取得了有希望的结果,但当面对未见过的领域时,它们的性能往往会显著下降。这种下降主要是由于训练数据和测试数据之间的分布差异较大。
方法论
本节详细介绍了所提出的框架,如图1所示。它由三个主要部分组成:频域自适应增强模块(FAEM)、高频信息重构(HIR)和相似性意识对比学习(SACL)。FAEM的核心思想是利用不同频段中的多样化信息。这一过程增强了输入图像的空间特征表示。由于面部图像的高频成分通常包含
数据集和评估指标
我们在以下四个面部防伪数据集上进行了实验:OULU-NPU(表示为O,Boulkenafet等人,2017年)、CASIA-FASD(表示为C,Zhang等人,2012年)、Idiap Replay-Attack(表示为I,Chingovska等人,2012年)、MSU-MFSD(表示为M,Wen等人,2015年)和SiW(Liu等人,2018年)。OULU-NPU是一个高分辨率的面部防伪数据集,使用移动设备在真实世界场景中收集,涵盖了打印和重放攻击。CASIA-FASD包含各种
结论
本文提出了一种基于频域相似性建模的新面部防伪方法。为了捕捉真实面部和伪造面部之间的频域差异,我们设计了一个频域自适应增强模块,从多个频段中提取区分性线索,增强了它们的语义区分度。然后我们提取图像的高频成分,并随机用原始图像中的相应成分替换高频谱的部分。
CRediT作者贡献声明
牛雅坤:撰写 – 审稿与编辑、监督、资源获取。林雪琳:撰写 – 原始草稿、可视化、验证、软件、项目管理、方法论、调查、数据整理。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本研究得到了中国国家自然科学基金[项目编号62202141]和河南省高等教育机构重点科研项目[项目编号26A413001]的支持。