虽然面部识别方便地实现了对各种平台、设备和支付系统的访问,但它也面临着日益增加的面部伪造攻击威胁,包括3D口罩攻击(即佩戴口罩)、打印攻击(即在纸上打印面部图像)和重放攻击(即显示面部视频)。为了应对面部伪造攻击,许多单模态人脸防伪(FAS)方法使用最常见的模态(即RGB图像)来区分真实人脸和伪造人脸。一些最近的方法(Huang, Chiang, Chen, Chong, Liu, Hsu, 2024a; Huang, Chong, Chiang, Chen, Liu, Hsu, 2025a; Huang, Chong, Hsu, Hsu, Lin, Chien, Shao, & Hsu)专注于仅从真实训练图像中学习区分性特征。其他方法(Huang, Ni, Ni, & Hsu (2022); Jia, Zhang, Shan, & Chen (2020))注意到,RGB传感器收集的真实图像与伪造图像之间的分布差异较小,因此提出将所有真实人脸与来自不同训练域的伪造人脸聚合起来学习一个泛化特征空间。然而,随着新的伪造攻击手段不断演变,模仿真实人脸复杂的纹理细节,依赖单一模态的FAS方法越来越不足以应对这些快速发展的威胁。因此,最近的多模态FAS方法结合了额外的模态(如红外(IR)和深度图像),以更好地捕捉面部防伪中的区分性活力信息。
大多数多模态FAS方法(Deng, Ge, Wei, Sun, & Qiao (2023); Li et al. (2023); Liu et al. (2023a); Yu et al. (2020a)专注于融合不同模态的特定特征以构建具有区分性的潜在特征表示。例如,在George & Marcel (2021)中,作者提出对不同模态的贡献进行加权以融合特征,从而增强多模态FAS。同样,Liu et al. (2023a)的作者提出使用跨注意力机制来融合从不同模态提取的特征。尽管多种模态提供的信息比单一模态更丰富,用于检测伪造攻击,但多模态FAS仍然面临几个挑战。第一个挑战是不同模态在训练和测试域之间的分布差异。例如,如图2所示,IR和深度模态在真实和伪造类别之间的视觉差异比RGB模态更大。此外,在同一模态内,不同的伪造攻击也会产生显著的视觉差异。因此,从具有如此显著视觉变化的模态中学习一个泛化特征空间对多模态FAS来说尤其具有挑战性。下一个挑战是检测以前未见过的伪造攻击。具体来说,一个在训练数据集上表现良好的FAS模型可能无法检测到训练数据中未包含的攻击,从而导致在现实世界场景中的性能下降。最后,由于IR和深度模态不像RGB那样容易获得,多模态FAS在推理过程中经常遇到模态缺失的问题(例如,IR或深度图像缺失)(Yu et al. (2023))。
我们的动机在于观察到,在单一模态中,真实人脸之间的视觉差异通常比伪造人脸之间的视觉差异小得多。正如Jia et al. (2020)所指出的,真实类别的RGB图像与伪造类别的RGB图像相比,分布差异较小。同样,我们观察到真实类别的IR和深度模态在各自模态内具有相似的特征。为了验证这一点,在第3.1节中,我们对整个多模态FAS数据集CeFA进行了相关性分析,以研究每个模态内的特征相似性。如图3所示,真实类别的三种单模态特征表现出高度相似性,并且与伪造类别相比视觉差异较小。接下来,受到Sun, Liu, Liu, Li, & Chu (2023)的启发,他们提出对真实到伪造的过渡(即从真实样本到伪造样本的过渡)进行对齐,以构建一个领域不变的真实与伪造超平面,用于学习泛化的活力特征,我们怀疑不同模态之间的特征过渡可能对真实和伪造类别具有不同的特征。为了研究这一点,在第3.2节中,我们对不同模态之间的特征过渡进行了相关性分析,以检查真实和伪造类别之间的差异。如图4所示,真实类别内的跨模态特征过渡(例如,RGB到IR、RGB到深度和IR到深度)与真实和伪造类别之间的特征过渡相比具有相对较高的相关性。这些发现将在第3节中进一步讨论,表明真实类别内跨模态的一致特征过渡和真实与伪造类别之间不一致的过渡可能是多模态FAS的关键区分特征。
在本文中,我们专注于探索跨模态特征过渡,并提出了一种新的特征学习方法来解决多模态FAS的挑战。图1展示了我们方法的核心思想。我们基于上述两个发现:(1)真实类别内的跨模态特征过渡是一致的,以及(2)真实类别和伪造类别之间的特征过渡是不一致的。如图1(a)所示,真实样本之间存在一致的跨模态过渡。因此,如图1(b)所示,当其特征过渡与学习到的真实类别过渡模式显著偏离时,可以识别出一个潜在的伪造样本。虽然大多数现有的多模态FAS方法从不同角度关注架构设计,但它们往往忽略了数据的内在特征。相比之下,我们的方法是基于从多模态FAS数据中发现的两个区分特征明确设计的。接下来,基于第一个发现,我们提出通过仅使用真实图像来对齐跨模态的特征过渡来学习一个泛化特征空间。基于第二个发现,我们进一步结合伪造图像,将伪造类别的跨模态特征过渡与真实类别的过渡区分开来,以增强潜在特征的区分能力,并提高在推理过程中检测异常分布(OOD)攻击的能力。此外,为了解决模态缺失的问题,我们引入了一种有效的互补特征学习方法,从RGB模态中提取类似IR和深度的特征作为辅助模态。广泛的领域内和跨领域实验表明,所提出的方法在大多数基准协议上的性能优于之前的多模态FAS技术。
我们的贡献总结如下:
•我们使用多模态FAS数据集WMCA对不同模态之间的特征过渡进行了全面的相关性分析,并发现了两个关键发现:(1)真实类别内的跨模态特征过渡是一致的,以及(2)真实类别和伪造类别之间的特征过渡是不一致的。
•我们提出了一种基于跨模态特征过渡的多模态人脸防伪的新特征学习方法。特别是,我们利用上述两个发现来学习一个泛化和具有区分性的特征空间。
•为了解决推理过程中的模态缺失问题,我们提出了一种有效的互补特征学习方法,从RGB图像中提取类似IR和深度的特征作为辅助模态。
•广泛的实验表明,所提出的方法在大多数基准协议上的性能优于之前的多模态FAS方法。