通过跨模态特征转换实现的多模态人脸防欺骗技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Multi-Modal Face Anti-Spoofing via Cross-Modal Feature Transitions

【字体：大中小】 时间：2026年01月23日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多模态人脸反欺诈（FAS）通过融合RGB、红外（IR）和深度图像等多模态特征提升检测鲁棒性，但面临跨域分布差异大和模态缺失问题。本文提出CTNet，利用活体样本跨模态特征转换一致性构建通用特征空间，并通过活体与伪造样本的转换不一致性增强鉴别性，同时设计RGB模态生成辅助IR和深度特征应对缺失问题。实验表明CTNet在多个基准数据集上优于现有方法。

钟俊雄|徐宇|徐明松|林宜婷|詹凯亨|徐秋婷|黄培凯

中国福建师范大学计算机与网络安全学院，福州

摘要

多模态人脸防伪（FAS）旨在通过从多种模态（如RGB、红外（IR）和深度图像）中提取具有区分性的活力特征来检测真实的人脸存在，从而增强生物特征认证系统的鲁棒性。然而，由于不同模态的数据通常由不同的相机传感器捕获，并且处于不同的环境条件下，与单模态FAS相比，多模态FAS在训练和测试域之间的分布差异通常更大。此外，在推理阶段，当一个或多个模态不可用或无法访问时，多模态FAS会面临更大的挑战。为了解决这些问题，我们提出了一种跨模态过渡引导网络（CTNet），以实现鲁棒的多模态FAS。我们的动机在于，在单一模态中，真实人脸的视觉变化比伪造人脸小，且真实样本的跨模态特征过渡比伪造样本更为一致。基于这一发现，我们提出学习真实样本之间的一致的跨模态特征过渡以构建一个泛化特征空间。接下来，我们引入学习真实样本和伪造样本之间的不一致的跨模态过渡，以便在推理过程中有效检测异常分布（OOD）攻击。为进一步解决模态缺失的问题，我们提出从RGB模态中学习互补的IR和深度特征作为辅助模态。广泛的实验表明，所提出的CTNet在大多数协议上的性能优于之前的多模态FAS方法。

引言

虽然面部识别方便地实现了对各种平台、设备和支付系统的访问，但它也面临着日益增加的面部伪造攻击威胁，包括3D口罩攻击（即佩戴口罩）、打印攻击（即在纸上打印面部图像）和重放攻击（即显示面部视频）。为了应对面部伪造攻击，许多单模态人脸防伪（FAS）方法使用最常见的模态（即RGB图像）来区分真实人脸和伪造人脸。一些最近的方法（Huang, Chiang, Chen, Chong, Liu, Hsu, 2024a; Huang, Chong, Chiang, Chen, Liu, Hsu, 2025a; Huang, Chong, Hsu, Hsu, Lin, Chien, Shao, & Hsu）专注于仅从真实训练图像中学习区分性特征。其他方法（Huang, Ni, Ni, & Hsu (2022); Jia, Zhang, Shan, & Chen (2020)）注意到，RGB传感器收集的真实图像与伪造图像之间的分布差异较小，因此提出将所有真实人脸与来自不同训练域的伪造人脸聚合起来学习一个泛化特征空间。然而，随着新的伪造攻击手段不断演变，模仿真实人脸复杂的纹理细节，依赖单一模态的FAS方法越来越不足以应对这些快速发展的威胁。因此，最近的多模态FAS方法结合了额外的模态（如红外（IR）和深度图像），以更好地捕捉面部防伪中的区分性活力信息。

大多数多模态FAS方法（Deng, Ge, Wei, Sun, & Qiao (2023); Li et al. (2023); Liu et al. (2023a); Yu et al. (2020a）专注于融合不同模态的特定特征以构建具有区分性的潜在特征表示。例如，在George & Marcel (2021)中，作者提出对不同模态的贡献进行加权以融合特征，从而增强多模态FAS。同样，Liu et al. (2023a)的作者提出使用跨注意力机制来融合从不同模态提取的特征。尽管多种模态提供的信息比单一模态更丰富，用于检测伪造攻击，但多模态FAS仍然面临几个挑战。第一个挑战是不同模态在训练和测试域之间的分布差异。例如，如图2所示，IR和深度模态在真实和伪造类别之间的视觉差异比RGB模态更大。此外，在同一模态内，不同的伪造攻击也会产生显著的视觉差异。因此，从具有如此显著视觉变化的模态中学习一个泛化特征空间对多模态FAS来说尤其具有挑战性。下一个挑战是检测以前未见过的伪造攻击。具体来说，一个在训练数据集上表现良好的FAS模型可能无法检测到训练数据中未包含的攻击，从而导致在现实世界场景中的性能下降。最后，由于IR和深度模态不像RGB那样容易获得，多模态FAS在推理过程中经常遇到模态缺失的问题（例如，IR或深度图像缺失）（Yu et al. (2023)）。

我们的动机在于观察到，在单一模态中，真实人脸之间的视觉差异通常比伪造人脸之间的视觉差异小得多。正如Jia et al. (2020)所指出的，真实类别的RGB图像与伪造类别的RGB图像相比，分布差异较小。同样，我们观察到真实类别的IR和深度模态在各自模态内具有相似的特征。为了验证这一点，在第3.1节中，我们对整个多模态FAS数据集CeFA进行了相关性分析，以研究每个模态内的特征相似性。如图3所示，真实类别的三种单模态特征表现出高度相似性，并且与伪造类别相比视觉差异较小。接下来，受到Sun, Liu, Liu, Li, & Chu (2023)的启发，他们提出对真实到伪造的过渡（即从真实样本到伪造样本的过渡）进行对齐，以构建一个领域不变的真实与伪造超平面，用于学习泛化的活力特征，我们怀疑不同模态之间的特征过渡可能对真实和伪造类别具有不同的特征。为了研究这一点，在第3.2节中，我们对不同模态之间的特征过渡进行了相关性分析，以检查真实和伪造类别之间的差异。如图4所示，真实类别内的跨模态特征过渡（例如，RGB到IR、RGB到深度和IR到深度）与真实和伪造类别之间的特征过渡相比具有相对较高的相关性。这些发现将在第3节中进一步讨论，表明真实类别内跨模态的一致特征过渡和真实与伪造类别之间不一致的过渡可能是多模态FAS的关键区分特征。

在本文中，我们专注于探索跨模态特征过渡，并提出了一种新的特征学习方法来解决多模态FAS的挑战。图1展示了我们方法的核心思想。我们基于上述两个发现：（1）真实类别内的跨模态特征过渡是一致的，以及（2）真实类别和伪造类别之间的特征过渡是不一致的。如图1(a)所示，真实样本之间存在一致的跨模态过渡。因此，如图1(b)所示，当其特征过渡与学习到的真实类别过渡模式显著偏离时，可以识别出一个潜在的伪造样本。虽然大多数现有的多模态FAS方法从不同角度关注架构设计，但它们往往忽略了数据的内在特征。相比之下，我们的方法是基于从多模态FAS数据中发现的两个区分特征明确设计的。接下来，基于第一个发现，我们提出通过仅使用真实图像来对齐跨模态的特征过渡来学习一个泛化特征空间。基于第二个发现，我们进一步结合伪造图像，将伪造类别的跨模态特征过渡与真实类别的过渡区分开来，以增强潜在特征的区分能力，并提高在推理过程中检测异常分布（OOD）攻击的能力。此外，为了解决模态缺失的问题，我们引入了一种有效的互补特征学习方法，从RGB模态中提取类似IR和深度的特征作为辅助模态。广泛的领域内和跨领域实验表明，所提出的方法在大多数基准协议上的性能优于之前的多模态FAS技术。

我们的贡献总结如下：

•

我们使用多模态FAS数据集WMCA对不同模态之间的特征过渡进行了全面的相关性分析，并发现了两个关键发现：（1）真实类别内的跨模态特征过渡是一致的，以及（2）真实类别和伪造类别之间的特征过渡是不一致的。

•

我们提出了一种基于跨模态特征过渡的多模态人脸防伪的新特征学习方法。特别是，我们利用上述两个发现来学习一个泛化和具有区分性的特征空间。

•

为了解决推理过程中的模态缺失问题，我们提出了一种有效的互补特征学习方法，从RGB图像中提取类似IR和深度的特征作为辅助模态。

•

广泛的实验表明，所提出的方法在大多数基准协议上的性能优于之前的多模态FAS方法。

部分摘录

单模态人脸防伪

正如Kong, Wang, Li等人（2022a）在最近的一项调查中指出的，已经开发了许多单模态人脸防伪（FAS）方法来应对潜在的伪造攻击，并专注于学习具有区分性的活力特征和解决跨域挑战。在Jia等人（2020）的研究中，作者利用真实数据的特征学习了一个特征空间，在该空间中，真实特征紧密聚集，同时确保伪造特征在各个域中分散但仍然紧凑。

多模态人脸防伪中的模态特征

在本节中，我们探讨了多模态FAS中各个模态的模态特征，特别是关注各个模态内的潜在特征以及不同模态之间的特征过渡。

提出的方法

在本文中，我们提出了一种新的多模态人脸防伪（FAS）模型——跨模态过渡引导网络（CTNet），利用了不同模态中真实类别和伪造类别的上述特征。图5展示了CTNet的主要思想，该模型旨在学习真实样本之间一致的跨模态特征过渡，同时捕获真实样本和伪造样本之间不一致的过渡，以构建一个泛化特征空间。

数据集

我们在以下多模态人脸防伪数据库上进行了广泛的实验：CASIA-SURF（Zhang et al.，2020）、CASIA-SURF CeFA（Liu et al.，2021）、WMCA（George et al.，2019）和PADISI-Face（Rostami, Spinoulas, Hussein, Mathai, & Abd-Almageed，2021）。在本文中，我们采用这些多模态人脸防伪数据集中的RGB、IR和深度模态来进行实验。

这些多模态人脸防伪数据的详细统计描述在

结论

在本文中，我们提出了一种新的跨模态过渡引导网络（CTNet）来解决多模态人脸防伪（FAS）的挑战。首先，我们研究了特征过渡的关键特征，观察到真实人脸表现出一致的跨模态过渡，而伪造人脸则表现出不一致的过渡。基于这些见解，我们引入了一种跨模态过渡引导的特征学习方法，以明确利用这些特征来增强检测能力

CRediT作者贡献声明

钟俊雄：概念化、方法论、软件、验证、形式分析、撰写——原始草稿、可视化。徐宇：方法论、软件。徐明松：方法论、软件。林宜婷：软件。詹凯亨：软件。徐秋婷：监督、撰写——审稿与编辑、项目管理、资金获取。黄培凯：概念化、方法论、形式分析、撰写——原始草稿、撰写——审稿与编辑、项目管理、资金

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

黄培凯报告称获得了中国国家自然科学基金的财务支持。徐秋婷报告称获得了国家科学技术委员会的财务支持。如果还有其他作者，他们声明没有已知的财务利益或个人关系可能影响

联系信箱：

粤ICP备09063491号

摘要

引言