IrisMAE：一种基于结构感知的掩码图像建模方法，用于虹膜识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：IrisMAE: Structure-Aware Masked Image Modeling for Iris Recognition

【字体：大中小】 时间：2026年03月18日 来源：Pattern Recognition 7.6

编辑推荐：

　　基于Vision Transformer的结构感知自监督虹膜识别方法，提出方向性条纹掩码（DSM）增强空间建模能力，并设计序数双线性池化（OBP）模块优化结构特征交互。在三个公开数据集上验证，精度显著优于现有方法。

段晓|贾凌瑶|李培华

大连理工大学电气工程学院，中国辽宁省大连市凌工路2号，116024

摘要

人眼虹膜包含对识别至关重要的具有空间依赖性的纹理。传统的基于卷积神经网络（CNN）的方法受到局部感受野的限制，在处理长距离依赖性时存在困难，这限制了它们捕捉沿角度和径向方向组织的虹膜模式的能力。具有自注意力机制的视觉变换器（ViT）能够模拟全局依赖性，使其在虹膜分析中具有潜力。然而，ViT在纹理建模方面缺乏归纳偏见，并且依赖于大规模标记数据，这不仅成本高昂，还引发了隐私问题。此外，传统的类标记或全局池化方法会丢弃对虹膜识别至关重要的空间信息。掩码自编码器（MAE）可以重建被掩码的图像块，从而鼓励从无标签数据中学习空间依赖性。受此启发，我们提出了IrisMAE，它将ViT的长距离建模能力与生成式自监督学习的标签效率相结合。为了使表示与虹膜结构对齐，我们设计了一种结构感知的掩码策略方向性条带掩码（DSM），将其注入MAE的预训练过程中。此外，我们提出了序数双线性池化（OBP），这是一种轻量级模块，通过结合方向性序数比较和区域级双线性池化来增强结构特征的利用。与传统的ViT特征处理方法不同，OBP能够有效保留和利用嵌入在虹膜纹理中的结构信息。在三个公开基准测试集（ND-IRIS-0405、CASIA-IrisV4-Thousand、CASIA-IrisV4-Lamp）上的实验表明，我们的方法在识别准确性和标签效率方面均表现出色。

引言

人眼虹膜是位于瞳孔和巩膜之间的一个稳定纹理区域。它被广泛认为是最独特和可靠的生物特征之一[1]、[2]。与面部、指纹和掌纹相比，虹膜识别在身份认证方面提供了更高的准确性[3]。这是因为虹膜纹理的空间依赖性在个体之间存在显著差异，尤其是在径向和角度方向上[4]。这些特性随时间保持一致，并且具有很强的防伪能力，使得虹膜识别特别适合用于安全关键系统[5]、[6]、[7]、隐私保护应用[8]以及多模态生物识别系统[10]。

虹膜识别的有效性在很大程度上取决于准确捕捉细粒度虹膜纹理的空间依赖性。许多现有方法试图通过嵌入手工制作的几何约束[11]、[12]、[13]或明确设计与虹膜空间依赖性对齐的架构组件[14]、[15]、[16]、[17]、[18]、[19]来利用这种结构先验。然而，目前虹膜识别中的主导监督学习范式仍然存在两个主要限制：（1）全局建模能力和架构灵活性有限。基于CNN的模型试图通过局部卷积来学习空间依赖性，但往往忽略了虹膜纹理的结构特性，这些纹理表现出分散的角度和径向模式[14]、[15]、[18]、[20]、[21]。由于它们的感受野本质上是局部的，CNN在模拟长距离依赖性时效率较低，因为这些依赖性必须通过重复的局部操作间接聚合[22]。为了解决这个问题，一些工作将结构先验嵌入到网络架构中[19]，从而增加了复杂性并降低了可扩展性。相比之下，视觉变换器（ViT）[23]、[24]可以直接模拟全局依赖性，提供了更好的可扩展性。（2）严重依赖大规模标记数据。大多数监督学习方法，包括在自然图像任务中使用ViT的方法，都需要大量的标注数据进行有效训练。然而，在虹膜识别中，数据收集依赖于受控条件下的近红外成像，这使得过程成本高昂、耗时且容易引发隐私问题[25]。为了解决这些问题，我们提出了IrisMAE。

与依赖大规模标记数据的监督学习方法不同，我们观察到自监督学习通过直接从无标签图像中学习提供了一个有前景的替代方案[26]。在这些自监督学习方法中，像掩码自编码器（MAE）[27]这样的生成式自监督方法特别适合虹膜识别。MAE可以从可见上下文中重建被掩码的图像区域，从而鼓励模型在无标签数据的情况下捕捉空间依赖性。其像素级别的预测目标与虹膜模式的密集纹理分布自然对齐。这种方法具有简单的框架，可以自然地集成到ViT模型中，而无需进行架构修改。尽管有这些优势，但直接将标准MAE应用于虹膜图像仍然不是最优选择。默认的随机掩码策略忽略了虹膜纹理的结构布局，可能会削弱模型学习身份区分特征的能力。这促使我们引入了一种针对虹膜径向和角度结构的结构感知掩码策略。受此启发，我们提出了一类新的结构引导掩码策略，统称为方向性条带掩码（DSM），将虹膜结构的先验知识注入MAE的预训练过程中。这些策略包括针对虹膜纹理结构布局定制的径向和角度掩码方案。通过重建空间对齐的模式，我们的DSM使模型能够学习到既具有区分性又较少依赖大规模标记结构的表示。

虽然MAE能够实现高效的标签预训练，但ViT在微调过程中对空间依赖性的感知能力较弱。特别是，传统的类标记或全局平均池化方法会丢弃虹膜的空间依赖性。为了解决这个问题，我们提出了序数双线性池化（OBP），这是一种受序数测量[11]和双线性池化[28]启发的轻量级模块。受虹膜结构布局的启发，OBP通过沿正交方向的序数比较来捕捉径向和角度依赖性，使特征提取与虹膜纹理的固有结构对齐。为了增强特征交互，OBP使用与虹膜纹理分布对齐的区域级策略执行双线性池化。这使得模型能够捕捉高阶空间依赖性。此外，OBP是即插即用的，且与架构无关，无需对ViT主干网络进行修改，同时显著提高了结构建模能力。我们总结的主要贡献如下：

•

我们提出了IrisMAE，是第一个将MAE范式引入虹膜识别的方法。为了使MAE适应虹膜纹理的结构特性，我们提出了一类名为DSM的结构引导掩码策略，取代了原有的随机掩码，并将虹膜结构先验注入预训练过程中。

•

我们提出了一种轻量级的特征交互模块OBP，它能够捕捉沿空间正交轴的方向结构，并通过区域级双线性池化来模拟高阶空间依赖性。OBP旨在与虹膜的径向和角度布局对齐，无需特定的架构重新设计即可增强ViT中的结构建模。

•

我们在三个公开的虹膜基准测试集（ND-IRIS-0405、CASIA-IrisV4-Thousand和CASIA-IrisV4-Lamp）上进行了广泛的实验和消融研究。结果一致表明，我们的方法在识别准确性和标签效率方面均优于现有的最先进方法。

章节片段

虹膜结构建模：从CNN到视觉变换器

虹膜纹理中的空间依赖性在身份识别中起着重要作用。这些依赖性并非均匀随机分布，而是呈现出与个体身份密切相关的有序空间排列[25]。早期在虹膜识别方面的进展很大程度上源于有效模拟这些空间依赖性。例如，Ma等人[11]和Yang等人[13]使用了方向性Gabor滤波器来提取空间连贯的特征。随着深度学习的发展

方法

本节介绍了我们的方法，该方法由五个关键组成部分构成：概述、使用方向性条带掩码的自监督预训练、使用序数双线性池化模块的监督微调、三元组损失优化以及推理流程。每个组成部分将在以下小节中详细说明。

实验

我们通过实验评估了我们的方法在公开虹膜数据集上的性能。本节介绍了数据集和实验设置，随后是消融研究、与早期工作的比较以及可视化结果。

局限性

虽然IrisMAE对轻微的扰动（如模糊和旋转）具有鲁棒性，但它受到极端成像条件的限制。如图13所示，严重的瞳孔扩张或收缩、大的视线偏移以及强烈的镜面反射会引入大量噪声和结构扭曲，这些都会破坏OBP假设的空间一致性，并破坏DSM中的掩码-结构对应关系。因此，通过重建预训练学习到的结构先验变得不可靠。

结论

在这项工作中，我们提出了IrisMAE，这是一个结构感知的自监督框架，它弥合了掩码图像建模和领域特定生物识别之间的差距。受到物理虹膜中的角度和径向变化自然映射到标准化图像的水平轴和垂直轴的几何先验的启发，我们设计了方向性条带掩码（DSM）。这种策略选择性地遮挡这些轴，以强制重建具有结构意义的依赖性

贡献声明

段晓负责手稿的撰写和编辑。贾凌瑶和李培华对内容进行了深入讨论，并参与了编辑和修订工作。此外，李培华还参与了资金获取、资源提供和项目监督。

未引用的引用

缺少引用图6

CRediT作者贡献声明

段晓：撰写——原始草稿，撰写——审阅与编辑，可视化，方法论，调查。贾凌瑶：撰写——审阅与编辑，验证。李培华：监督，验证，资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了中国国家自然科学基金（项目编号62471083和61971086）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号