利用超分辨率技术和视觉变换器提升低分辨率图像的人脸验证效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Enhancing Face Verification for Low-Resolution Images with Super-Resolution and Vision Transformers

【字体：大中小】 时间：2026年03月07日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　低分辨率人脸验证中，Vision Transformer（ViT）与超分辨率（SR）技术结合显著提升性能。通过SRResNet生成高分辨率图像，对比分析SimpleViT、DistillableViT、DeepViT等模型在QMUL-TinyFace和Survface数据集上的表现，验证SR-Vit方法在极端低分辨率下达到52.92%的TAR和92.65%的AUC，证实多模态融合的有效性。

阿尔及利亚比斯克拉大学电气工程系LI3C实验室

摘要

在低分辨率环境下进行面部验证极具挑战性，因为身份特征会丢失。本文探讨了将视觉变换器（ViTs）与超分辨率技术相结合的方法，以提高QMUL-TinyFace和QMUL-Survface数据集上的验证性能。我们评估了多种ViT模型，并比较了它们在原始图像和使用SRResNet生成的超分辨率图像上的有效性。DistillableViT由于其知识蒸馏策略，在低分辨率条件下表现出最强大的性能；SimpleViT也因其轻量化和高效的设计而取得了良好的结果；DeepViT主要提升了训练稳定性，但相比蒸馏版本竞争力稍逊一筹。我们的结果表明，超分辨率技术显著提高了性能，尤其是SimpleViT和DistillableViT，它们几乎达到了完美的准确率。DeepViT通过稳定化减少了过拟合现象，而Cait则效果不佳，这凸显了架构上的局限性。所提出的SR-Vit方法超越了现有最佳实践，在QMUL-TinyFace数据集上实现了52.92%的TAR@FAR=1%和92.65%的AUC。在QMUL-Survface数据集上，它实现了8.50%的TAR@0.001%，并将AUC提高了83.41%

引言

几个世纪以来，人类面部一直是身份识别的核心，在人类文明中发挥着重要作用。在过去五十年中，面部识别一直是计算机视觉和机器学习领域最活跃的研究课题之一（参考文献：Belahcene, Laid, Chouchane, & Bourennane (2016); Chouchane, Bessaoudi, & Ouamane (2019); Ouamane, Belahcène, & Bourennane (2013); Ouamane, Benakcha, Belahcene, & Taleb-Ahmed (2015)）。与其他生物识别方式（如虹膜、视网膜或指纹识别）不同，面部识别即使在非合作场景下也能有效识别个体（参考文献：Chouchane, Bessaoudi, Boutellaa, & Ouamane (2023a); Chouchane, Bessaoudi, Kheddar, Ouamane, Vieira, Hassaballah, 2024, Chouchane, Ouamane, Himeur, Mansoor, Atalla, Benzaibak, Boudellal, 2023b）。尽管在受控环境中面部识别取得了显著进展，但在光照变化、姿态多样和遮挡等非约束条件下，这项任务仍然具有挑战性（参考文献：Ali, Tian, Din, Iradukunda, & Khan (2021); Chouchane et al. (2023b)）。

近年来，面部识别在图像处理、计算机视觉、机器学习、人工智能和视频监控等多个领域受到了广泛关注（参考文献：Laiadi, Ouamane, Benakcha, Taleb-Ahmed, Hadid, 2019b, Laiadi, Ouamane, Benakcha, Taleb-Ahmed, Hadid, 2020）。在过去五年中，它已成为最具活力和影响力的研究领域之一，这得益于其在社会、科学和商业应用中的广泛应用（参考文献：Ali et al. (2021); Chouchane, Ouamane, Boutellaa, Belahcene, & Bourennane (2018); Laiadi, Ouamane, Benakcha, Taleb-Ahmed, & Hadid (2019a)）。

低分辨率面部识别是许多实际应用中的关键环节，例如在视频监控中验证面部匹配、在生物识别系统中验证个人身份以及支持自动驾驶技术（参考文献：Bellili et al. (2024)）。尽管深度学习模型在面部识别方面取得了显著进展（参考文献：Deng, Guo, Xue, & Zafeiriou (2019); Guehairia, Dornaika, Ouamane, & Taleb-Ahmed (2022)，但在实际场景中遇到的低分辨率面部图像上，这些模型的性能会显著下降。两个主要挑战导致了这一现象：一是分辨率差距，低分辨率图像缺乏有效识别所需的详细和区分性特征；二是数据差距，高质量、结构良好的训练数据与开放环境中常见的噪声较大、分辨率较低的测试数据之间的不匹配降低了模型的鲁棒性。虽然针对低分辨率数据重新训练模型可以缓解这些问题，但这一过程计算成本高且耗时（参考文献：Shi, Guo, & Ge (2024)）。

这些挑战在监控应用中尤为突出。执法机构依赖监控系统来监视公共空间，但将低分辨率的CCTV录像与警察数据库中存储的高分辨率图像进行匹配仍然是一个未解决的问题。虽然已经探索了缩小高分辨率图像或增强低分辨率录像的方法，但在实际场景（如遮挡、姿态变化和动态光照）下，这些方法往往无法达到所需的精度。这些不足凸显了迫切需要创新解决方案，以有效弥合低分辨率面部识别系统中的分辨率和数据差距（参考文献：Pottanigari, Pullela, Shaik, & Reddy (2024); Shi et al. (2024)）。

解决这些挑战的一个有前景的方向是超分辨率（SR）技术，该技术旨在从低分辨率图像重建高分辨率图像。在面部识别领域，面部超分辨率（Face SR）技术因能够恢复高分辨率面部图像而受到关注，从而提高了视频监控和面部增强等应用的数据可用性。最先进的方法（如SRGAN (Ledig et al., 2017), SRResNet (Ledig et al., 2017), SR-LRFR (Lai, He, & Lam, 2019), URDGN (Yu & Porikli, 2016), WaveletSrNet (Huang, He, Sun, & Tan, 2017), 和EIPNET (Kim, Li, Yun, Jung, & Kim, 2021)）在人工降采样图像上取得了显著成果。然而，当应用于实际低分辨率输入时，它们的性能往往会下降，这是由于合成数据与真实世界数据之间的领域差异。为了弥合这一差距，研究人员引入了先进的策略，包括结合卷积神经网络（CNN）和变换器（Transformer）的混合架构，前者用于局部特征提取，后者用于捕捉全局上下文。语义引导模型也显示出潜力，通过将高级语义信息融入重建过程。此外，像特征聚合超分辨率（FASR）这样的方法利用多尺度特征聚合来改善图像恢复，强调了结合多种技术以克服现有方法局限性的潜力（参考文献：Aakerberg, Nasrollahi, & Moeslund (2022）。

这些超分辨率技术的进步与视觉变换器（ViTs）的变革性影响相叠加，后者重新定义了计算机视觉任务的格局。基于变换器在自然语言处理（NLP）领域的成功（参考文献：Vaswani et al. (2017)），ViTs被改编用于处理视觉特定任务，如图像分类（Dosovitskiy (2020)、语义分割（Liu et al. (2021）和对象检测（Dai et al. (2021)）。ViTs的架构以多头自注意力（MSA）机制为中心，这种强大的工具使模型能够捕捉数据中的长距离依赖关系并理解全局关系，同时具有最小的归纳偏差。结合充足的训练数据，ViTs在各种任务中的表现超过了最先进的卷积神经网络（CNN）。此外，ViTs的灵活性为低分辨率面部识别等创新应用铺平了道路，它们整合全局和局部特征的能力带来了显著优势。

自监督学习策略进一步增强了ViTs的适应性，使它们能够从未标记的数据中学习有用的表示。这些策略有潜力克服低分辨率面部识别中的数据差距，使模型能够在不同场景中更好地泛化。因此，将视觉变换器与先进的超分辨率技术相结合，为开发适用于实际环境的低分辨率面部识别解决方案提供了有前景的途径（参考文献：Thisanke et al. (2023)）。

本研究旨在通过研究视觉变换器（ViT）参数的最佳配置来填补现有空白，以应对极低分辨率图像中的面部识别问题。使用QMUL-Survface和QMUL-TinyFace两个数据集对各种ViT架构进行了全面评估，这两个数据集都因面部图像的低分辨率和复杂性而具有挑战性。目标是确定最有效的参数组合，以实现更好的分类性能。此外，还评估了视觉变换器（ViTs）和超分辨率技术在增强面部识别方面的有效性：

•

使用视觉变换器（ViTs）从低分辨率面部图像中提取特征

，评估它们在处理有限空间细节时的鲁棒性。

•

实施超分辨率技术以提高低分辨率面部图像的质量

，旨在恢复丢失的高频细节并提高识别准确性。

•

将超分辨率图像与视觉变换器结合，分析分辨率增强对面部验证的影响

，评估特征表示的改进。

•

比较直接的低分辨率面部识别方法和超分辨率增强方法

，全面分析它们在具有挑战性的面部识别场景中的有效性。

本文的结构如下：第一节：引言部分介绍了研究动机、目标和关键贡献。第二节：相关工作回顾了低分辨率环境下的面部识别和超分辨率技术的现有研究。第三节：基于视觉变换器的面部识别模型详细介绍了选定的视觉变换器架构。第四节：面部识别的超分辨率技术讨论了用于提高识别前图像质量的方法。第五节：提出的方法及其对低分辨率面部识别的影响描述了超分辨率和视觉变换器模型的集成方式，强调了它们在极端视觉退化条件下的性能提升。第六节：实验结果与分析提供了对所提出方法的深入评估，包括数据集描述、数据增强策略、参数设置和性能比较分析。最后，第七节：结论总结了主要发现并指出了未来研究的方向。

低分辨率条件下的面部识别已得到广泛研究，因为实际应用通常涉及在不受控制的环境中捕获的图像，如监控和远程认证。在这篇综述中，我们特别关注为低分辨率面部验证设计的方法，尤其是那些结合超分辨率技术以恢复身份特征的方法。

基于视觉变换器的面部识别模型

使用了四种不同的视觉变换器（ViT）模型来评估它们在极低分辨率图像面部识别中的有效性。每个模型都是根据其架构特点和在挑战性条件下捕获区分性面部特征的能力精心挑选的。这些ViT模型的性能在两种场景下进行了评估：直接使用低分辨率图像进行面部验证，以及应用超分辨率技术后的验证。

面部识别的超分辨率技术

超分辨率（SR）旨在从低分辨率（LR）输入重建高分辨率（HR）图像（参考文献：Bellili et al. (2025)）。这个问题在计算机视觉应用中很常见，如医学成像、卫星成像和视频处理。深度学习的最新进展显著提升了SR技术，主要通过卷积神经网络（CNN）和生成对抗网络（GAN）实现。本文总结了两种突出的SR方法：

提出的方法及其对低分辨率面部识别的影响

在这项研究中，我们提出了一种综合方法，旨在通过将超分辨率（SR）技术与视觉变换器（ViT）架构相结合来提高低分辨率（LR）图像的面部识别准确性。与仅关注SR或直接将ViT应用于LR图像的传统方法不同，我们的框架结合了这两种方法的优势。具体来说，我们引入了一个两步流程，首先应用SR网络（如SRResNet和SRGAN）

实验结果与分析

本节提供了实验设置和结果的全面概述。首先介绍了本研究使用的数据集，强调了它们的特点和挑战。接下来描述了用于增强模型鲁棒性的数据增强技术。然后详细解释了用于训练视觉变换器（ViT）模型的参数设置。最后，分析并比较了所得结果与现有工作。

结论

本文研究了将视觉变换器（ViTs）与超分辨率技术结合在低分辨率面部验证中的有效性。实验结果证实，应用超分辨率预处理（特别是SRResNet）显著提高了各种ViT架构的性能。SimpleViT和DistillableViT表现出最高的改进，几乎达到了完美的准确率，并展示了强大的特征提取能力。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

基于视觉变换器的面部识别模型

面部识别的超分辨率技术

提出的方法及其对低分辨率面部识别的影响

实验结果与分析

结论

利益冲突声明

热点排行