几个世纪以来,人类面部一直是身份识别的核心,在人类文明中发挥着重要作用。在过去五十年中,面部识别一直是计算机视觉和机器学习领域最活跃的研究课题之一(参考文献:Belahcene, Laid, Chouchane, & Bourennane (2016); Chouchane, Bessaoudi, & Ouamane (2019); Ouamane, Belahcène, & Bourennane (2013); Ouamane, Benakcha, Belahcene, & Taleb-Ahmed (2015))。与其他生物识别方式(如虹膜、视网膜或指纹识别)不同,面部识别即使在非合作场景下也能有效识别个体(参考文献:Chouchane, Bessaoudi, Boutellaa, & Ouamane (2023a); Chouchane, Bessaoudi, Kheddar, Ouamane, Vieira, Hassaballah, 2024, Chouchane, Ouamane, Himeur, Mansoor, Atalla, Benzaibak, Boudellal, 2023b)。尽管在受控环境中面部识别取得了显著进展,但在光照变化、姿态多样和遮挡等非约束条件下,这项任务仍然具有挑战性(参考文献:Ali, Tian, Din, Iradukunda, & Khan (2021); Chouchane et al. (2023b))。
近年来,面部识别在图像处理、计算机视觉、机器学习、人工智能和视频监控等多个领域受到了广泛关注(参考文献:Laiadi, Ouamane, Benakcha, Taleb-Ahmed, Hadid, 2019b, Laiadi, Ouamane, Benakcha, Taleb-Ahmed, Hadid, 2020)。在过去五年中,它已成为最具活力和影响力的研究领域之一,这得益于其在社会、科学和商业应用中的广泛应用(参考文献:Ali et al. (2021); Chouchane, Ouamane, Boutellaa, Belahcene, & Bourennane (2018); Laiadi, Ouamane, Benakcha, Taleb-Ahmed, & Hadid (2019a))。
低分辨率面部识别是许多实际应用中的关键环节,例如在视频监控中验证面部匹配、在生物识别系统中验证个人身份以及支持自动驾驶技术(参考文献:Bellili et al. (2024))。尽管深度学习模型在面部识别方面取得了显著进展(参考文献:Deng, Guo, Xue, & Zafeiriou (2019); Guehairia, Dornaika, Ouamane, & Taleb-Ahmed (2022),但在实际场景中遇到的低分辨率面部图像上,这些模型的性能会显著下降。两个主要挑战导致了这一现象:一是分辨率差距,低分辨率图像缺乏有效识别所需的详细和区分性特征;二是数据差距,高质量、结构良好的训练数据与开放环境中常见的噪声较大、分辨率较低的测试数据之间的不匹配降低了模型的鲁棒性。虽然针对低分辨率数据重新训练模型可以缓解这些问题,但这一过程计算成本高且耗时(参考文献:Shi, Guo, & Ge (2024))。
这些挑战在监控应用中尤为突出。执法机构依赖监控系统来监视公共空间,但将低分辨率的CCTV录像与警察数据库中存储的高分辨率图像进行匹配仍然是一个未解决的问题。虽然已经探索了缩小高分辨率图像或增强低分辨率录像的方法,但在实际场景(如遮挡、姿态变化和动态光照)下,这些方法往往无法达到所需的精度。这些不足凸显了迫切需要创新解决方案,以有效弥合低分辨率面部识别系统中的分辨率和数据差距(参考文献:Pottanigari, Pullela, Shaik, & Reddy (2024); Shi et al. (2024))。
解决这些挑战的一个有前景的方向是超分辨率(SR)技术,该技术旨在从低分辨率图像重建高分辨率图像。在面部识别领域,面部超分辨率(Face SR)技术因能够恢复高分辨率面部图像而受到关注,从而提高了视频监控和面部增强等应用的数据可用性。最先进的方法(如SRGAN (Ledig et al., 2017), SRResNet (Ledig et al., 2017), SR-LRFR (Lai, He, & Lam, 2019), URDGN (Yu & Porikli, 2016), WaveletSrNet (Huang, He, Sun, & Tan, 2017), 和EIPNET (Kim, Li, Yun, Jung, & Kim, 2021))在人工降采样图像上取得了显著成果。然而,当应用于实际低分辨率输入时,它们的性能往往会下降,这是由于合成数据与真实世界数据之间的领域差异。为了弥合这一差距,研究人员引入了先进的策略,包括结合卷积神经网络(CNN)和变换器(Transformer)的混合架构,前者用于局部特征提取,后者用于捕捉全局上下文。语义引导模型也显示出潜力,通过将高级语义信息融入重建过程。此外,像特征聚合超分辨率(FASR)这样的方法利用多尺度特征聚合来改善图像恢复,强调了结合多种技术以克服现有方法局限性的潜力(参考文献:Aakerberg, Nasrollahi, & Moeslund (2022)。
这些超分辨率技术的进步与视觉变换器(ViTs)的变革性影响相叠加,后者重新定义了计算机视觉任务的格局。基于变换器在自然语言处理(NLP)领域的成功(参考文献:Vaswani et al. (2017)),ViTs被改编用于处理视觉特定任务,如图像分类(Dosovitskiy (2020)、语义分割(Liu et al. (2021)和对象检测(Dai et al. (2021))。ViTs的架构以多头自注意力(MSA)机制为中心,这种强大的工具使模型能够捕捉数据中的长距离依赖关系并理解全局关系,同时具有最小的归纳偏差。结合充足的训练数据,ViTs在各种任务中的表现超过了最先进的卷积神经网络(CNN)。此外,ViTs的灵活性为低分辨率面部识别等创新应用铺平了道路,它们整合全局和局部特征的能力带来了显著优势。
自监督学习策略进一步增强了ViTs的适应性,使它们能够从未标记的数据中学习有用的表示。这些策略有潜力克服低分辨率面部识别中的数据差距,使模型能够在不同场景中更好地泛化。因此,将视觉变换器与先进的超分辨率技术相结合,为开发适用于实际环境的低分辨率面部识别解决方案提供了有前景的途径(参考文献:Thisanke et al. (2023))。
本研究旨在通过研究视觉变换器(ViT)参数的最佳配置来填补现有空白,以应对极低分辨率图像中的面部识别问题。使用QMUL-Survface和QMUL-TinyFace两个数据集对各种ViT架构进行了全面评估,这两个数据集都因面部图像的低分辨率和复杂性而具有挑战性。目标是确定最有效的参数组合,以实现更好的分类性能。此外,还评估了视觉变换器(ViTs)和超分辨率技术在增强面部识别方面的有效性:
•使用视觉变换器(ViTs)从低分辨率面部图像中提取特征
,评估它们在处理有限空间细节时的鲁棒性。