编辑推荐:
注视估计无需归一化,提出RealGaze框架,通过头姿态场分支和伪头姿态策略,结合多域融合模块,直接处理真实图像,实验表明在MPIIFaceGaze、EyeDiap、ETH-XGaze等数据集上性能最优,提升显著,并验证跨摄像头鲁棒性。
Hekuangyi Che|Dongchen Zhu|Guanghui Zhang|Lei Wang|Jiamao Li
中国科学院上海微系统与信息技术研究所,中国上海长宁路865号,200050
摘要
视线估计在人机交互和智能系统中扮演着至关重要的角色。然而,现有的基于外观的方法通常依赖于使用相机内参数进行图像归一化,以减轻头部姿态的变化并确保眼睛大小的一致性,这限制了它们在现实世界应用中的实用性。为了解决这一限制,我们提出了RealGaze,一个端到端的视线估计框架,可以直接处理未经归一化的真实图像。为了有效处理头部姿态的变化,我们引入了头部姿态场分支和伪头部姿态策略,使网络能够在不进行显式归一化的情况下利用头部姿态信息。在MPIIFaceGaze、EyeDiap和ETH-XGaze数据集上的广泛实验表明,RealGaze取得了先进的性能,分别提高了18.5%、1.0%和4.7%。此外,将我们的框架集成到现有的视线估计方法中显著提升了它们在真实眼睛图像上的性能。在ETH-XGaze上的跨相机实验以及对EyeDiap的比较研究进一步证实了所提出方法的鲁棒性和广泛适用性。
引言
视线估计在计算机视觉领域中起着关键作用,其应用范围涵盖了多个行业,如虚拟现实、驾驶辅助系统和广告效果分析等。随着对自然用户交互和更智能系统的需求不断增加,准确进行视线估计的需求比以往任何时候都更加迫切。这些进步不仅提升了用户体验,还为各种智能应用的发展提供了重要支持。例如,在人机交互中,智能系统可以通过分析视线方向来推断用户的意图,从而提供更加直观和个性化的服务。同样,在驾驶辅助系统中,跟踪驾驶员的视线可以显著提高道路安全性,帮助预防事故,确保更安全的驾驶环境(见图1)。
随着深度学习的进步,基于外观的视线估计方法已成为该领域的主流方法。这些方法通过使用神经网络分析眼睛或面部图像来预测视线方向。在输入网络之前,这些图像通常会进行归一化,以消除头部姿态对视线估计的影响,因为视线不仅受眼睛运动的影响,还受头部姿态的影响。相机捕获的原始图像同时包含了眼睛运动和头部姿态信息,如果不进行归一化,网络将难以从复杂的数据中提取准确的视线特征。然而,这种归一化过程依赖于相机内参数。在许多实际场景中,这些参数可能无法获取,使得进行必要的归一化变得不可能。此外,归一化的需求使得视线估计过程变得复杂。它需要首先对原始图像进行归一化,然后使用神经网络从归一化后的图像预测视线方向,最后使用从初始归一化步骤中得到的旋转矩阵将预测的视线转换回真实世界的视线。这种多步骤过程可能非常繁琐,特别是在获取相机参数具有挑战性的部署环境中。
为了解决这一挑战,我们提出了一种名为RealGaze的新方法,该方法消除了对归一化的需求,可以直接从真实的眼睛图像中进行端到端的视线估计。归一化的目标有两个:首先,校正头部姿态,确保面部在图像中保持居中;其次,保持眼睛图像大小的一致性。RealGaze以创新的方式实现了这些目标。对于第一个目标——校正头部姿态,我们引入了两种方法:头部姿态场分支和伪头部姿态策略。这些技术指导网络学习头部姿态信息,从而能够从真实的眼睛图像中高精度地提取视线特征。具体来说,我们使用6DRepnet算法从真实头部图像中估计头部姿态伪标签。通过利用这些伪标签的偏航角和俯仰角,我们生成了高斯加权分布图像,称为头部姿态场。伪头部姿态策略是一种更简单的方法,其中一个额外的网络直接从真实面部图像预测头部姿态,然后将这个预测的头部姿态特征图纳入视线估计网络。由于视线特征、头部姿态场特征和伪头部姿态特征来自不同的来源,我们设计了一个多范围融合(MSF)模块来解决这些特征之间的领域差异。该模块有效地消除了领域差异,使网络能够提取更准确的视线特征。对于第二个目标——保持眼睛图像大小的一致性,我们裁剪出一个以眼睛内外角中点为中心的正方形区域,边长是这两个角之间距离的四倍。然后将这个裁剪区域调整到统一的大小,确保所有输入的眼睛图像在维度上保持一致,从而无需传统归一化即可进行可靠的视线估计。
我们在几个公共数据集上评估了所提出方法的性能,包括MPIIFaceGaze、EyeDiap和ETH-XGaze。实验结果表明,我们的方法在所有三个数据集上都取得了先进的性能。具体来说,在MPIIFaceGaze上的误差从59.9°降低到48.8°,在EyeDiap上的误差从66.7°降低到46.8°,在ETH-XGaze上的误差从69.0°降低到48.0°。我们还将我们的框架应用于现有的视线估计方法,如Gaze360、XGaze、GazeTR和GazePTR,并在真实图像上观察到了显著的性能提升。此外,我们使用ETH-XGaze数据集进行了跨相机实验,结果显示我们的方法显著优于基于归一化的方法。为了进一步展示RealGaze的优势,我们在EyeDiap数据集上设计了一个实验,比较了不同归一化设置下的误差。结果揭示了我们的方法不仅具有高度的鲁棒性,而且与传统归一化技术相比性能更优。最后,我们对多范围融合(MSF)模块的输入和输出特征图进行了可视化分析。这一分析有助于揭示其有效性的根本原因,展示了MSF模块如何通过克服不同特征源之间的领域差异来促进更准确的视线估计。
总之,我们的贡献如下:
- 我们提出了RealGaze,一种专为真实图像设计的端到端视线估计算法。这种方法最小化了對图像归一化的依赖,能够直接从原始图像中进行准确的视线预测。
- 我们引入了头部姿态场分支,该分支从伪头部姿态角度生成姿态场。这一分支有效地将头部姿态方向信息纳入模型,使网络能够更好地考虑头部方向。
- 我们设计了一种伪头部姿态策略,以辅助通过所提出的MSF模块实现的多范围特征融合。该策略使用伪头部姿态角度隐式地将头部姿态线索嵌入到融合特征中,从而减轻了无归一化条件下头部姿态感知的丢失。
部分片段
基于外观的视线估计
基于外观的视线估计方法因其能够直接从图像数据中学习视线方向而受到重视,而无需复杂的几何模型。这些方法主要利用深度学习技术从眼睛或面部图像中提取特征并估计视线方向。
Kellnhofer等人提出了一种能够实现360度全向视线估计的时间依赖性视线估计方法。Zhao等人引入了一种无需校准的方法
初步
现有的视线估计方法通常依赖于图像归一化来减少头部姿态的影响。如图2所示,归一化过程包括两个步骤:(1)旋转:将相机绕连接相机和眼睛原点的轴旋转,直到其x轴与眼睛坐标系的x轴对齐,确保面部直接面向相机。(2)缩放:沿连接相机和眼睛原点的线移动相机,以保持一致的距离。
数据集
为了评估我们算法的性能,我们在公开可用的数据集MPIIFaceGaze、EyeDiap和ETH-XGaze上进行了广泛的实验。
MPIIFaceGaze:该数据集广泛用于基于外观的视线估计,包含来自15名参与者的213,659张图像,这些图像是在日常环境中收集的,具有不受约束的头部姿态和正常的照明条件。根据数据集协议,我们使用提供的样本列表为每个受试者选择了3000张图像。
结论与未来工作
在这项工作中,我们提出了RealGaze,一个端到端的视线估计框架,可以直接处理未经归一化的真实眼睛图像,解决了传统基于归一化方法的局限性。通过利用新颖的头部姿态场分支和伪头部姿态策略,RealGaze能够在不需要图像归一化的情况下有效整合头部姿态信息,从而在各种真实世界场景中实现准确的视线预测。
我们的广泛实验表明
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了中国科学技术部的国家重点科技项目(2021ZD0201403)、上海自然科学基金(23ZR1474200)、中国科学院青年创新促进协会(2021233、2023242)以及上海学术研究领导者的支持。