GMMGaze：基于高斯混合模型的动态粗略到精细注视估计方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Pattern Recognition 7.6

编辑推荐：

　　眼球追踪估计中，针对遮挡、运动模糊和光照变化导致的精度下降问题，提出基于高斯混合模型（GMM）的动态粗到细框架。通过分析数据分布的多峰特性，设计数据自适应分区策略：高密度区域细分以捕捉微小角度变化，低密度区域合并以避免过拟合。实验表明，该方法在MPIIFaceGaze、Gaze360、EyeDiap等数据集上角误差分别达到2.12°、10.33°、5.25°，跨数据集评估误差7.24°、8.13°，优于全脸方法。

赵万里|李端腾川|康凌云|王书通|王晓光

武汉大学信息管理学院，中国武汉，430072

摘要

视线估计从面部图像中预测视线方向，在人机交互和智能系统中得到广泛应用。然而，在现实世界的复杂场景中，视线估计经常面临遮挡、运动模糊和光照条件变化等挑战，导致估计精度显著下降。为了解决这个问题，我们提出了GMMGaze，这是一种基于高斯混合模型（GMM）的动态粗粒度到细粒度视线估计框架。GMMGaze的核心是一种数据自适应的分箱策略，该策略由两个独立的一维高斯混合模型（GMM）指导，一个用于俯仰角度，另一个用于偏航角度。通过对数据集的统计分析，我们发现视线数据样本的分布并非标准的高斯分布，而是表现出高斯混合特性。基于这一关键发现，我们设计了一种数据自适应的分箱策略：在数据密集区域减小分箱宽度以准确捕捉微妙的角度变化；在数据稀疏区域增加分箱宽度以有效防止对噪声的过拟合。这种策略动态划分视线空间，以实现数据分布的平衡优化，从而减轻了部分遮挡和光照变化引起的特征失真。在MPIIFaceGaze测试中，GMMGaze的准确率为2.12°；在Gaze360测试中为10.33°；在EyeDiap测试中为5.25°。在零样本跨数据集评估中，其在MPIIGaze上的准确率为7.24°，在EyeDiap上的准确率为8.13°，优于之前的方法（如Full-Face的11.13°/14.42°）。

引言

视线估计是计算机视觉中的一个重要任务，应用于驾驶员监控[1]、智能界面[2]和行为分析[3]等领域。尽管取得了实质性进展，但在无约束环境下进行鲁棒估计仍然具有挑战性，因为存在遮挡、模糊和光照变化（图1）。现有方法大致可以分为基于模型的方法[4]和基于外观的方法[5]。基于模型的方法依赖于几何约束和显式的眼睛建模，而基于外观的方法使用深度网络从视觉输入直接学习视线方向。尽管在受控环境中有效，但这两种方法在复杂现实世界条件下都存在鲁棒性和泛化能力方面的局限性。

基于模型的方法依赖于几何约束和精确的地标定位，提供了可解释性，但在遮挡和光照变化下的鲁棒性有限。基于外观的方法使用深度网络从图像学习视线方向的直接映射，提供了更强的非线性建模能力，但在极端姿态或数据分布不平衡的情况下泛化能力较差。为了缓解这些问题，最近的粗粒度到细粒度的框架首先通过粗粒度离散化缩小角度范围，然后通过局部回归细化预测。尽管有这些进步，现实世界的视线估计仍然容易受到遮挡、模糊和光照变化等视觉干扰的影响[6]。此外，大多数现有方法，包括粗粒度到细粒度的方法，都假设俯仰-偏航空间中的视线分布是均匀的或单峰的[7]、[8]，这可能无法反映实际数据特征。

然而，如图2和图3所示，实证分析表明，现实世界的视线数据集表现出多个密度峰值和各向异性结构——视线方向在特定区域集中，而在其他区域则较为稀疏。这种分布与均匀或单高斯假设有显著差异。为了解决这个问题，我们采用了一种基于密度的监督策略：在高密度区域应用更细的离散化，在稀疏区域使用更粗的分区。为了效率和简洁性，我们使用两个一维高斯混合模型（GMM）分别独立地对偏航和俯仰进行建模，这有效地捕捉了边缘的非均匀性，同时保持了计算的可行性。根据这些学习到的分布，离线确定分箱边界，构建了一个数据自适应的分箱方案（见图4）。具体来说，分箱宽度根据局部数据密度自适应调整，在高密度区域使用更细的分区，在稀疏区域使用更粗的分箱，从而在角度分布不平衡的情况下提高了鲁棒性。本工作的主要贡献总结如下：•

我们通过实证证明了视线角度分布是非均匀和多模态的，这促使我们采用高斯混合模型进行建模。

•

我们提出了一种基于GMM的动态粗粒度到细粒度框架，使用两个独立的一维GMM对俯仰和偏航进行建模，并定义了数据自适应的分箱边界。

•

我们在多个公开基准测试中验证了所提方法的有效性和鲁棒性。

本文的其余部分组织如下。第2节回顾相关工作。第3节介绍所提出的GMMGaze框架。第4节报告实验结果和分析。第5节讨论关键发现和局限性。第6节总结本文。

模型基础方法

基于模型的视线估计通过使用瞳孔中心、角膜反射和眼睛地标等特征对眼睛进行几何建模来推断视线方向。早期方法依赖于二维几何映射，包括基于角膜反射的方法[9]、单应性归一化[10]和交叉比率公式[11]。虽然理论上可解释，但这些方法严重依赖于专用硬件和精确校准，限制了在头部运动下的鲁棒性

GMMGaze概述

如图5所示，首先输入包含人脸的图像，然后通过预训练的骨干网络提取特征，并通过全局平均池化将其压缩为固定长度的向量。

骨干网络

为了有效提取关键特征，我们评估了多种骨干网络架构，包括ResNet变体（ResNet18、ResNet50、ResNet152）和基于Transformer的模型。尽管Transformer具有强大的全局建模能力，但其计算成本不太适合这项任务。

评估指标

角度误差ε是衡量模型性能的关键指标，用于量化3D空间中预测视线方向与真实视线方向之间的差异。它通过以下公式计算：其中 g_i 和

{\hat{g}}_{i}

分别代表第个样本的标准化真实视线方向向量和预测视线方向向量。因此，指标ε反映了两者之间的平均余弦相似度角度，以弧度为单位。

视线分布模型的验证

实证分析表明，俯仰-偏航空间中的视线方向遵循非均匀和多模态分布，中心区域的密度较高，极端角度的样本较为稀疏。这促使我们使用独立的一维高斯混合模型（GMM）对俯仰和偏航的边际进行建模。与确定性回归或均匀量化相比，GMM提供了对数据异质性更好的捕获。

动态粗粒度到细粒度框架的有效性

利用学习到的GMM先验，所提出的

结论

本研究提出了基于高斯混合模型的动态粗粒度到细粒度视线估计方法。通过揭示视线角度数据的多模态分布特征，该方法引入了高斯混合模型来适应性地划分角度空间，从而在复杂的视觉干扰下实现更细粒度的特征提取和定位。实验结果表明，所提方法在多个主流评估指标上显示出显著的估计精度和鲁棒性

CRediT作者贡献声明

赵万里：软件、方法论、概念化。李端腾川：资源、形式分析。康凌云：写作——原始草稿、方法论、数据管理。王书通：可视化、调查。王晓光：监督。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作得到了国家社会科学基金重大项目（编号21&ZD334）、国家自然科学基金（编号62507035）、江西省自然科学基金（编号20252BAC200199）、江西省社会科学基金年度项目“生成式人工智能在教育中的应用潜力与风险治理研究”（编号24JY14）以及江西省教育科学规划常规项目“关于……的研究”的支持

联系信箱：

粤ICP备09063491号

摘要

引言