基于可解释人工智能的CNN与Transformer眼动分类验证性因子分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Vision and Image Understanding》：CNNs vs Transformers: Confirmatory factor analysis for eye gaze classification with explainable AI

【字体：大中小】 时间：2026年01月04日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　本文提出新型超参数优化深度学习模型Gimage，通过构建平衡数据集Reformed-UE（每类500张图像）解决眼动方向分类中的类别失衡问题。研究采用梯度加权类激活映射（Grad-CAM）等可解释AI技术验证模型特征定位能力，在UnityEyes和MRL数据集上实现93.75%验证准确率，显著超越MobileNetV2、Swin Transformer等6种对比模型4-5个百分点。

关键问题：

1.
平衡基准数据集（如UnityEyes）如何影响深度学习模型在多类别眼动方向分类中的性能？
2.
轻量级超参数优化卷积神经网络（CNN）能否在眼动分类任务中达到或超越MobileNetV2、InceptionNetV3等先进模型性能？
3.
定制化CNN模型与现代视觉Transformer架构（特别是MobileViT和Swin Transformers）在眼动方向检测任务中的性能对比如何？

核心贡献：

1.
提出超参数优化的CNN模型G_image用于基于图像的眼动方向分类，并在UnityEyes、Reformed-UE和MRL数据集上与MobileNetV2、InceptionNetV3、MobileViT及Swin Transformer等先进模型进行对比
2.
从基准数据集UnityEyes构建平衡数据集Reformed-UE
3.
采用10项性能指标对比CNN、Transformer与G_image模型，结合Grad-CAM技术增强模型可解释性

实验设置

实验环境配置：Python 3.10.13，NVIDIA Tesla P100-PCIE GPU（16GB显存），Intel Xeon 2.00GHz处理器。G_image模型参数根据图4进行优化，在Reformed-UE数据集上展现出最优性能。

结果与讨论

对比六种深度学习模型（G_image、MobileNetV2、InceptionNetV3、AttentionCNN、MobileViT、Swin Transformer）及混合PCCR模型在三个数据集上的表现。G_image在挑战性较高的TopRight类别中显著降低分类错误率，精准度（0.93）、召回率（0.93）和F1分数（0.93）全面领先。

结论

通过Reformed-UE数据集预处理和G_image卷积神经网络，本研究为眼动确认因子分析提供高效解决方案。模型在保持轻量级架构的同时，在多项指标上超越现有先进模型，为人类情感分析的可信度和效率提升提供技术支撑。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号