基于可解释人工智能的CNN与Transformer眼动分类验证性因子分析

《Computer Vision and Image Understanding》:CNNs vs Transformers: Confirmatory factor analysis for eye gaze classification with explainable AI

【字体: 时间:2026年01月04日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  本文提出新型超参数优化深度学习模型Gimage,通过构建平衡数据集Reformed-UE(每类500张图像)解决眼动方向分类中的类别失衡问题。研究采用梯度加权类激活映射(Grad-CAM)等可解释AI技术验证模型特征定位能力,在UnityEyes和MRL数据集上实现93.75%验证准确率,显著超越MobileNetV2、Swin Transformer等6种对比模型4-5个百分点。

  
关键问题:
  1. 1.
    平衡基准数据集(如UnityEyes)如何影响深度学习模型在多类别眼动方向分类中的性能?
  2. 2.
    轻量级超参数优化卷积神经网络(CNN)能否在眼动分类任务中达到或超越MobileNetV2、InceptionNetV3等先进模型性能?
  3. 3.
    定制化CNN模型与现代视觉Transformer架构(特别是MobileViT和Swin Transformers)在眼动方向检测任务中的性能对比如何?
核心贡献:
  1. 1.
    提出超参数优化的CNN模型Gimage用于基于图像的眼动方向分类,并在UnityEyes、Reformed-UE和MRL数据集上与MobileNetV2、InceptionNetV3、MobileViT及Swin Transformer等先进模型进行对比
  2. 2.
    从基准数据集UnityEyes构建平衡数据集Reformed-UE
  3. 3.
    采用10项性能指标对比CNN、Transformer与Gimage模型,结合Grad-CAM技术增强模型可解释性
实验设置
实验环境配置:Python 3.10.13,NVIDIA Tesla P100-PCIE GPU(16GB显存),Intel Xeon 2.00GHz处理器。Gimage模型参数根据图4进行优化,在Reformed-UE数据集上展现出最优性能。
结果与讨论
对比六种深度学习模型(Gimage、MobileNetV2、InceptionNetV3、AttentionCNN、MobileViT、Swin Transformer)及混合PCCR模型在三个数据集上的表现。Gimage在挑战性较高的TopRight类别中显著降低分类错误率,精准度(0.93)、召回率(0.93)和F1分数(0.93)全面领先。
结论
通过Reformed-UE数据集预处理和Gimage卷积神经网络,本研究为眼动确认因子分析提供高效解决方案。模型在保持轻量级架构的同时,在多项指标上超越现有先进模型,为人类情感分析的可信度和效率提升提供技术支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号