【横向眼震识别:联合SAM分割与时间序列分类的全新方法】

《European Archives of Oto-Rhino-Laryngology》:Horizontal nystagmus identification with joint SAM segmentation and time series classification

【字体: 时间:2026年02月22日 来源:European Archives of Oto-Rhino-Laryngology 2.2

编辑推荐:

  本文提出一种结合视觉语义分割(SAM)与多尺度一维时间序列卷积分类器的横向眼震(Horizontal Nystagmus)识别模型,旨在解决临床实践中眼震人工识别效率低、依赖专家经验及设备昂贵等问题。该方法通过预处理去除无效帧,利用SAM精准分割瞳孔并提取其运动轨迹,再通过空间注意力与多尺度一维CNN进行分类。实验结果显示,在瞳孔定位任务中,该方法在LPW数据集上达到79.53%的累积准确率;在眼震检测任务中,其精确度(Precision)达81%,显著优于基线方法,为前庭疾病的早期筛查与临床辅助诊断提供了一种高效、自动化的新方案,具有重要的临床转化潜力。

  
眼震:身体平衡的“警报器”为何难以捕捉?
当我们感到天旋地转、身体失衡时,医生常常会观察我们的眼睛。这并非故弄玄虚,而是因为眼球的一种特殊运动——眼震(Nystagmus),是揭示前庭系统(Vestibular System)功能状态的“窗口”。前庭系统是我们内耳中负责感知头部位置和运动变化、维持身体平衡的核心器官。一旦其功能出现不对称或损伤,就会引发一种不自主、快速、有节奏的眼球震颤,即眼震。因此,观察眼震成为了诊断眩晕、梅尼埃病、良性阵发性位置性眩晕(BPPV)等多种前庭疾病的关键手段。
然而,传统的临床眼震评估方法面临着巨大挑战。医生依靠肉眼观察,不仅难以捕捉到微弱的眼震,诊断结果还高度依赖医生的经验和主观判断,存在偏差风险。更精确的设备,如眼震电图(ENG)和视频眼震图(VNG),虽然能够记录眼球运动信号,但它们通常价格昂贵、操作复杂,需要在暗室中使用校准的激光靶点,且后期分析耗时耗力,难以在基层医疗机构或床边诊疗中普及。即便使用便携式红外视频护目镜(Portable Infrared Video Goggle)获取了原始眼动视频,缺乏校准的数据也让非专科医生难以解读。如何快速、准确、客观地从这些复杂视频中识别出异常眼震,成为了提升诊疗效率和可及性的核心难题。
针对这一痛点,一项发表在《European Archives of Oto-Rhino-Laryngology》的研究提出了一种创新的解决方案。研究人员不再直接分析视频图像,而是另辟蹊径,将目光聚焦于“瞳孔的运动轨迹”。他们开发了一种结合先进视觉分割模型与时间序列分析的深度学习框架,旨在实现对水平眼震(Horizontal Nystagmus)的高精度自动化识别。这项研究的意义在于,它有望将专业的眼震评估从昂贵的设备和专家手中解放出来,通过算法辅助,使更广泛场景下的快速、客观筛查成为可能。
为了构建这一系统,研究人员主要采用了三项关键技术。首先,利用卷积神经网络对视频进行预处理,自动剔除因眨眼或睫毛遮挡而产生的无效干扰帧。其次,创新性地应用了“分割一切模型”(Segment Anything Model, SAM),通过一种基于图像灰度统计的自动提示点生成算法,在无需额外训练的情况下,精准分割出每一帧图像中的瞳孔区域,并计算其质心,从而得到纯净的瞳孔水平运动轨迹序列。最后,设计了一个融合了空间注意力机制与多尺度一维卷积神经网络(1-D CNN)的分类器,用以分析轨迹序列中的异常模式,最终判断是否存在水平眼震。研究所用的数据来源于一家三级转诊中心,包含了112名患有梅尼埃病、水平半规管BPPV、前庭神经炎等疾病的患者的141段眼动视频,所有视频均由医师进行了详尽的标注。
研究结果:精度与效能的证明
  • 瞳孔定位性能评估:研究团队在公开的“野外标记瞳孔”(LPW)数据集上评估了其基于SAM的瞳孔定位方法。结果显示,在10像素误差范围内,该方法达到了79.53%的累积检测准确率,优于ExCuSe和DeepEye等传统方法。图6可视化结果也显示,该方法在不同瞳孔位置(居中、偏右、偏上)的图像上均能实现精准定位。
  • 眼震识别性能评估:在自建的临床眼震视频数据集上,该方法与直接处理原始视频的3D-CNN基线模型进行了对比。如表1所示,该方法在精确度(Precision)、准确率(Accuracy)和F1分数上均表现更优,其精确度达到了81%,显著超越了基线方法。
  • 消融实验验证模块有效性:通过系统的消融实验(见表2),研究证实了其各个核心模块的贡献。使用其提出的多尺度一维CNN比使用基于ResNet的时序网络在F1分数上提升了5%;加入空间注意力机制带来了6%的F1分数提升;采用多尺度卷积相比单尺度卷积也带来了4%的F1分数提升。
  • 超参数分析:研究还探讨了在SAM提示点生成过程中,候选点数量(m)对定位性能的影响。实验表明,当m=10时,模型取得了最佳的瞳孔定位效果。
结论与展望:迈向智能化床边诊断
本研究成功构建了一个高效的横向眼震识别框架,通过联合SAM分割与时间序列分类,实现了对未经校准的原始眼动视频中水平眼震的自动化检测。其核心创新在于利用SAM无需训练即可精准分割瞳孔的能力,有效规避了视频背景噪声等干扰,并通过对瞳孔运动轨迹这一“纯净信号”的分析,大幅提升了识别的准确性和鲁棒性。
在讨论部分,作者强调了该研究的临床意义。它为解决前庭疾病诊断中设备依赖性强、专家资源稀缺的困境提供了一种新颖且临床适用的方案。该方法流程简洁,能够自动过滤无效帧、精确提取运动轨迹并完成病理模式识别,降低了对专业知识和昂贵设备的依赖,使得在床边进行标准化眼震评估成为可能。
当然,研究也存在一定的局限性。目前的方法仅能检测是否存在水平眼震。然而,临床上许多眼震是混合性的,例如水平-扭转性眼震。未来的工作将致力于从原始眼动数据中同时识别多种运动轨迹成分,以期为临床实践提供更全面、精准的诊断支持。总体而言,这项研究为开发集成于便携或移动平台的实时远程前庭评估工具奠定了坚实的技术基础,有望推动前庭疾病的早期筛查、持续监测和及时干预进入智能化新时代。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号