编辑推荐:
自动息肉分割模型UAPNet通过不确定性增强上下文注意力机制,结合金字塔视觉Transformer和高效通道注意力,有效解决低对比度场景下的边界模糊问题,在多个医学数据集上显著优于基线方法。
Tareque Bashar Ovi | Nomaiya Bashree | Faiaz Hasanuzzaman Rhythm | Sadia Binte Zahid | Md Abdul Wahed | Hussain Nyeem
电气与计算机工程系,军事科学技术学院(MIST),Mirpur Cantonment,达卡,1216,孟加拉国
摘要
结直肠癌的预防在很大程度上依赖于结肠镜检查中对结直肠息肉的准确定位。然而,现有的基于卷积神经网络(CNN)的分割方法往往难以清晰地勾勒出息肉的边界,尤其是在病变与背景之间的低对比度区域和模糊过渡区域。本文提出了UAPNet,这是一种结合了不确定性增强机制的金字塔视觉变换器网络,用于自动息肉分割。UAPNet采用了金字塔视觉变换器(PVT-v2)编码器来捕获长距离的上下文信息,高效通道注意力(ECA)来抑制通道冗余,以及并行轴向注意力(PAA)解码器来整合多尺度特征。在此基础上,不确定性增强上下文注意力(UACA)模块明确地对前景、背景和不确定区域进行建模,并利用这种不确定性来细化边界表示,而无需额外的边缘注释。在五个公开数据集(CVC-ClinicDB、Kvasir-SEG、CVC-ColonDB、ETIS-Larib和EndoScene)上的广泛实验表明,UAPNet的性能达到了行业领先水平,其Dice系数平均提高了1.22%,交并比(IoU)提高了1.86%,超越了最近的强基线模型。跨数据集评估、在模糊、光照伪影和噪声条件下的鲁棒性测试,以及在其他医学分割任务上的迁移实验进一步证明了该框架的泛化能力。最后,不确定性图和基于熵的边缘热图提供了可解释的线索,支持其在计算机辅助诊断中的应用,并使该方法与基于不确定性的信号处理方法保持一致。
引言
结直肠癌(CRC)是全球第三大常见恶性肿瘤,每年导致超过694,000人死亡[1]。大多数CRC起源于结直肠息肉,尤其是腺瘤,这些息肉最初是良性的黏膜增生。腺瘤检测率提高1%与CRC发病率降低3%相关[2],早期发现并切除息肉可将CRC的发生率降低多达90%[3]。因此,在结肠镜检查中准确定位息肉对于预防CRC至关重要。
结肠镜检查仍然是息肉检测和切除的标准方法,据估计可降低30%的CRC发病率。然而,操作者的差异性、视觉疲劳以及具有挑战性的成像条件可能导致高达47%的漏检率[4]。因此,开发了计算机辅助诊断(CAD)系统来通过自动分割息肉和突出可疑区域来协助内镜医生[5]。
早期的自动息肉分割方法依赖于手工制作的特征,如纹理、颜色和几何描述符[6],随后采用传统的机器学习分类器[7]。这些方法受到手工设计特征的局限性影响,难以适应息肉的广泛形态变化以及病变与周围黏膜之间的低对比度。深度学习方法,特别是卷积神经网络(CNN),通过直接从数据中学习层次化特征,在医学图像分割方面取得了显著性能提升。
经典的编码器-解码器架构,如U-Net及其变体[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16],已被广泛用于息肉分割。然而,它们有限的感受野使得区分息肉和复杂背景以及保持精细的边界细节变得困难。为了解决这些问题,提出了许多扩展方案,包括注意力机制[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、修改后的编码器-解码器模块[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、迁移学习[35]、[36]、[37]、基于变换器的编码器[4]、[38]、[39]、[40]、[41]、[42]、[43],以及视觉基础模型如SAM和MedSAM[44]、[45]、[46]。这些进展改善了全局上下文建模和边界勾勒,但在处理模糊的过渡区域、小息肉或平坦息肉以及图像质量不均匀的情况下仍存在挑战。
研究问题。在许多结肠镜图像中,息肉边界并非清晰的边缘,而是病变与背景颜色和纹理逐渐过渡的区域。一些最先进的方法借鉴了显著对象检测(SOD)技术,引入了显式的边缘引导[47]、[48]或反向注意力机制[49]。基于边缘的方法需要额外的边界注释,并且当边缘定义不明确时可能泛化能力较差。反向注意力方法会消除高置信度区域以聚焦于残余边界,但当息肉-背景界面较宽且本质上模糊时,其性能会下降。现有的分割网络通常将这些不确定像素视为错误分类,而不是明确建模其不确定性,这会导致过渡区域的伪影以及在小息肉或低对比度息肉上的性能不稳定。本文通过将边界细化问题视为一个考虑不确定性的问题,并将其嵌入到基于变换器的编码器-解码器架构中来解决这一差距,该架构可以利用全局上下文。
贡献。本文主要有三个贡献。首先,它介绍了UAPNet(
Uncertainty
Augmented
Pyramid Vision Transformer
Network),该网络结合了PVT-v2编码器[50]、高效通道注意力(ECA)[51]、基于并行轴向注意力(PAA)的解码器,以及不确定性增强上下文注意力(UACA)模块[19],从全局上下文化化的变换器特征而不是局部CNN表示中估计不确定性,从而在模糊的过渡区域实现准确的边界勾勒,而无需辅助边缘监督。其次,在五个公开息肉数据集(CVC-ClinicDB、Kvasir-SEG、CVC-ColonDB、ETIS-Larib和EndoScene)上的实验表明,UAPNet的平均Dice系数提高了1.22%,IoU提高了1.86%,优于现有的强基线模型[19]、[25]、[33]、[39]、[42],并且在跨数据集的鲁棒性、运动模糊、镜面反射和高噪声条件下的性能也得到了提升。第三,通过逐个组件的消融实验、不确定性阈值敏感性分析以及参数(每秒浮点运算次数FLOPs)和每秒帧数FPS的复杂性分析,评估了每个模块的贡献,并将UAPNet与最近的轻量级和基于变换器的息肉分割网络[24]、[25]、[42]、[43]进行了比较;同时,基于蒙特卡洛dropout的不确定性图和基于熵的边缘热图为临床评估提供了可解释的可视化结果。
本文的其余部分组织如下:第2节回顾相关工作,第3节描述UAPNet架构,第4节详细介绍实验设置和数据集,第5节展示结果、鲁棒性分析和可解释性研究,第6节讨论局限性和未来方向。
相关研究
深度学习(DL)方法在医学图像分割,特别是息肉检测方面,已经经历了多种架构范式的演变。在本节中,我们简要回顾了五个主要类别:经典编码器-解码器网络、改进的编码器-解码器架构、基于变换器的方法、基于注意力的设计、迁移学习方法以及视觉基础模型。
提出的分割框架
我们现在深入探讨UAPNet的创新方面,重点介绍其网络设计和用于自动分割结肠镜图像中息肉的框架。
实验设置
本节描述了UAPNet的训练配置、数据集和评估指标。
结果与分析
本节强调了UAPNet的显著性能提升,这得益于基于变换器的骨干网络、高效通道注意力(ECA)和不确定性增强上下文注意力(UACA)的结合。通过定性和定量分析全面检验了该模型的有效性,同时利用可解释AI(XAI)来揭示其决策过程。
结论
本文提出了UAPNet,这是一种结合了金字塔视觉变换器(PVT-v2)编码器、高效通道注意力(ECA)、并行轴向注意力(PAA)和不确定性增强上下文注意力(UACA)机制的混合变换器-CNN架构。通过从全局上下文化化的特征中计算不确定性来指导多尺度解码,UAPNet能够明确针对模糊的边界区域,从而在低对比度和严重分类情况下实现精确的息肉勾勒。
CRediT作者贡献声明
Tareque Bashar Ovi:概念构思、数据整理、研究、方法论、可视化、撰写——初稿。
Nomaiya Bashree:概念构思、数据整理、研究、可视化、撰写——初稿。
Faiaz Hasanuzzaman Rhythm:数据整理、软件开发、方法论、可视化、撰写——初稿。
Sadia Binte Zahid:数据整理、研究、可视化、撰写——初稿。
Md Abdul Wahed:数据整理、方法论、项目管理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。