编辑推荐:
提出HolistAno无监督视网膜异常检测框架,通过两阶段学习整合正常解剖结构建模、合成异常生成和平衡多尺度特征融合模块,有效检测不同形态和尺度的微小病变,在五个基准数据集上达到最优性能。
Jingqi Niu|Kang Dang|Nan Xi|Junsong Yuan|Yanjing Liu|Mian Zhou|Jionglong Su|Xiaowei Ding
上海交通大学电子工程系,中国上海
摘要
早期检测视网膜病变对于防止视力丧失至关重要。尽管监督学习显示出 promise,但现有方法通常依赖于大量的标记数据,这在医学应用中成本高昂且难以获取。无监督异常检测提供了一个有吸引力的替代方案,因为它只需要健康的视网膜图像,而不需要异常注释。然而,当前方法在模拟正常视网膜解剖结构的复杂性、学习用于检测细微病变的区分性特征以及捕捉多尺度特征以处理不同大小的异常方面面临重大挑战——这突显了需要一种能够全面表示视网膜解剖结构和病理学的整体特征建模方法。为了解决这些挑战,我们提出了 HolistAno,这是一种具有整体视网膜建模的新无监督异常检测框架。HolistAno 采用了两阶段网络架构,结合了一个新颖的异常生成器和平衡 Mamba 尺度融合(BMSF)模块,以有效学习全面的视网膜特征表示。这使得它能够准确检测细微病变、多种类型的病变以及不同尺度上的异常。在五个基准数据集上的广泛实验表明,与现有方法相比,HolistAno 在异常分类和定位任务中均取得了最先进的性能,并且在多个数据集和跨数据集场景中具有更优越的泛化能力和鲁棒性。
引言
视网膜病变,如棉絮斑、硬性渗出物和玻璃体疣,可能表明存在严重的眼部疾病,包括糖尿病视网膜病变和年龄相关性黄斑变性,这些都是导致失明的主要原因(Gibson, 2012)。早期检测视网膜病变对于防止不可逆的视力丧失至关重要,尤其是在脆弱人群中(Organization, 2010)。然而,传统的检测方法依赖于专家筛查,成本高昂且资源密集,这突显了需要可访问且成本效益高的计算机辅助检测(CAD)系统的需求。
深度学习已成为视网膜底片图像分析的强大工具,在各种架构中都取得了显著的性能(Ashtari-Majlan, Dehshibi, & Masip, 2024; Hariobulesu & Shaik, 2025; Xu, Zhao, Li, & Li, 2024)。然而,主导的监督学习方法需要大量的标注数据集,包括正常和病变图像(Li et al., 2025; Muchuchuti & Viriri, 2023)。这种广泛的数据准备既昂贵又耗时,特别是对于罕见疾病而言。此外,健康样本和病变样本之间的不平衡会导致模型偏向于过度拟合健康案例,而在关键病变案例上的表现不佳。鉴于这些挑战,仅依赖正常样本的无监督异常检测方法提供了一个有吸引力的替代方案,因为它消除了对昂贵注释的需求,并解决了数据不平衡问题。
尽管无监督异常检测具有潜力,但将其应用于眼底图像与自然图像中的通用对象检测相比存在独特的挑战。如图 1 所示,这些挑战体现在三个关键方面:
•正常眼底图像具有复杂的解剖结构(见图 1 中的组件 A)。准确建模这些正常结构对于检测如病变之类的偏差至关重要。
•由于组织对病理的反应,视网膜病变的形态特征往往不明显(Gariano & Gardner, 2005; Marc, Jones, Watt, & Strettoi, 2003),这使得它们难以与相邻的正常组织区分开来(见图 1 中的组件 B)。提高模型检测这些细微变化的能力对于准确检测病变至关重要。
•病理变化在空间范围上各不相同——从小而离散的焦点到大而连续的区域(见图 1 中的组件 C)。这种尺度变化性需要一种多尺度建模方法来处理正常和异常特征。
为了解决这些挑战,无监督视网膜异常检测需要一种整体方法,能够在多个尺度上同时建模正常和异常特征。然而,如第 2 节所讨论的,现有方法在这方面往往不足,导致检测性能不佳和泛化能力有限。
在本文中,我们提出了 HolistAno,这是一种采用整体特征建模的新方法,通过设计有三个专门策略的架构来解决无监督视网膜异常检测中的关键挑战:
首先,我们使用正常眼底图像进行重建代理任务来训练模型,以捕捉健康视网膜组织的复杂结构模式,为建模正常特征奠定坚实的基础。
其次,我们训练模型区分正常视网膜结构和合成病变,使其能够检测到细微的异常。为此,我们引入了一个新颖的异常生成器,该生成器在两个关键方面取得了成功:生成具有高形态多样性和强上下文真实性的异常。这种双重关注的设计克服了先前方法的一个关键限制,即这些方法通常难以生成既具有形态多样性又具有解剖真实性的异常。我们的生成器通过从真实眼底纹理中生成广泛的异常来实现这一点,其中多样性通过多方面的随机化过程注入,涵盖了它们的复杂形态、纹理和颜色外观,以及它们的数量和空间分布。通过利用领域内采样来实现上下文真实性,并通过无缝融合技术来实现解剖一致性,这种方法促进了可泛化异常特征的学习。
最后,为了捕捉检测不同大小病变所需的多尺度特征,我们提出了平衡 Mamba 尺度融合(BMSF)模块。该模块将每个尺度自适应地分割成相等数量的标记,确保跨尺度的平衡,并将结果的多尺度序列连接起来。为了处理这个扩展的序列,我们使用了 Visual Mamba(Zhu et al., 2024)模块,该模块擅长处理长视觉序列并整合跨尺度的长期依赖性。
总之,我们的架构将这些策略组织成一个基于三项核心技术创新的整体和协同系统。首先,我们的新颖的两阶段框架通过学习正常结构的稳健模型来应对复杂正常解剖结构的挑战,然后冻结其编码器作为稳定的基础,这大大降低了对合成数据过拟合的风险。其次,我们的新颖异常生成器旨在通过系统地实现高形态多样性和上下文真实性来检测细微病变,解决了限制先前工作的关键权衡。最后,我们的平衡 Mamba 尺度融合(BMSF)模块通过采用新颖的自适应标记化来显式处理视网膜病理的多尺度特性,实现了跨尺度的平衡特征表示。正是这种协同设计——每个眼底成像的基本挑战都通过有针对性的架构解决方案得到解决——实现了我们的整体方法,使框架能够成功执行无监督视网膜异常检测的复杂任务。
我们的架构分为两个阶段。在第一阶段,HolistAno 通过重建代理任务学习建模正常视网膜结构。在第二阶段,模型通过定位代理任务将合成异常特征与正常表示融合,从而增强异常检测能力。这种设计能够在保持对真实视网膜模式的忠实度的同时,全面学习正常与异常的区别。BMSF 模块作为即插即用的组件集成在第二阶段,捕获多尺度特征以改进对多种视网膜异常的检测。
通过广泛的评估,我们的方法在多个像素级和案例级异常检测基准测试中取得了最先进的(SOTA)性能。此外,为了评估模型的鲁棒性和泛化能力,我们进行了跨数据集实验,即使在测试数据分布与训练数据不同的数据集上,也表现出优越的性能。
我们的贡献总结如下:
一种用于视网膜异常检测的整体框架:我们引入了 HolistAno,这是一种新颖的无监督框架,其架构专门设计用于协同解决视网膜成像中的关键挑战,包括准确建模复杂的正常结构、识别细微和多样的异常以及捕捉多尺度病变特征。
•一种同时具备多样性和真实性的新颖生成器:我们提出了一种新颖的异常生成器,它可以生成具有高形态多样性和强上下文真实性的异常。这种设计使模型能够学习更通用和更具区分性的特征,从而增强其识别多样和细微病理的能力,而不会过度拟合合成伪影。
•高效的多尺度特征融合:我们引入了平衡 Mamba 尺度融合(BMSF)模块,该模块允许模型有效捕获不同尺度上的特征,从而改进了对大小和形状不同的病变的检测。
•最先进的性能:HolistAno 在五个基准视网膜数据集上取得了最先进的成果,与现有方法相比,在像素级和案例级异常检测性能上都有所提高。
•在不同数据分布上的鲁棒性:我们的方法表现出优越的泛化能力和鲁棒性,在具有不同分布的数据集上保持高性能,这对于实际医学应用至关重要。
方法片段
无监督异常检测
医学图像分析中的一个主要挑战是依赖于大型、完全标注的数据集。为了缓解这一点,已经探索了数据高效的方法,如少量样本学习(Sun et al., 2022)和半监督学习(Li et al., 2022b),尽管它们仍然依赖于一些真实注释。无监督异常检测在各种领域中都非常重要,例如制造缺陷检测(Gong et al., 2019; Li, Sohn, Yoon, & Pfister, 2021c)、视频监控(Doshi & Yilmaz, 2023)等。
方法论
鉴于视网膜病变的独特特性,仅依赖局部正常特征或合成异常模式将限制模型的能力。为了解决这个问题,我们提出了一种新颖的两阶段无监督异常检测框架,以确保整体特征表示(见图 2 中的整个流程)。
在第一阶段,我们使用带有重建代理任务的自动编码器来建模正常视网膜特征,使网络能够捕获典型的
数据集
为了评估异常定位,我们使用了三个包含详细分割掩码的像素级数据集,以便进行精确的异常定位:
1.印度糖尿病视网膜病变图像数据集(IDRiD)(Porwal et al., 2020)。IDRiD 包含显示糖尿病视网膜病变(DR)的眼底图像以及相应的精确掩码。该数据集包括 134 张用于训练的正常视网膜图像,而测试集包括 32 张正常视网膜图像和 81 张带有 DR 标注的异常视网膜图像
讨论与结论
早期检测视网膜疾病对于防止视力丧失至关重要。虽然深度学习方法为视网膜筛查提供了有前景的解决方案,但它们通常需要大量的注释,这使得实施成本高昂。无监督异常检测作为一种替代方案,消除了对异常注释的需求。然而,视网膜无监督异常检测面临三个关键挑战:建模正常视网膜组织的复杂模式、捕捉细微病变
CRediT 作者贡献声明
Jingqi Niu:概念化、方法论、软件、验证、形式分析、调查、数据管理、撰写——原始草稿、可视化。Kang Dang:概念化、方法论、软件、验证、形式分析、调查、数据管理、撰写——原始草稿、可视化。Nan Xi:撰写——审阅与编辑、监督。Junsong Yuan:撰写——审阅与编辑、监督。Yanjing Liu:资源管理、数据管理。Mian Zhou:撰写——审阅与编辑
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。