深度学习的发展从根本上改变了皮肤病变分割领域,主要通过开发和改进新的网络架构推动了这一进步。U-Net [1]架构及其各种增强版本 [2], [3], [4], [5] 在皮肤病变分割研究中变得无处不在。此外,基于注意力机制和Transformer的模型 [6], [7], [8], [9] 也取得了显著突破,它们的关键优势在于能够捕捉长距离依赖关系,这使得它们在处理医学图像时特别有效。这些模型作为独立系统,完全通过监督学习进行训练。然而,当高质量标注数据稀缺时,这种方法变得不切实际,模型容易对有限的样本过度拟合,且无法泛化。这些限制促使人们开发出能够从有限标注数据和大量未标注数据中学习的高效标注技术。
少样本学习(Few-shot learning)通过从少量标注样本中学习泛化,为医学图像分割提供了一种有效的解决方案。通过元学习技术,这些模型可以从有限的辅助样本中提取可转移的知识,从而在推理过程中实现病变的准确分割。最著名的方法是原型学习 [10], [11], [12], [13],其中通过从辅助样本中提取特征来生成类别原型或先验掩码以分割查询图像。然而,这种方法存在局限性,因为由于不同数据集之间的分布差异,有时无法获得精细的原型。这一挑战推动了少样本领域泛化 [14], [15], [16], [17] 的重要研究进展,以增强模型对这类变化的鲁棒性。尽管有这些优势,少样本学习的有效性仍限于那些本质上无法利用未标注数据的特定任务。
半监督学习(SSL)作为一种可行的解决方案,利用丰富的未标注图像数据和有限的标注样本来弥补标注不足。这种方法在皮肤病变分割中非常有效,因为它提供了一种专门的训练范式,使模型能够从未标注数据中学习通用表示。一致性正则化确保模型预测在输入数据的各种扰动下保持稳定,例如变换、噪声添加等多种增强技术。基于这种方法的研究包括Li等人 [18]、Xie等人 [19]、Zhang等人 [20] 的工作。协同训练是一种半监督学习范式,它利用多个多样化的模型通过未标注数据相互监督。每个模型在未标注样本上生成伪标签,这些伪标签作为其他模型的训练目标,从而迭代提升它们的性能。使用这种策略的著名医学分割方法包括Deep Co-training [21]、UMCT-DA [22]、Cross-teaching [23] 和DME [25]。
状态空间模型(SSM)[26], [27] 的最新突破,特别是面向视觉的VMamba [28] 变体,在捕捉长距离依赖关系方面表现出色,同时保持了计算效率。这种范式转变现在正被积极应用于图像分割 [29], [30]、少样本学习 [31], [32] 和半监督学习框架 [33], [34] 中,以解决它们在建模全局上下文方面的固有局限。尽管VMamba [28] 及其变体在皮肤病变分割 [35], [36], [37] 中显示出有希望的结果,但这些方法通常需要大量的标注数据(完全监督方法)。另一方面,针对少样本或半监督学习的VMamba应用仍然有限。SSM在长序列建模和时间序列处理方面的固有优势使它们特别适合皮肤病变图像分析。利用这些特性,我们构建了一个基于多输入视觉状态空间模型(MIVSS)的少样本语义分割模型,并将其集成到基于U-Net的特征提取器中。这种设计旨在突出其利用融合的辅助-查询特征和辅助掩码嵌入来有效细化查询特征的能力。结合弱到强的不一致性正则化半监督方案,可以创建一个紧凑而有效的系统,既可以利用未标注图像进行训练,也可以利用少量标注图像进行推理。本研究的主要贡献如下:
- 提出了一种创新框架,将一次性学习与弱到强的不一致性正则化半监督框架结合在一起,用于皮肤病变分割,称为1S-MambaMatch。
- 引入了新的MIVSS瓶颈,利用从辅助图像和支持真实标注中提取的特征来增强查询图像的高级特征。
- 通过自适应自监督损失函数增强了半监督策略。
- 通过在著名的皮肤病学数据集ISIC 2018和PH2上的全面基准测试,证明了其卓越的性能。这是在非常高的效率下实现的,仅需要3.7M个参数和每张图像26.88毫秒的推理时间。
本研究的其余部分组织如下:第2节回顾了一致性正则化半监督图像分割和视觉SSM的相关工作。第3节详细介绍了我们提出的1S-MambaMatch的方法论,包括其架构和关键组件。第4节展示了实验结果和消融研究。最后,第5节总结了我们的贡献并提出了未来的研究方向。