《Pattern Recognition》:Lifelong Content-based Histopathology Image Retrieval via Bilevel Coreset Selection and Distance Consistency Rehearsal
编辑推荐:
内容式病理学图像检索通过持续学习框架平衡稳定性和可塑性,采用双级优化采样和距离一致性回放机制解决灾难性遗忘问题,在TCGA数据集上mAP提升显著。
Xinyu Zhu | Zhiguo Jiang | Kun Wu | Jun Shi | Yushan Zheng
北京航空航天大学工程医学院生物医学工程高级创新中心,中国北京100191
摘要
基于内容的组织病理学图像检索(CBHIR)在静态数据库上表现出色,能够检索出与查询图像内容相似的全幅切片图像(WSIs)。然而,在临床环境中,WSI数据库的快速增长对现有的CBHIR方法提出了挑战:这些方法要么需要昂贵的重新训练,要么在新数据上的性能会下降。例如,简单的微调会导致mAP@5下降37.5%。为了解决这个问题,我们提出了一个终身基于内容的组织病理学图像检索(LCBHIR)框架,该框架可以减轻在持续检索过程中模型丢失先前知识的现象。核心挑战在于平衡稳定性和可塑性。为了提高可塑性,我们设计了一个具有双层共重采样功能的本地记忆库,并将实例选择问题构建为一个两级优化问题。这种方法为信息丰富或难以学习的样本分配更高的权重,从而在特征空间中细化决策边界。为了保持稳定性,我们引入了距离一致性复述(DCR)模块,该模块可以维护旧样本之间的相对特征距离,确保检索任务的一致性并提高临床应用的可靠性。我们在来自TCGA项目的大规模连续WSI数据集上验证了我们的方法,该数据集包含大约7,400张WSIs,涵盖了6个主要部位和19种癌症亚型。实验结果表明,所提出的方法有效且优于现有连续学习方法,mAP提高了5.7%至19.4%。代码可在以下链接获取:
https://github.com/OliverZXY/LCBHIR
引言
过去几十年,高分辨率全幅切片图像(WSIs)的数字存储技术发展迅速。随着临床机构能够扫描和存储更多的WSIs,它们希望利用这些图像的数字形态学内容[1]。因此,高性能的基于内容的组织病理学图像检索系统应运而生[2]、[3]、[4]、[5],使得可以从数据库中检索出与查询图像内容相似的WSIs。
医疗诊断数据的量不断增加,这对开发有效的CBHIR系统构成了重大挑战。现在的挑战在于如何适应不断扩展的数据集,因为传统上在静态数据库上训练的CBHIR方法无法直接应用于解决这一问题。一个关键问题是系统在更新时能否在不丢失先前知识的情况下进行适应。尽管微调是处理连续数据流的常用方法,但它常常会导致灾难性遗忘——即随着新数据的引入,先前获得的知识会退化[6]、[7]、[8]、[9]。
连续学习(CL)作为一种解决方案被引入,用于在学习非静态数据流时减轻灾难性遗忘[10]、[11]。现有的CL方法大致可以分为三类:重放方法、基于正则化的方法和参数隔离方法[11]。其中,重放方法通过将数据流的子集存储为经验重放的示例而显示出相当大的潜力。在自然场景中,已经开发了多种重放方法来应对分类[12]、[13]和语义分割[14]、[15]等下游任务中的灾难性遗忘问题。然而,为医学检索场景设计的重放方法面临更高的挑战:1)医学检索系统不仅需要高精度,还需要在连续学习后保持检索结果的一致性。这在医学图像检索系统中尤为重要,因为临床医生可能依赖一致且准确的结果进行诊断。检索结果随时间的变化可能会影响系统的可靠性,从而导致诊断错误。2)记忆库的设计需要在各个类别之间取得平衡。它不仅需要保留每个类别的代表性样本,还需要确保每个类别内部的多样性,从而识别出对连续学习至关重要的挑战性样本。
在本文中,我们提出了一种名为终身基于内容的组织病理学图像检索(LCBHIR)的新颖连续全幅切片检索框架。连续学习中的一个主要难题是如何在学习可塑性和记忆稳定性之间取得平衡,因为前者的过度发展会干扰后者,反之亦然[16]。我们将终身CBHIR系统中之前任务检索队列的一致性定义为稳定性,即保持与先前学习模型相比的稳定top-k检索行为。引入了距离一致性复述(DCR)模块来支持这一目标,并在连续学习过程中提高检索性能。此外,还采用了一种基于双层优化的采样方法[17]来保持记忆库的特征空间多样性,确保模型同时关注当前任务和之前的任务,从而支持学习可塑性。通过整合这两种策略,LCBHIR在稳定性和可塑性之间取得了良好的平衡,从而实现了更优越的检索性能。该框架在一个大型公共TCGA连续数据集上进行了评估,该数据集涵盖了六个主要部位:大脑、泌尿系统、胃肠道、肺部、妇科和乳腺,共包含7,347张WSIs。实验结果表明,LCBHIR在连续WSI检索中非常有效,其性能优于典型的以分类为导向的连续学习方法。
本文的贡献可以归纳为三个方面:
(1) 我们提出了一种新颖的终身基于内容的组织病理学图像检索(LCBHIR)框架,通过适当平衡学习可塑性和记忆稳定性来解决组织病理学图像检索中的连续学习问题。据我们所知,这是首个针对组织病理学图像检索领域连续学习问题的方法。
(2) 设计了一种新颖的距离一致性复述(DCR)模块,用于提高终身CBHIR系统的稳定性。DCR通过限制特征空间中的相对距离矩阵,强制在每个任务结束时模型之间的排名变化较小,从而保持之前任务top-k检索结果的高精度。可视化结果表明,DCR既保持了高检索相关性,又保持了跨任务的一致检索行为。
(3) 采用了一种基于双层优化的采样方法,根据每个实例在连续学习过程中的重要性权重来进行采样。通过将采样过程构建为一个优化问题,该模块有效地为实例分配了权重,从而识别出具有挑战性的样本。这种方法增强了终身CBHIR系统的可塑性。
小节片段
基于内容的组织病理学图像检索
随着现代计算技术的进步,基于内容的组织病理学图像检索(CBHIR)得到了发展,它能够从数据库中检索出与查询图像在内容上相似的形态学结果[18]、[19]、[20]。多项关于组织病理学图像检索的研究集中在分析WSIs内的补丁上。Ma等人[21]利用基于直方图的特征来描述补丁的纹理特征以实现有效检索。Shi等人[22]开发了
问题定义
CBHIR的连续学习可以定义为在WSI数据库中添加新数据时对模型进行训练。如图2(I)所示,我们将数据库定义为数据集序列,其中是任务t的数据集,T是任务的总数。包含Nt张标记的WSIs,yi是WSIxi的类别标签。如图1和2所示,在类别增量学习之后,模型需要返回给定任务的相对WSIs序列
概述
所提出的连续WSI检索框架如图2所示。对于每个任务(初始任务除外),从当前数据集和记忆库中采样特征立方体的小批量,然后输入WSI编码器以获得表示,如图2(a-c)所示。随后,我们计算与检索相关的损失并执行距离一致性复述以促进连续学习,如图2(d-e, III)所示。在当前任务结束时,采用双层优化
实验设置
所提出的方法在来自国家癌症研究所(NCI)的癌症基因组图谱(TCGA)的大规模连续WSI检索数据集上进行了评估,该数据集包含6个主要部位(器官)的数据集和19种癌症亚型,共计7,347张WSIs,所有数据集均公开可用。在每个数据集中,WSIs被随机分为训练集、验证集和测试集,比例为7:1:2。验证集用于提前停止训练
讨论
在这项工作中,我们提出了LCBHIR,这是一种用于WSI检索的连续学习方法。连续学习中的一个核心挑战是在稳定性和可塑性之间取得平衡,这对模型的可解释性也至关重要。在这项工作中,我们主要从全局层面定义了可解释性,关注系统在连续学习过程中的行为是否可以理解和信任。这一点通过图5、图6和图7中的实验结果直接说明。
结论
在这项工作中,我们提出了一个终身基于内容的组织病理学图像检索(LCBHIR)框架,以解决不断扩展的全幅切片图像(WSI)数据库中的灾难性遗忘问题。我们的方法在稳定性和可塑性之间取得了平衡,这对于临床应用中的连续学习系统至关重要。引入了一种双层共重采样策略和本地记忆库来保持可塑性,这已被证明在数据挖掘中有效
CRediT作者贡献声明
Xinyu Zhu:撰写——原始草稿、可视化、验证、软件、方法论、研究。Zhiguo Jiang:撰写——审稿与编辑、监督、资金获取、形式分析。Kun Wu:撰写——审稿与编辑、数据管理。Jun Shi:撰写——审稿与编辑、监督、资金获取。Yushan Zheng:撰写——审稿与编辑、监督、项目管理、资金获取、概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
这项工作部分得到了中国国家自然科学基金(资助编号62571015和62171007)的支持,部分得到了北京自然科学基金(资助编号7242270)的支持,还部分得到了安徽省自然科学基金(资助编号2408085MF162)的支持。