编辑推荐:
本文提出了一种基于分解的课程自训练(DCST)框架,以解决计算病理学中无源通用领域自适应(SF-UniDA)的挑战。该框架通过特征分解自适应区分“易学”和“难学”样本,并采用两阶段课程学习策略,结合原型感知正则化与对齐,在无需源域数据的情况下,有效缓解了病理图像中的语义模糊问题,提升了伪标签质量和模型泛化能力,在结直肠癌表型数据集上验证了其优越性。
亮点
- •
我们设计了一个基于源训练骨干网络的两阶段自训练框架,并辅以原型感知正则化与对齐,旨在缓解相邻组织切片间的语义模糊,同时防止开放集样本的语义塌缩。提出了一种双共识度量标准,以确保在不同标签偏移下估计目标类别数量的合理性。据我们所知,我们的DCST是首个探索SF-UniDA在病理分型中可行性的工作。
- •
提出了一种基于特征分解的自适应划分策略,用以解耦“易学”和“难学”子集。该方法在特征空间内,以几何感知投影的方式自动推导划分阈值,规避了在预测概率空间中因形态学连续性带来的类内边界模糊问题。
- •
大量实验和深入的消融研究表明,我们的DCST在两个针对结直肠癌表型分型的挑战性组织病理学数据集上,超越了当前最先进的开放集检测和SF-UniDA方法。
问题定义
在SF-UniDA任务中,我们的目标是通过升级利用源模型,在协变量偏移和标签偏移并存的情况下实现高效的知识迁移。具体而言,给定一个有标签的源域 Ds= {(xis, yis)}Nsi=1,其中 xis∈ Xs? RX, yis∈ Ys? RC,以及一个无标签的目标域 Dt= {(xit, ?)}Nti=1,其中 xit∈ Xt? RX。进一步,定义这两个域共享的公共标签空间为 Y = Ys∩ Yt,而 ={Y}s= Ys\ Y 和 ={Y}t= Yt\ Y 分别象征源域和目标域的私有标签空间。如前所述,我们……
数据集和UniDA设置
为评估所提框架的临床实用性,我们依赖于结直肠癌(CRC)表型分型任务,该任务通过H&E(苏木精-伊红)染色的全切片图像(WSI)中提取的组织切片来量化组织构成。受益于肿瘤组织的异质性语义和染色程序引起的视觉变异性,这为UniDA设置提供了合适的验证场。在此背景下,我们考虑使用扫描仪数字化的两个公开可用的CRC组织数据集……
讨论
课程学习的有效性:在我们的顺序课程框架内,学习可塑性(plasticity)与记忆稳定性(stability)之间的权衡是不可避免的。为缓解此困境,我们对“易学”样本采用了原型正则化和指数移动平均(EMA)更新,周期性地回顾旧知识。为了直观地解读此设计的有效性,我们在图8(d)中绘制了不同方法的性能演变曲线。根据OSCR趋势比较,可以得出若干结论。
结论
非封闭的无源场景长期困扰着计算病理学模型的跨机构部署。特别是在组织病理学数据中,不同表型间的外观分布差异和细微的语义变化给知识迁移带来了重大挑战。在本工作中,聚焦于伪标签(PLs)分配和噪声缓解,我们设计了一种新颖的基于分解的课程自训练框架,首次从数据审视和学习范式视角……
作者贡献声明
刘文涛:写作(审阅与编辑)、写作(初稿)、软件、调查、数据整理、概念化。倪志伟:监督、概念化。朱旭辉:写作(初稿)、方法论、资金获取。陈倩:软件、调查。倪丽萍:监督。夏平帆:验证、资金获取。
利益冲突声明
作者声明,不存在任何可能影响本报告工作的已知竞争性经济利益或个人关系。
致谢
本工作部分得到中国国家自然科学基金(项目号72401084)的资助,部分得到中国中央高校基本科研业务费(项目号PA2023IISL0093, PA2024GDGP0031, PA2024GDSK0105, PA2023IISL0092)的资助,部分得到安徽省社会科学创新发展项目(项目号2024CXQ014)的资助,部分得到安徽省自然科学基金(项目号2508085QG270)的资助,部分得到科学研究项目……