基于联合平衡表征学习的稳健多领域数字病理图像分割:乳腺癌肿瘤-间质边界的精准解析

《Exploratory Research in Clinical and Social Pharmacy》:Robust Multi-Domain Digital Pathology Image Segmentation via Joint Balancing Representation Learning

【字体: 时间:2026年03月21日 来源:Exploratory Research in Clinical and Social Pharmacy 1.8

编辑推荐:

  针对乳腺癌数字病理图像中因染色协议、成像设备差异导致的域间特征偏移问题,本研究提出了一种联合训练策略(JTS)及一种名为DRIFT(基于孪生域训练的差分比率集成)的框架,通过PRISM-DD动态数据分布机制平衡域贡献,并利用AMBiCoL自适应边界掩码与双向一致性损失增强泛化能力。实验表明,该方法在两个乳腺癌病理数据集上优于现有技术,为计算病理学中鲁棒、可扩展的多域分割提供了有力支持。

  
乳腺癌是全球女性最常见的恶性肿瘤之一,其准确诊断和早期干预对改善患者预后至关重要。数字病理图像分割在识别肿瘤边界、评估侵袭深度和指导个性化治疗中发挥着关键作用。以U-Net及其变体为代表的深度学习模型在大型标注数据集上表现出色,但在面对临床实际时,其泛化能力遭遇巨大挑战。这主要是因为在不同机构间,由于染色程序、成像设备和组织制备过程的差异,产生的数字病理图像存在显著的“领域偏移”。模型在一个机构数据上训练得很好,到了另一家医院,可能就“水土不服”,性能急剧下降。更棘手的是,现有的多域学习方法大多专注于对齐不同领域间的特征差异,却常常忽视了由数据分布不均引起的“域间特征失衡”。想象一下,如果一个模型在训练时,大量“看到”的是A医院风格鲜明、对比度高的图片,而只有少量B医院色调偏暗、纹理模糊的样本,那么模型自然会更“偏爱”A医院的模式,在B医院的数据上表现不佳,这种不平衡会导致“灾难性遗忘”,即模型完全忘记了如何应对代表不足的领域。特别是在三阴性乳腺癌(TNBC)这类高异质性、高复发率、预后差的亚型中,这种挑战尤为突出。现有公开数据集中TNBC样本有限,难以充分捕捉其复杂特征。为了突破这些瓶颈,一项新的研究在《Exploratory Research in Clinical and Social Pharmacy》上提出了一套创新的解决方案。
本研究主要运用了以下关键技术方法:首先是数据集构建与标注,研究收集并构建了名为UKMTILS的私有TNBC数据集,包含253个经病理专家细致标注的H&E染色图像区域,并与公开的TIGER等数据集结合使用。其次,研究者提出了DRIFT(Differential Ratio Integration with Twin-domain Training)分割框架,其核心是基于nnU-Netv2架构。框架包含两个创新模块:一是PRISM-DD(Pattern Recognition Integration with Scale Mechanism for Domain Distribution),这是一个动态数据分布机制,通过分析多维特征(如类别分布、像素强度统计、纹理对比度)的差异,自适应地生成并优化不同领域(数据集)在训练批次中的分配比例,以平衡各领域对模型的贡献。二是AMBiCoL(Adaptive Masked Boundary Consistency Loss),这是一个集成自适应边界掩码和双向一致性建模的多层次损失函数,通过施加空间、结构和边界一致性约束,增强模型在边界敏感区域的泛化能力。
4. 方法
本研究提出的DRIFT框架整体架构基于增强的nnU-Netv2。针对多源输入,引入了PRISM-DD策略和AMBiCoL方法。PRISM-DD模块处理来自多个领域(如A和B)的输入图像,通过数据驱动的特征分析,计算并生成动态分配比例RA和RB,确保训练过程中数据的平衡性和多样性。这些按比例混合的数据随后通过一个单路径网络处理,产生像素级分割输出和边缘预测输出。AMBiCoL作为损失函数的一部分,通过强加多层次的空间、结构和边界不变性约束来缓解领域偏移,优化跨领域特征建模。
4.2. PRISM-DD
PRISM-DD通过结合类别分布、像素级统计和纹理特征等多维特征分析,自适应地分解特征相关矩阵,以提取代表性特征并推导出优化的领域特定比例。其过程包括对特征进行最小-最大归一化,使用基于Softmax的加权机制优先处理域间差异大的特征,并构建最终的集成自适应相关矩阵。接着,该方法利用参数层次相关性测量策略,直接利用全局特征相关性来估计域间分布对齐,高效计算分配比例。最终,结合总域间差异和噪声调整后的相关系数,通过S形调制映射计算动态调整因子ΔR,并裁剪到合理范围,生成最终的分配比例RA和RB,例如本研究中为A:B = 0.5897:0.4103。
4.3. 自适应掩蔽双向一致性损失
AMBiCoL旨在通过专注于边界学习来增强跨域分割。它利用两个主要机制:自适应边界场掩码和双向一致性约束。该损失函数通过建模长程像素交互来捕获上下文对齐,为每个像素构建全局特征向量。其总损失在多个尺度上聚合了一致性项,包括空间一致性损失(惩罚逆形式特征差异以及全局与局部特征之间的偏差)、结构一致性损失(通过形态学侵蚀提取的边界感知特征之间的对齐)以及边界一致性损失(定义为前向和后向预测对之间的平均MSE,并受边缘掩码限制)。通过这些约束,AMBiCoL确保模型学习领域不变特征,特别是在边界区域。
5. 实验
5.1. 数据集
实验使用了TIGER数据集作为主要锚点,并系统性地将其与四个额外数据集结合:UKMTILS、HI-LBC(整合了CAMELYON16和CAMELYON17)、WSSS4LUAD和PUMA。这些数据集源自不同机构,涵盖包括三阴性乳腺癌、一般乳腺癌、肺腺癌和黑色素瘤在内的多种癌症类型。大多数图像被映射到统一的肿瘤、间质和背景三类结构。在每次实验中,TIGER与另一个数据集结合,并按70%/20%/10%的比例分层划分为训练、验证和测试子集。
5.3. 基线比较
如表1和表2所示,DRIFT在两种形式的跨域评估中持续优于基线模型:一是癌种内但跨数据集的评估(例如,同为乳腺癌,但数据集间在染色、扫描或标注上不同);二是跨癌种的评估(例如,在乳腺癌、肺癌、黑色素瘤数据集间)。在癌种内评估中,DRIFT将平均Dice分数提高了约3%–6%。在跨癌种评估中,它持续提升了肿瘤和间质分割的准确性,在联合训练配置下表现出最稳定的行为。这些结果表明,DRIFT通过结构一致性建模和显式的域间知识提炼,有效适应了异质性组织特征,在多源融合和跨癌种泛化中均实现了可靠性能。
5.4. 与现有先进技术的比较
如表3所示,DRIFT在大多数任务中取得了最高的平均Dice分数,展示了稳定且优越的泛化能力。在TIGER数据集上,DRIFT(平均Dice 0.897)略优于SwAV预训练模型。在HI-LBC上,其性能(0.812)与当前最佳方法HI-NET相当。在WSSS4LUAD上,DRIFT(平均Dice 0.844)较DeepLab v3有显著提升。在PUMA上,DRIFT(平均Dice 0.885)保持了领先性能,超过了nnU-Net基线。
5.5. 消融研究
5.5.1. PRISM-DD验证
PRISM-DD确定了TIGER与UKMTILS之间的最优数据比例约为6:4。与固定的经验比例设置(从7:3到3:7)相比,在AMBiCoL损失下,PRISM-DD比例取得了最佳的Dice分数,在TIGER上达到0.897/0.893(肿瘤/间质),在UKMTILS上达到0.909/0.897,其平均Dice分数分别为0.903和0.895,优于所有固定比例基线。这表明数据驱动的动态比例调整能有效缓解领域偏见,改善跨域特征对齐。
5.5.2. 损失函数消融
在TIGER+UKMTILS联合训练设置下,对AMBiCoL的各个组成部分进行了消融研究。完整AMBiCoL损失(结合了空间、结构、边界和双向不变性损失)在所有测试数据集上实现了最佳的平均Dice分数。移除任何组件都会导致性能下降,特别是移除双向不变性损失或边界一致性损失时,模型在跨数据集测试(如HI-LBC)上性能下降最明显,证明了每个组件对于增强模型鲁棒性和泛化能力的重要性。
5.6. 可视化分析
研究对DRIFT框架的分割结果进行了可视化分析,并与基线模型(nnU-Netv2)进行了比较。结果显示,DRIFT在肿瘤-间质边界区域的分割更加精准、连续,显著减少了假阳性和假阴性预测。特别是在染色差异大、纹理复杂的区域,DRIFT能够更好地捕捉结构信息,产生更符合病理学特征的分割结果。在跨数据集测试中,DRIFT的分割图在结构完整性和边界清晰度方面均优于基线模型,直观地证明了其增强的泛化能力和边界敏感性。
本研究提出并验证了DRIFT,一个用于多领域数字病理图像分割的稳健框架。其核心贡献在于引入了一种动态数据分配机制(PRISM-DD)和一个专注于边界一致性的多层次损失函数(AMBiCoL)。PRISM-DD通过数据驱动的方式,自适应地平衡不同来源数据在训练中的贡献,缓解了领域不均衡问题。AMBiCoL则通过施加空间、结构和边界约束,强制模型学习领域不变的特征表示,特别是在诊断关键的肿瘤-间质边界区域。实验结果表明,DRIFT在多个乳腺癌病理数据集上超越了现有先进方法,并且在跨癌种的泛化测试中也表现出色。此外,研究还贡献了一个新的、经过专家精细标注的三阴性乳腺癌(TNBC)数据集UKMTILS,为复杂分割任务提供了宝贵资源。这项工作的重要意义在于,它为解决计算病理学中一个长期存在的挑战——即模型在多变临床环境下的泛化能力不足——提供了切实可行的方案。通过显式地建模和平衡域间差异,并强化边界一致性,DRIFT推动了深度学习模型从实验室的“理想”数据向真实世界复杂、异质病理图像的可靠应用迈出了关键一步。这不仅有助于提高乳腺癌病理分析的自动化水平和准确性,其框架设计思路也对其他医学影像模态的跨中心、跨设备应用具有重要的借鉴价值。代码的公开(https://github.com/Joycecc123/DRIFT)将进一步促进该领域的研究与合作。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号