基于联合平衡表征学习的稳健多领域数字病理图像分割：乳腺癌肿瘤-间质边界的精准解析

《Exploratory Research in Clinical and Social Pharmacy》：Robust Multi-Domain Digital Pathology Image Segmentation via Joint Balancing Representation Learning

【字体：大中小】 时间：2026年03月21日 来源：Exploratory Research in Clinical and Social Pharmacy 1.8

编辑推荐：

　　针对乳腺癌数字病理图像中因染色协议、成像设备差异导致的域间特征偏移问题，本研究提出了一种联合训练策略（JTS）及一种名为DRIFT（基于孪生域训练的差分比率集成）的框架，通过PRISM-DD动态数据分布机制平衡域贡献，并利用AMBiCoL自适应边界掩码与双向一致性损失增强泛化能力。实验表明，该方法在两个乳腺癌病理数据集上优于现有技术，为计算病理学中鲁棒、可扩展的多域分割提供了有力支持。

乳腺癌是全球女性最常见的恶性肿瘤之一，其准确诊断和早期干预对改善患者预后至关重要。数字病理图像分割在识别肿瘤边界、评估侵袭深度和指导个性化治疗中发挥着关键作用。以U-Net及其变体为代表的深度学习模型在大型标注数据集上表现出色，但在面对临床实际时，其泛化能力遭遇巨大挑战。这主要是因为在不同机构间，由于染色程序、成像设备和组织制备过程的差异，产生的数字病理图像存在显著的“领域偏移”。模型在一个机构数据上训练得很好，到了另一家医院，可能就“水土不服”，性能急剧下降。更棘手的是，现有的多域学习方法大多专注于对齐不同领域间的特征差异，却常常忽视了由数据分布不均引起的“域间特征失衡”。想象一下，如果一个模型在训练时，大量“看到”的是A医院风格鲜明、对比度高的图片，而只有少量B医院色调偏暗、纹理模糊的样本，那么模型自然会更“偏爱”A医院的模式，在B医院的数据上表现不佳，这种不平衡会导致“灾难性遗忘”，即模型完全忘记了如何应对代表不足的领域。特别是在三阴性乳腺癌（TNBC）这类高异质性、高复发率、预后差的亚型中，这种挑战尤为突出。现有公开数据集中TNBC样本有限，难以充分捕捉其复杂特征。为了突破这些瓶颈，一项新的研究在《Exploratory Research in Clinical and Social Pharmacy》上提出了一套创新的解决方案。

本研究主要运用了以下关键技术方法：首先是数据集构建与标注，研究收集并构建了名为UKMTILS的私有TNBC数据集，包含253个经病理专家细致标注的H&E染色图像区域，并与公开的TIGER等数据集结合使用。其次，研究者提出了DRIFT（Differential Ratio Integration with Twin-domain Training）分割框架，其核心是基于nnU-Netv2架构。框架包含两个创新模块：一是PRISM-DD（Pattern Recognition Integration with Scale Mechanism for Domain Distribution），这是一个动态数据分布机制，通过分析多维特征（如类别分布、像素强度统计、纹理对比度）的差异，自适应地生成并优化不同领域（数据集）在训练批次中的分配比例，以平衡各领域对模型的贡献。二是AMBiCoL（Adaptive Masked Boundary Consistency Loss），这是一个集成自适应边界掩码和双向一致性建模的多层次损失函数，通过施加空间、结构和边界一致性约束，增强模型在边界敏感区域的泛化能力。

4. 方法

本研究提出的DRIFT框架整体架构基于增强的nnU-Netv2。针对多源输入，引入了PRISM-DD策略和AMBiCoL方法。PRISM-DD模块处理来自多个领域（如A和B）的输入图像，通过数据驱动的特征分析，计算并生成动态分配比例R_A和R_B，确保训练过程中数据的平衡性和多样性。这些按比例混合的数据随后通过一个单路径网络处理，产生像素级分割输出和边缘预测输出。AMBiCoL作为损失函数的一部分，通过强加多层次的空间、结构和边界不变性约束来缓解领域偏移，优化跨领域特征建模。

4.2. PRISM-DD

PRISM-DD通过结合类别分布、像素级统计和纹理特征等多维特征分析，自适应地分解特征相关矩阵，以提取代表性特征并推导出优化的领域特定比例。其过程包括对特征进行最小-最大归一化，使用基于Softmax的加权机制优先处理域间差异大的特征，并构建最终的集成自适应相关矩阵。接着，该方法利用参数层次相关性测量策略，直接利用全局特征相关性来估计域间分布对齐，高效计算分配比例。最终，结合总域间差异和噪声调整后的相关系数，通过S形调制映射计算动态调整因子ΔR，并裁剪到合理范围，生成最终的分配比例R_A和R_B，例如本研究中为A:B = 0.5897:0.4103。

4.3. 自适应掩蔽双向一致性损失

AMBiCoL旨在通过专注于边界学习来增强跨域分割。它利用两个主要机制：自适应边界场掩码和双向一致性约束。该损失函数通过建模长程像素交互来捕获上下文对齐，为每个像素构建全局特征向量。其总损失在多个尺度上聚合了一致性项，包括空间一致性损失（惩罚逆形式特征差异以及全局与局部特征之间的偏差）、结构一致性损失（通过形态学侵蚀提取的边界感知特征之间的对齐）以及边界一致性损失（定义为前向和后向预测对之间的平均MSE，并受边缘掩码限制）。通过这些约束，AMBiCoL确保模型学习领域不变特征，特别是在边界区域。

5. 实验

5.1. 数据集

实验使用了TIGER数据集作为主要锚点，并系统性地将其与四个额外数据集结合：UKMTILS、HI-LBC（整合了CAMELYON16和CAMELYON17）、WSSS4LUAD和PUMA。这些数据集源自不同机构，涵盖包括三阴性乳腺癌、一般乳腺癌、肺腺癌和黑色素瘤在内的多种癌症类型。大多数图像被映射到统一的肿瘤、间质和背景三类结构。在每次实验中，TIGER与另一个数据集结合，并按70%/20%/10%的比例分层划分为训练、验证和测试子集。

5.3. 基线比较

如表1和表2所示，DRIFT在两种形式的跨域评估中持续优于基线模型：一是癌种内但跨数据集的评估（例如，同为乳腺癌，但数据集间在染色、扫描或标注上不同）；二是跨癌种的评估（例如，在乳腺癌、肺癌、黑色素瘤数据集间）。在癌种内评估中，DRIFT将平均Dice分数提高了约3%–6%。在跨癌种评估中，它持续提升了肿瘤和间质分割的准确性，在联合训练配置下表现出最稳定的行为。这些结果表明，DRIFT通过结构一致性建模和显式的域间知识提炼，有效适应了异质性组织特征，在多源融合和跨癌种泛化中均实现了可靠性能。

5.4. 与现有先进技术的比较

如表3所示，DRIFT在大多数任务中取得了最高的平均Dice分数，展示了稳定且优越的泛化能力。在TIGER数据集上，DRIFT（平均Dice 0.897）略优于SwAV预训练模型。在HI-LBC上，其性能（0.812）与当前最佳方法HI-NET相当。在WSSS4LUAD上，DRIFT（平均Dice 0.844）较DeepLab v3有显著提升。在PUMA上，DRIFT（平均Dice 0.885）保持了领先性能，超过了nnU-Net基线。

5.5. 消融研究

5.5.1. PRISM-DD验证

PRISM-DD确定了TIGER与UKMTILS之间的最优数据比例约为6:4。与固定的经验比例设置（从7:3到3:7）相比，在AMBiCoL损失下，PRISM-DD比例取得了最佳的Dice分数，在TIGER上达到0.897/0.893（肿瘤/间质），在UKMTILS上达到0.909/0.897，其平均Dice分数分别为0.903和0.895，优于所有固定比例基线。这表明数据驱动的动态比例调整能有效缓解领域偏见，改善跨域特征对齐。

5.5.2. 损失函数消融

在TIGER+UKMTILS联合训练设置下，对AMBiCoL的各个组成部分进行了消融研究。完整AMBiCoL损失（结合了空间、结构、边界和双向不变性损失）在所有测试数据集上实现了最佳的平均Dice分数。移除任何组件都会导致性能下降，特别是移除双向不变性损失或边界一致性损失时，模型在跨数据集测试（如HI-LBC）上性能下降最明显，证明了每个组件对于增强模型鲁棒性和泛化能力的重要性。

5.6. 可视化分析

研究对DRIFT框架的分割结果进行了可视化分析，并与基线模型（nnU-Netv2）进行了比较。结果显示，DRIFT在肿瘤-间质边界区域的分割更加精准、连续，显著减少了假阳性和假阴性预测。特别是在染色差异大、纹理复杂的区域，DRIFT能够更好地捕捉结构信息，产生更符合病理学特征的分割结果。在跨数据集测试中，DRIFT的分割图在结构完整性和边界清晰度方面均优于基线模型，直观地证明了其增强的泛化能力和边界敏感性。

本研究提出并验证了DRIFT，一个用于多领域数字病理图像分割的稳健框架。其核心贡献在于引入了一种动态数据分配机制（PRISM-DD）和一个专注于边界一致性的多层次损失函数（AMBiCoL）。PRISM-DD通过数据驱动的方式，自适应地平衡不同来源数据在训练中的贡献，缓解了领域不均衡问题。AMBiCoL则通过施加空间、结构和边界约束，强制模型学习领域不变的特征表示，特别是在诊断关键的肿瘤-间质边界区域。实验结果表明，DRIFT在多个乳腺癌病理数据集上超越了现有先进方法，并且在跨癌种的泛化测试中也表现出色。此外，研究还贡献了一个新的、经过专家精细标注的三阴性乳腺癌（TNBC）数据集UKMTILS，为复杂分割任务提供了宝贵资源。这项工作的重要意义在于，它为解决计算病理学中一个长期存在的挑战——即模型在多变临床环境下的泛化能力不足——提供了切实可行的方案。通过显式地建模和平衡域间差异，并强化边界一致性，DRIFT推动了深度学习模型从实验室的“理想”数据向真实世界复杂、异质病理图像的可靠应用迈出了关键一步。这不仅有助于提高乳腺癌病理分析的自动化水平和准确性，其框架设计思路也对其他医学影像模态的跨中心、跨设备应用具有重要的借鉴价值。代码的公开（https://github.com/Joycecc123/DRIFT）将进一步促进该领域的研究与合作。

热点排行