弱监督注意力模型在多实例学习框架下对前列腺癌检测与分级的基准化研究：从组织切片到病理诊断的性能评估

《Scientific Reports》：Benchmarking multiple instance learning architectures from patches to pathology for prostate cancer detection and grading using attention-based weak supervision

【字体：大中小】 时间：2026年03月03日 来源：Scientific Reports 3.9

编辑推荐：

　　传统前列腺癌的组织病理学评估耗时、存在观察者间差异且难以规模化。本研究为应对像素级标注的局限，开展了大规模基准化研究，系统评估了六种弱监督多实例学习（MIL）架构、三种特征编码器与四种切片提取方法在10,616张全切片图像（WSIs）上的性能，以最小化标注需求并确保可解释性。最优模型在ISUP分级中实现了78.75%的准确率与90.12%的二次加权kappa（QWK），诊断能力接近病理专家水平，验证了该方法优异的临床诊断性能、可扩展性与实用可行性。

前列腺癌是全球男性最常见的癌症之一，其诊断和分级的“金标准”依然是传统的、人工进行的组织病理学评估。这个过程就好比病理医生在一张极其巨大的数字地图（一张高分辨率的全切片图像，Whole Slide Image, WSI）上，手持放大镜一寸一寸地寻找肿瘤细胞的“可疑据点”，并根据其形态特征进行判级。这项工作不仅极其耗费时间和精力，而且其结论往往因不同医生的经验和判断标准而存在差异，即所谓的“观察者间变异性”。面对日益增长的诊断需求，传统方法显得力不从心，难以实现规模化应用。

近年来，人工智能（AI）技术，特别是深度学习，为病理学自动化带来了革命性的希望。人们梦想开发出能够像专家一样快速、准确地分析WSI的AI系统。然而，一个巨大的瓶颈横亘在前：训练一个高性能的AI模型，通常需要海量的、由专家在像素级别上精细标注的图片数据。这种标注成本极高，对专业知识的依赖极强，几乎不可能大规模获取。这就好比为了教AI认路，需要在地图上把每一条街道、每一栋房子的边界都精确勾勒出来一样不切实际。

为了突破这一瓶颈，研究人员将目光投向了“弱监督学习”（Weakly Supervised Learning）策略，特别是“多实例学习”（Multiple Instance Learning, MIL）。其核心思想是：我们不需要知道WSI中每一个具体细胞是好是坏（像素级标注），而只需要知道整张WSI对应的最终诊断标签（如“癌变，ISUP 3级”）。在MIL框架下，一张WSI被视为一个“包”（bag），它由数百万个从图像中分割出来的小块——称为“组织切片”（patch）或“实例”（instance）——组成。AI模型的任务是从这个庞大的、未标注细节的实例集合中，自行学习哪些切片是关键的、与最终诊断相关的，并做出整体判断。这极大地降低了对标注数据的要求。

尽管基于MIL的前列腺癌检测与分级研究已有不少，但一个关键问题仍未得到系统性的解答：在众多新兴的MIL架构、特征提取方法和处理流程中，哪种组合能带来最佳的性能、可解释性与实用性？此前缺乏大规模的、头对头的比较研究。为了回答这个问题，一项发表在《Scientific Reports》上的研究进行了一次雄心勃勃的、迄今为止最大规模的基准化研究。研究人员的目标很明确：在最小化人工标注需求的前提下，系统性地评估和比较当前最先进的弱监督深度学习框架，以期开发出具备临床级诊断性能、良好可解释性且易于规模化部署的自动化前列腺癌诊断与分级系统。

为了达成目标，研究团队设计了一套严谨而全面的技术路线。他们以包含10,616张前列腺癌WSI的公开大型数据集PANDA作为评估基准。研究核心围绕三个变量展开系统性的网格化测试：首先是六种先进的注意力机制（Attention Mechanism）驱动的MIL架构，包括CLAM-MB、CLAM-SB、ILRA-MIL、AC-MIL、AMD-MIL以及WiKG-MIL；其次是三种用于从组织切片中提取深度特征的特征编码器（feature encoder），包括通用的ResNet50，以及两个在病理图像上预训练的大规模基础模型CTransPath和UNI2；最后是四种不同的组织切片提取策略，通过改变切片大小（如256×256像素、512×512像素）和相邻切片之间的重叠比例（0%、50%）来探究空间分辨率与上下文信息之间的平衡。这总共构成了72种不同的实验配置。为了处理由此产生的海量数据（超过3100万个组织切片），研究采用了分布式云计算进行高效处理。此外，研究通过梯度加权类激活映射（Grad-CAM）可视化技术，将模型的注意力集中在WSI的关键区域，从而为模型的决策提供临床可解释的依据。

模型架构比较揭示了ILRA-MIL的优越性能

通过对六种MIL架构的系统比较，研究发现，在大多数评估指标上，基于迭代潜在表示对齐的MIL架构（ILRA-MIL）表现最为突出。特别是在最具挑战性的国际泌尿病理学会（International Society of Urological Pathology, ISUP）五级分级任务中，ILRA-MIL展现出了优异的判别能力。这表明其内部设计的迭代对齐机制能更有效地从弱监督标签中学习到具有判别性的组织切片特征表示，从而在复杂的多类别分类任务中取得优势。

领域专用特征编码器显著优于通用模型

在特征编码器的比较中，结果清晰地显示，在大量病理图像上预训练的领域专用基础模型（CTransPath和UNI2）的性能全面超越了在自然图像上训练的通用模型ResNet50。其中，UNI2编码器的表现尤为出色。这强有力地证明，针对特定医学影像领域进行预训练，能使模型学习到更贴合病理形态学特征的基础表示，这是提升下游诊断任务性能的关键。

较小尺寸与重叠的切片提取策略达到最佳平衡

在组织切片处理策略的测试中，研究得出了一个关键结论：提取较小尺寸（256×256像素）且具有50%重叠的切片，能够在模型性能、计算效率和内存消耗之间取得最佳平衡。相比于无重叠的大尺寸切片，这种策略既能提供更高的空间分辨率以捕捉细胞的精细形态细节，又能通过重叠确保足够的上下文信息（如细胞间的组织结构关系），避免了信息割裂，从而综合表现最优。

最优配置实现接近专家水平的诊断效能

通过整合上述最佳组件，研究确定了本次基准化测试中的最优系统配置：采用UNI2作为特征编码器，ILRA-MIL作为MIL架构，并提取256×256像素大小、重叠率为50%的组织切片。该最优系统在PANDA测试集上达到了78.75%的准确率和90.12%的二次加权Kappa系数。二次加权Kappa系数是衡量分级任务中模型与专家判断一致性的重要指标，其值超过0.9表明模型与病理专家之间的诊断一致性达到了“几乎完美”的级别，充分证明了该弱监督系统的诊断能力已接近人类专家水平。

注意力可视化提供了可靠的可解释性

研究通过Grad-CAM技术生成的注意力热图显示，模型的关注区域高度集中在被病理学家认定为具有诊断意义的肿瘤核心区域（tumor cores）和高级别前列腺癌区域内。这种可视化结果不仅增强了医生对AI决策过程的信任，也使得模型本身成为一个辅助诊断工具，可以快速引导医生关注到最可疑的区域，提高了诊断效率和可靠性。

本研究的结论明确而有力。首先，它通过大规模、系统性的基准测试，首次全面比较了多种前沿的弱监督多实例学习方法在前列腺癌检测与ISUP分级任务上的表现，为后续研究提供了清晰的性能参考和组件选择指南。其次，研究证明了“领域专用基础模型 + 先进注意力MIL架构 + 优化的切片策略”这一技术路线的强大效力，能够在仅使用幻灯片级别弱标签（slide-level weak label）的条件下，构建出诊断性能接近病理专家水平的AI系统。这极大缓解了高质量像素级标注数据难以获取的困境。再者，研究验证了注意力机制所提供的可视化可解释性，是AI系统融入临床工作流、获得医生信任的关键一环。最后，通过采用分布式云计算处理数千万计的组织切片，研究展示了该方案具备处理超大规模数据集的实用可行性与可扩展性，为未来的临床部署奠定了基础。总之，这项工作不仅推进了计算病理学（computational pathology）在前列腺癌诊断中的技术前沿，更通过其出色的性能、良好的解释性和可行的工程化路径，为开发下一代高效、可靠且易于普及的临床辅助诊断工具指明了方向，具有重要的临床转化潜力。

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯