基于图像块分区与可解释性诊断的胸部X光AI架构：MedicalPatchNet的构建与验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：MedicalPatchNet: a patch-based self-explainable AI architecture for chest X-ray classification

【字体：大中小】 时间：2026年02月22日 来源：Scientific Reports 3.9

编辑推荐：

　　为解决深度学习在放射影像分类中可解释性不足、临床接受度受限的问题，TruhnLab团队开展了名为MedicalPatchNet的AI架构研究。该研究提出一种基于非重叠图像块、自可解释的胸部X光分类架构，无需事后解释技术即可直观呈现各区域对诊断的贡献。在CheXpert数据集上，其分类性能（AUROC 0.907）媲美EfficientNetV2-S（0.908），在CheXlocalize数据集上，病灶定位准确率（平均命中率0.485）显著优于Grad-CAM（0.376）。该成果显著提升AI辅助诊断的透明度和临床信任，代码已开源。

在医学影像领域，人工智能（AI）已成为辅助医生诊断的得力工具，尤其在胸部X光影像的分类任务上，深度神经网络（Deep Neural Network）展现出极高的准确度。然而，这些强大的“黑箱”模型往往存在一个致命弱点——缺乏可解释性。医生无法理解模型为何做出某个诊断，这就像一位经验丰富的医生只给结论却不说依据，令临床医生难以完全信任，从而限制了AI在真实医疗场景中的应用与推广。近年来，由于缺乏可解释性而引发的“捷径学习”（Shortcut Learning）风险也备受关注，模型可能依赖与疾病无关的伪影或设备标记做出判断，这无疑增加了医疗风险。因此，开发一种既准确又透明的AI模型，让诊断决策过程变得清晰可见，是推动AI辅助诊断走向临床的关键一步。

为此，研究人员在《Scientific Reports》上发表了一项研究，提出了一种名为MedicalPatchNet的创新架构。这是一种本质上具有自解释能力的AI模型，专为胸部X光分类设计。它不再将整张图像作为一个整体进行“黑箱”处理，而是采用了分而治之的策略。具体而言，模型首先将输入的X光图像分割成一系列互不重叠的小块（Patch）。随后，每个图像块都会被一个独立的分类子网络进行分析和诊断。最后，模型将所有图像块的预测结果进行聚合，得出最终的疾病分类结论。这种设计的精妙之处在于，它能天然地生成解释：研究者可以直接将每个图像块的“诊断贡献”进行可视化，明确指出是图像的哪些区域对最终诊断起到了决定性作用，而无需依赖Grad-CAM等事后解释技术。

为了验证MedicalPatchNet的有效性，研究团队在大型公开胸部X光数据集CheXpert（包含223，414张图像）上进行了训练和性能评估。结果表明，MedicalPatchNet的分类性能与当前先进的基准模型EfficientNetV2-S不相上下，两者受试者工作特征曲线下面积（Area Under the Receiver Operating Characteristic curve， AUROC）分别为0.907和0.908。更关键的是，在可解释性评估中，MedicalPatchNet展现出了显著优势。在专门用于评估病变定位性能的CheXlocalize数据集上，MedicalPatchNet的病灶定位准确率（平均命中率0.485）明显优于使用Grad-CAM（Gradient-weighted Class Activation Mapping）解释的EfficientNetV2-S（平均命中率0.376）。这意味着MedicalPatchNet不仅能做出准确的诊断，还能更精准地指出病灶所在的位置，其提供的解释更可靠、更直观。这种显式、可靠的解释，使得即使是非AI专家的临床医生也能轻松理解和验证模型的决策逻辑，有效缓解了因模型不可信带来的临床风险，为构建更安全、可解释的跨医学影像领域AI辅助诊断系统做出了贡献。研究人员已将模型代码、可复现的训练和推理脚本完全公开。

本研究采用的核心技术方法主要包括：1. 基于图像块的自解释架构：提出MedicalPatchNet，将输入图像分割为独立处理的非重叠区块，实现预测的透明归因；2. 大规模数据集训练与评估：使用包含22万余张图像的CheXpert公开数据集进行模型训练；3. 双维度性能基准测试：通过与EfficientNetV2-S对比，评估分类性能（以AUROC为指标）和可解释性（在CheXlocalize数据集上以平均命中率为指标，并与Grad-CAM方法对比）。

研究结果

•
MedicalPatchNet的设计与实现

研究人员构建了MedicalPatchNet架构。该架构的核心是将输入图像分割成非重叠的块（Patch），每个块由一个独立的轻量化分类网络处理，最终通过聚合所有块的预测结果得到整个图像的分类。这种方法从设计上保证了模型能够输出基于图像区域的解释。
•
分类性能与基准模型相当

在CheXpert数据集上的实验表明，MedicalPatchNet的整体分类性能与广泛使用的EfficientNetV2-S模型相当。两者的平均AUROC分别为0.907和0.908，证明了分块处理策略在保持高分类准确度上的有效性。
•
病灶定位能力显著优于事后解释方法

在可解释性评估中，MedicalPatchNet展现出了优越的病灶定位能力。在CheXlocalize数据集上，其平均命中率达到0.485，显著高于使用Grad-CAM对EfficientNetV2-S模型进行解释所获得的0.376。这直接证明了其内置的解释机制在定位病理区域方面比常用的热力图生成方法更准确。
•
提供直观可视化的决策依据

由于每个图像块都有独立的预测分数，研究人员可以直接生成解释图，直观地展示每个图像区域对最终诊断（如“胸腔积液”）的支持或反对程度。这种可视化使得模型的决策依据对临床医生而言是透明且易于理解的。

本研究得出结论，MedicalPatchNet作为一种新型的自解释人工智能架构，成功地平衡了胸部X光分类任务中的准确性与可解释性。它通过图像块独立分类与预测聚合的机制，在不依赖额外事后解释工具的前提下，实现了诊断决策的透明化与可追溯性。实验证实，该模型不仅达到了与先进“黑箱”模型相媲美的诊断性能，更重要的是，其提供的病灶定位解释比广泛使用的Grad-CAM方法更加精准可靠。这项工作的意义在于，它为解决深度学习模型在医疗领域应用的核心障碍——信任问题——提供了一条有效的技术路径。通过提供清晰、可靠的决策依据，MedicalPatchNet有助于临床医生理解和验证AI的结论，从而减少对“捷径学习”的担忧，增强AI辅助诊断系统的安全性和临床接受度。其开源特性也将进一步促进可解释人工智能（Explainable AI）在医学影像乃至更广泛医疗领域的研究与应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号