《Scientific Reports》:A multi-scale hybrid ResNet–transformer with distance-aware learning for interpretable BI-RADS mammographic classification
编辑推荐:
为应对乳腺X线摄影中病灶及时、准确分类的临床需求,本研究提出了一种融合多尺度混合ResNet-Transformer架构与距离感知学习(Distance-Aware Learning)的可解释性BI-RADS分类方法。该模型结合了ResNet-50的空间表征能力与轻量级多头自注意力层的上下文建模优势,在测试集上取得了0.921的准确率与0.987的平均AUC,对关键的BI-RADS 4-5类病灶展现出高判别力(F1分数>0.92),并通过特征空间可视化与Grad-CAM提供了与放射科医生推理一致的可解释性输出,为未来的计算机辅助诊断工作流提供了高效且具临床意义的自动化分类方案。
乳腺癌是全球女性最常见的恶性肿瘤之一,早期发现和准确诊断对于提高治愈率和生存率至关重要。乳腺X线摄影是目前最常用的乳腺癌筛查手段,而乳腺影像报告和数据系统(Breast Imaging Reporting and Data System, BI-RADS)则是国际上广泛采纳的标准化评估体系,它为放射科医生描述乳腺病灶的恶性风险提供了统一的分类标准(如从0到6类)。然而,BI-RADS分类高度依赖医生的经验和主观判断,存在解读差异,这可能导致不必要的活检或延误治疗。因此,开发能够辅助医生进行客观、准确且可解释的自动化BI-RADS分类工具,具有紧迫的临床意义和巨大的应用潜力。
为此,研究人员在《Scientific Reports》上发表了一项研究,旨在构建一个兼具高精度与可解释性的深度学习模型,以自动化完成乳腺X线摄影图像的BI-RADS分类。他们巧妙地将两种主流神经网络架构的优势相结合:利用残差网络(ResNet-50)强大的空间特征提取能力来捕捉图像中的局部细节(如病灶的形态、边缘),同时引入轻量化的多头自注意力(Multi-Head Self-Attention)机制(即Transformer的核心组件)来建模图像不同区域之间的长距离依赖关系和全局上下文信息,从而形成了“多尺度混合ResNet-Transformer”的统一架构。更重要的是,针对BI-RADS类别本身具有序数(Ordinal)性质(即类别“4”比类别“3”更接近恶性,但与类别“5”的差异小于与类别“2”的差异)的特点,研究团队创新性地提出了“距离感知学习”(Distance-Aware Learning)损失函数。该函数不仅惩罚错误的分类,还会根据预测类别与真实类别在序数尺度上的“距离”来调整惩罚力度,使模型学习到类别间的内在顺序关系。此外,研究还通过对比度受限自适应直方图均衡化(CLAHE)对图像进行预处理以增强对比度,并采用了平衡过采样和受控数据增强策略来有效应对医疗影像数据中常见的类别不平衡问题。
为了开展这项研究,作者主要应用了以下几个关键技术方法:首先,采用基于深度学习的多尺度混合ResNet-Transformer模型架构进行特征提取与分类。其次,引入了专门设计的距离感知学习损失函数来建模BI-RADS类别的序数关系。第三,在模型训练前,对乳腺X线摄影图像进行了CLAHE对比度增强预处理,并实施了平衡过采样与受控的数据增强技术以解决数据不平衡问题。最后,利用梯度加权类激活映射(Grad-CAM)和特征空间可视化(t-SNE)技术对模型的决策过程进行可视化解释,以验证其聚焦于临床相关区域的能力。
模型架构与训练
本研究提出的核心是一个端到端的深度学习框架。它以一个标准的ResNet-50网络作为骨干,提取图像的多层次卷积特征。随后,这些特征被输入到一个轻量级的Transformer编码器模块中,该模块通过多头自注意力机制对全局上下文信息进行建模。最终,融合了局部与全局信息的特征被送入分类头,输出对六个BI-RADS类别(2, 3, 4A, 4B, 4C, 5)的预测概率。模型使用结合了交叉熵损失和距离感知损失的复合损失函数进行训练。
性能评估
研究在一个包含大量乳腺X线摄影图像的数据集上对模型进行了严格的训练、验证和测试。结果表明,该混合模型在独立测试集上取得了卓越的性能:总体分类准确率达到0.921,接收者操作特征曲线下面积(AUC)的平均值高达0.987,显示出极强的判别能力。尤为重要的是,对于临床决策最为关键、恶性风险较高的BI-RADS 4和5类亚型(4A, 4B, 4C, 5),模型均表现出了优异的识别能力,F1分数全部超过0.92,这意味着模型在精确率和召回率之间取得了良好平衡,能够有效识别这些需要密切随访或活检的病灶。
可解释性分析
为了确保模型决策的透明度和临床可信度,研究者进行了深入的可解释性分析。通过梯度加权类激活映射(Grad-CAM),他们生成了模型关注区域的热力图。可视化结果清晰显示,模型的注意力高度集中在影像中的可疑病灶区域,而非无关的组织背景,这与放射科医生阅片时的视觉推理模式高度一致。此外,通过t-SNE对模型学习到的高维特征进行降维可视化后发现,不同BI-RADS类别的样本在特征空间中形成了良好分离的簇,直观证明了模型具备了强大的类别区分能力。
研究结论与讨论
本研究的核心结论是,所提出的多尺度混合ResNet-Transformer模型,结合距离感知学习策略,能够实现高精度、高鲁棒性且可解释的乳腺X线摄影BI-RADS自动分类。模型不仅在全类别上取得了顶尖的量化指标,更在恶性风险最高的关键类别上表现出色。其创新点在于:第一,通过混合架构有效融合了卷积神经网络(CNN)的局部特征提取优势和Transformer的全局关系建模能力;第二,通过距离感知损失函数显式地融入了BI-RADS分类任务的序数先验知识,使模型预测更符合临床逻辑;第三,通过Grad-CAM等可视化技术提供了直观的决策依据,增强了模型在临床环境中的可接受度和实用性。
这项研究的意义重大。它为解决乳腺X线影像解读中的主观性和不一致性问题提供了一个强有力的自动化工具原型。该框架有潜力整合到未来的计算机辅助诊断(Computer-Aided Diagnosis, CAD)工作流中,作为医生的“第二双眼睛”,辅助其做出更快速、更一致的BI-RADS评估,从而可能减少不必要的良性病灶活检,并确保高风险病灶不被漏诊。虽然研究取得了积极成果,但作者也指出,未来需要在更大规模、多中心的现实世界数据中进行外部验证,并探索模型在三维乳腺断层摄影等其他模态影像上的泛化能力,以进一步推动其向临床实际应用的转化。