《Scientific Reports》:Reciprocal cooperative gating fusion of SqueezeNet and ShuffleNetV2 for breast cancer detection in histopathology images
编辑推荐:
本文针对当前乳腺癌病理图像诊断依赖计算密集型模型、难以临床实用的问题,提出了一种轻量级互惠协同门控(RCG)融合框架。该研究创新性地将SqueezeNet与ShuffleNetV2通过双向门控机制融合,在ICIAR-2018和BreakHis数据集上分别取得97%多分类准确率和99.72%二分类准确率,为开发精准可靠的计算机辅助诊断(CAD)系统提供了新思路。
乳腺癌是全球女性最常见的恶性肿瘤之一,及时准确的诊断对改善临床预后至关重要。组织病理学分析作为诊断金标准,依赖病理医师在显微镜下观察染色切片,评估肿瘤类型、分级和结构。然而,这种方法既耗时又主观,且难以应对样本量增长的需求。近年来,基于深度学习的计算机辅助诊断(CAD)系统在乳腺癌图像分析领域取得显著进展,卷积神经网络(CNN)在分类、分割和检测任务上展现出超越传统方法的准确性、一致性和效率。
但现有方法面临严峻挑战:许多先进解决方案依赖于计算密集型架构,如基于Transformer的模型、深度集成模型、多尺度注意力网络和基于DenseNet的框架,严重限制了其实际应用价值。特别是在ICIAR-2018数据集中,良性样本与正常样本间存在高度视觉重叠,两者呈现相似的上皮和基质模式,仅存在细微形态学差异;原位癌常表现出模糊的导管边界,使其与浸润性癌视觉上相似。此外,染色不一致、光照变化和图像块间对比度不均等问题,导致视觉异质性,阻碍特征学习和模型泛化。
为解决这些瓶颈,研究人员开展了一项创新性研究,提出了一种相对轻量的互惠协同门控融合(RCG)框架。该工作巧妙整合了两个高效卷积神经网络——SqueezeNet和ShuffleNetV2,在显著降低计算开销的同时实现高质量特征提取。其核心创新在于互惠门控机制,促进网络间结构化双向交互,增强互补特征交换,同时抑制冗余响应,产生信息更丰富的融合表征。
关键技术方法主要包括:采用SqueezeNet 1.0和ShuffleNetV2_X2.0作为双分支特征提取器;设计互惠协同门控(RCG)模块实现特征间的双向自适应调制;通过全局平均池化和向量融合获得精细化特征表示。实验使用ICIAR-2018(400张图像,4类别)和BreakHis(100倍放大,1176张图像,2类别)数据集,采用随机旋转、水平翻转和垂直翻转等数据增强策略。
模型架构与性能表现
研究团队通过大量实验对比了多种轻量级骨干网络,最终选定SqueezeNet和ShuffleNetV2作为基础模型。SqueezeNet采用"压缩"设计,通过Fire模块(包含squeeze层的1×1卷积用于通道缩减和expand层的1×1与3×3卷积组合用于特征扩展)实现参数效率与表征能力的平衡。ShuffleNetV2_X2.0则利用通道分割、通道重排和可分离深度卷积,在移动设备和边缘设备上实现高效计算。
互惠协同门控机制是本研究的核心创新。该模块受互惠变换模块(RTM)概念启发,将其原理适配到静态双CNN框架中。具体而言,从两个骨干网络提取的特征映射f1和f2首先经过1×1卷积、批归一化和ReLU激活,产生中间表示zi,然后通过全局平均池化(GAP)生成通道级意图向量gi。通过均值中心化计算偏差信号si,引入由可学习参数γi(实例化为α和θ)控制的缩放操作,并利用固定冗余阈值τ进行调节。最终生成协同门Gi,对原始特征映射进行元素级调制,实现双向特征协同。
消融研究与对比分析
在ICIAR-2018数据集上的实验表明,单纯SqueezeNet 1.0和ShuffleNetV2_X2.0分别达到92%的多分类准确率,简单融合模型提升至94%,而加入RCG模块后,准确率显著提高至97%。在二分类任务中(将正常和良性合并为非癌类别,原位和浸润性癌合并为癌类别),RCG融合模型达到99%的准确率,较基础模型提升4-6个百分点。在BreakHis数据集上,该模型更是取得了99.72%的优异准确率。
参数敏感性分析显示,当α=θ=0.6且τ=0.15时,模型性能最优。与主流注意力机制(SE、CBAM、ECA)相比,RCG在三个数据集上均表现出明显优势。统计显著性检验(Wilcoxon秩和检验)进一步证实,RCG融合模型的性能提升具有统计学意义(p值均小于0.05)。
可视化分析与解释性
通过Grad-CAM和热图可视化可以发现,RCG基于融合产生的激活区域更加紧凑和具有判别性,能够准确聚焦于组织病理图像中诊断相关的组织区域。如图13和图14所示,与单一骨干网络相比,RCG融合模型的注意力更加集中于病理学意义显著的区域,表明协同门控机制增强了特征融合和空间注意力,提高了模型可解释性。
t-SNE可视化进一步证明了RCG融合模型在特征空间中的优越分离能力。在四分类ICIAR-2018任务中,不同组织学亚型在嵌入空间中形成明显聚类,且类间边界清晰,反映了融合表征的强大判别能力。
与现有方法对比
与近年来的先进方法相比,本研究提出的RCG框架在多个数据集上均展现出明显优势。在ICIAR-2018四分类任务中,准确率(97%)显著高于Garg等人(92%)、Kumar等人(93.75%)、Wang等人(93.75%)和Murphy等人(94.58%)的报告结果。在二分类任务中,99%的准确率也超越了Bagchi等人(98.60%)、Jothi等人(94.80%)和Kumar等人(96.25%)的方法。在BreakHis数据集上,99.72%的准确率同样优于现有最佳方法。
模型效率评估
资源度量显示,整个模型参数量为1930万,模型大小69.75MB,总乘加运算(MACs)为2.8G,浮点运算(FLOPs)为4.16G,平均延迟时间12.02毫秒,吞吐量260.88图像/秒。这种紧凑设计使得模型非常适合资源受限的临床环境和边缘或实时医疗推理场景。
该研究的核心结论表明,基于互惠协同门控的融合框架通过双向特征交换机制,有效增强了特征判别能力,同时保持了低计算成本。模型在多个基准数据集上实现了最先进的分类性能,为乳腺癌病理图像分析提供了一种精准可靠的CAD工具。尽管存在超参数调优需求和对双骨干架构的特定依赖等限制,但这项工作为轻量级医学图像分析模型的发展指明了有前景的方向。未来工作将探索类别不平衡感知损失函数和自适应门控机制,以在不同放大倍数下提高性能,并以最小计算开销增强多类别分类能力。