一种基于空间相关性引导的深度融合框架，用于使用CT成像进行多模态肺癌分类

《Frontiers in Medicine》：A spatial correlation-guided deep fusion framework for multimodal lung cancer classification using CT imaging

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Medicine 3.0

编辑推荐：

　　摘要引言：肺癌是全球主要的死亡原因之一，因此需要精确且有效的诊断方法。传统的肺癌检测深度学习方法通常依赖于单一模态输入或简单的融合技术，但它们无法捕捉医学数据中的复杂空间相关性。方法：为了解决这一不足，本文介绍了一种基于空间相关性的深度学习系统，用于多模态肺癌分类。该系统提

　　摘要
引言：肺癌是全球主要的死亡原因之一，因此需要精确且有效的诊断方法。传统的肺癌检测深度学习方法通常依赖于单一模态输入或简单的融合技术，但它们无法捕捉医学数据中的复杂空间相关性。

方法：为了解决这一不足，本文介绍了一种基于空间相关性的深度学习系统，用于多模态肺癌分类。该系统提出了一种称为空间相关性映射（SCM）的机制，以明确捕捉成像数据之间的几何和解剖关系。这种方法结合了多尺度特征提取框架和基于相关性的融合策略，能够在不损失空间一致性的情况下，成功地对齐和融合异构特征。通过在基准肺癌数据集上进行的广泛测试，评估了所提出框架的效率。

结果：与基线模型相比，所提出的模型在恶性肿瘤检测上的准确率达到了98%，召回率为100%，证明了特征之间空间相关性的概念在增强特征融合和改进肺癌诊断方面的有效性。研究结果还显示，与更传统的单一主干和基于融合的方法相比，该方法具有更高的精确度、召回率和F1分数。

讨论：此外，所提出的模型在计算上足够高效，能够在实际临床环境中应用。研究结果表明，空间依赖性建模在增强医学图像的多模态分析中具有重要意义，并为改善肺癌诊断提供了一种可行的方法。

1 引言
肺癌是全球范围内导致死亡最多的癌症类型，其死亡人数超过了乳腺癌、前列腺癌和结直肠癌的总和（1）。传统的计算机辅助诊断（CAD）系统依赖手工制作的放射组学特征和统计模型，通常无法在不同的成像协议和扫描仪之间通用（2）。 recent deep learning 在肺癌诊断方面的进展重新关注了可解释的框架，这些框架将不同的成像模式与其他临床元数据结合起来，以解决诊断准确性和临床可解释性的双重挑战（3-5）。肺癌是全球最致命的癌症，每年导致约180万人死亡，占所有癌症死亡人数的18%（6）。早期准确的诊断至关重要，因为生存率会提高，在某些情况下，五年生存率可以超过60%（7）。然而，如果诊断在晚期进行，五年生存率将低于10%（7）。传统的诊断技术主要依赖于受过训练的临床医生对放射图像的评估，这一过程耗时，并且由于肺癌类型的微妙差异，不同解读者之间可能存在差异。最近在人工智能（AI）和深度学习方面的技术进步有助于自动化图像分析，从而提供更快、更一致的诊断支持（8, 9）。多模态系统整合了多种成像和临床数据模式，以捕捉单一模态系统常常遗漏的诊断信号（10）。

最近在深度学习方面的进展显示出通过医学图像分析自动诊断肺癌的巨大潜力。各种卷积神经网络架构，包括基于EfficientNet的模型和传统的ResNet架构，已被广泛用于检测和分类肺结节和恶性病变（11, 12）。虽然这些方法取得了中等程度的成功，但它们主要依赖于局部空间特征，并未考虑肺结构内的长距离依赖性和区域间相关性。此外，常见的深度学习模型也未能充分考虑肺癌表现的异质性，这影响了分类准确性、早期检测和细微的病理差异（13）。仅依赖于有限范围注意力机制而不建模空间相关性的架构无法实现临床上可靠的性能。需要更复杂的方法，能够有效利用局部形态学特征和全局上下文关系（13, 14）。此外，大多数现有模型都是黑箱，无法提供可解释的视觉解释，这对临床应用和诊断决策的可靠性构成了严重障碍（15, 16）。

为了解决这些关键问题，本文提出了一种新的框架，该框架结合了空间相关性映射来增强肺癌诊断。我们的框架包含一个空间相关性模块，用于学习成像模式之间的几何关系。这种空间相关性机制在多个尺度上运作，既捕捉特定区域内的局部依赖性，也捕捉整个成像数据中的整体结构关系。通过建模一种模态中的空间模式与其他模态中的空间模式之间的关系，我们的方法能够在保留解剖学背景的同时，更好地整合互补信息。该框架采用双流架构，每种模态都在自己的路径中处理，而空间关系则在专门的流中学习。相关性指导融合过程，在分类之前准确地对齐和整合空间一致的数据。本文的主要贡献包括以下几点：
- 本文引入了一种新的空间相关性映射（SCM）机制，并将其与端到端深度学习模型相结合，以明确学习多模态医学图像之间的几何和解剖关系。这使得多尺度特征提取成为可能，并保持了空间一致性，消除了传统特征级融合方法的主要弱点。
- 本文提出了一种基于相关性的融合策略，利用学习到的空间关系来计算和匹配异构模态特征。这种方法在特征处理上有所不同，它结合了结构上一致且语义上有意义的特征，而传统方法则依赖于注意力机制或拼接机制。
- 通过大规模的肺癌图像实验验证了所提出框架的有效性，结果显示在准确率、召回率和F1分数方面优于最新的先进模型。此外，还提供了定性分析和可视化解释，以最大化可解释性，并支持临床可靠性和实际应用。

本文的其余部分结构如下：
第2节回顾了多模态医学图像分析和肺癌诊断的相关工作。
第3节详细介绍了所提出的空间相关性映射框架。
第4节展示了实验结果和分析。
第6节总结了本文，并讨论了未来的研究方向。

2 相关工作
Ping等人（17）提出了一种多模态融合框架，通过医疗物联网（IoMT）实现实时肺癌诊断。该框架接收来自各种数据源的输入，这些输入必须集成以支持选定的任务。这包括医学图像与电子健康记录（EHRs）的融合。除了自动和半自动技术外，该框架还包括基于数据质量和可用性的自适应融合技术。利用边缘计算加速企业诊断决策。实验结果表明，在具有挑战性的条件下，该框架在诊断准确性方面优于传统方法，同时通过联邦学习保护了隐私。
Hassan等人（18）提出了一种多模态医学图像融合模型，用于分类非小细胞肺癌（NSCLC）。融合成像模式可以利用单一模态方法无法利用的信息来提高分类效果。作者表明，融合这些图像提高了模型区分NSCLC亚型的能力，从而获得了比传统单一模态方法更高的分类性能。
Liu等人（19）提出了一种多模态融合网络，用于预测乳腺癌的预后，利用注意力机制捕捉模态内和模态间的动态变化。该模型通过模态内注意力识别图像或临床信号中的显著模式，通过模态间注意力学习捕捉跨模态交互并生成有用的表示。这种方法比单独处理各模态或使用简单组合的经典方法提高了预测准确性。
Zhong等人（20）创建了ILDIM-MFAM（具有多模态融合注意力机制的间质性肺病识别模型），用于自动化诊断间质性肺病。该模型使用融合注意力机制结合来自不同成像和临床来源的信息，使其能够专注于相关特征以进行准确检测。作者表明，根据相关性动态调整每种模态的贡献，显著提高了准确性，优于单一模态或传统融合方法。这项研究强调了动态融合在诊断复杂肺部病理学中的重要性。
Zhang等人（21）提出了一种平衡的融合多任务学习方法MBFusion，用于评估癌症诊断和预后。该框架支持来自各种信息类型的平等输入，防止任何一种类型主导其他类型。该方法促进了不同数据类型的平等贡献，防止任何一种数据类型占据主导地位。该模型包括两个任务：癌症分类和结果预测。通过结合这些方法，改善了诊断信息与预后信息之间的关系，从而提高了相对于单独模型的性能。
Xu和Lv（22）开发了一种快速肺癌诊断框架，利用多模态光谱数据和深度学习。该框架结合了来自不同来源的光谱测量，以识别肺癌的独特分子指纹。通过利用深度学习算法，模型可以提取区分癌组织和健康组织的特征，从而实现更快、无创的诊断。这种方法提供了分子信息，可以识别传统成像无法检测的早期癌症。研究人员表明，他们的方法在诊断准确性方面取得了高精度，同时显著减少了检测时间。
Niu等人（23）开发了一种基于胸部CT图像的多模态数据整合策略的智能诊断模型。该框架整合了CT扫描的多种视图和表示，包括解剖学、纹理和上下文信息，以改进诊断。通过捕获互补的CT特征（如强度模式和区域异常），提高了模型检测多种肺部疾病的能力。作者表明，这种方法比单视图方法提高了诊断准确性，突出了在同一成像技术（如CT）中使用不同视图的多模态优势。
Ji和Zhang（24）提出了一种多模型融合方法，用于使用图像对肺癌亚型进行分类。该研究结合了深度学习模型，利用互补特征实现足够的亚型分类准确性。结合多个架构的预测可以减少每个架构的偏见，从而为特定的肺癌亚型提供更健壮的模型。每个模型捕捉不同的图像特征（如纹理和形状），并将它们结合起来以提高分类决策的准确性。作者表明，他们的多模型融合方法优于单一模型方法，突出了集成学习的优势。
Kawama等人（25）提出了一种改进的肺癌预测框架，利用多空间特征适应、协作对齐和解缠学习。该框架通过适应各种表示空间中的特征来整合异构医学数据，以考虑分布差异。协作对齐促进了特征对齐，同时保持个体性，解缠学习使信息能够专注于相关信号，同时丢弃有害噪声。该框架比传统方法提高了预测准确性。研究表明，建模肺癌特征关系的重要性。
Xu等人（26）基于多模态特征交互的引导融合，开发了一种深度学习框架，用于评估晚期肺腺癌中的表皮生长因子受体（EGFR）突变。该框架模拟了模态之间的相互作用，使网络能够学习多种数据源如何改善突变预测。该模型通过捕捉EGFR突变状态和酪氨酸激酶抑制剂反应的协同作用，提高了准确性。这项工作强调了理解模态间相互作用以获得肺癌诊断临床相关见解的必要性。

从表1可以看出，现有方法主要关注基于注意力或特征级的融合，而很大程度上忽视了显式的空间依赖性建模。这一限制促使我们提出了空间相关性映射（SCM）方法，该方法旨在保持结构一致性并增强多模态特征融合。表1总结了现有的多模态融合方法的研究方法和关键贡献及局限性。

| 方法 | 研究作者 | 方法论 | 关键贡献 | 局限性 |
|------|--------|-------------------|----------------------------------------|---------------------------------------------------|
| Ping等人（2017）| 基于多模态IoMT的融合与联邦学习和边缘计算 | 结合成像、传感器和电子健康记录（EHR）的实时诊断 | 复杂的架构；对空间特征关系的关注有限 |
| Hassan等人（2018）| 多模态图像融合用于NSCLC分类 | 使用组合成像模式改进亚型分类 | 依赖基本融合技术，缺乏显式的空间依赖性建模 |
| Liu等人（2019）| 基于注意力的多模态融合网络 | 利用注意力机制捕捉模内和模间关系 | 注意力机制可能会忽略细微的空间相关性 |
| Zhong等人（2020）| 融合注意力机制（ILDIM-MFAM） | 动态加权不同模态以提高疾病检测能力 | 空间特征交互的解释性有限 |
| Zhang等人（2021）| 平衡多任务融合框架（MBFusion） | 联合诊断和预后建模，模态贡献均衡 | 未显式建模跨模态的空间相关性 |
| Xu和Lv（2022）| 多模态光谱数据融合与深度学习 | 利用分子特征实现快速无创诊断 | 仅适用于基于成像的空间分析 |
| Niu等人（2023）| 基于多视图CT的特征整合 | 利用CT扫描中的解剖和上下文特征 | 仅关注单一模态（CT），缺乏真正的多模态融合 |
| Ji和Zhang（2024）| 多模型集成融合方法 | 结合多个深度学习模型进行稳健分类 | 计算复杂度高；缺乏显式的空间相关性建模 |
| Kawama等人（2025）| 多空间特征适应与解耦学习 | 对齐异构数据表示以提高预测性能 | 模型复杂度高；对空间一致性保持的关注有限 |

3. 提出的方法
本节介绍了开发多模型集成深度学习框架的方法，用于通过CT扫描对肺癌进行分类。该方法包括五个主要阶段：数据采集和预处理、基于迁移学习的特点提取、定制分类头的开发、集成平均以增强预测能力，以及通过遮挡敏感性分析实现可解释的AI。图1展示了整个系统架构。

3.1 数据集和数据预处理
本研究使用了IQ-OTHNCCD肺癌数据集（27），这是一个公开的肺癌分类研究基准数据集。该数据集包含1,097张CT扫描图像，分为三个互斥的诊断类别：良性（120张图像，占10.9%）、恶性（561张图像，占51.1%）和正常（416张图像，占37.9%）。原始图像以JPEG格式存储，空间尺寸为512 × 512像素。该数据集存在严重的类别不平衡问题，其中良性类别仅占样本总数的10.9%。这种分布反映了现实世界 clinical 情景，即恶性病例在诊断中更为常见，而良性异常占比较小。研究使用标准图像处理库读取CT扫描图像，同时保持像素强度和元数据的完整性。每个图像通过双线性插值统一调整为224 × 224像素，以匹配预训练的CNN架构（ResNet50-LC-TransF-CNN和EfficientNetB0）的输入分辨率（这些架构最初是在这一空间分辨率下在ImageNet上训练的）。这种调整在保持计算效率的同时，保留了CT扫描中可见的重要诊断特征。随后，通过最小-最大缩放（xnormalized=xoriginal/255）对像素强度进行归一化，将原始强度范围[0, 255]转换为归一化范围[0, 1]，从而确保训练过程中的数值稳定性，并使所有特征无论其原始尺度如何都获得平等的权重。

3.2 单个深度学习骨干网络的微调
算法2描述了微调单个卷积神经网络（CNN）骨干的过程，具体使用了如ResNet50-LC-TransF-CNN或EfficientNet-B0这样的架构。首先输入预处理后的数据集和类别权重来处理类别不平衡问题。该模型包括一个在ImageNet上预训练的骨干网络，其卷积基础层保持不变以保留学习到的特征。然后构建一个自定义头部，该头部包含一个全局平均池化层，后面跟着几个带有激活函数和正则化组件的密集层。损失函数包含类别权重和正则化项，使用Adam优化器进行高效训练。模型在指定的训练集上进行训练和验证，并保存最佳权重。最后，在测试数据集上使用多种指标（包括准确率和F1分数）评估模型的性能，以全面评估其分类能力。

3.3 特征融合框架
算法3提出了一种系统方法，通过整合来自两个成熟深度学习模型ResNet-50和EfficientNet-B0的特征来提高肺癌诊断的准确性。首先移除模型的分类头部，使其仅作为特征提取器使用。对于合并的训练、验证和测试数据集中的每张图像，算法从每个模型计算出两个512维的特征向量。将这些向量连接起来形成一个1024维的表示，然后作为输入传递给融合分类器。该分类器包含多个密集层，结合了激活函数、批量归一化和Dropout层以防止过拟合。模型保持与之前定义的算法相同的训练参数，包括损失函数、优化器、批量大小和类别权重。在训练来自训练集的融合特征后，在验证集上验证模型的性能，并在测试集上进行评估，最终得到融合模型及其相应的性能指标。这种方法强调了采用多种特征提取策略来提高肺癌检测诊断准确性的优势。

3.4 空间相关性映射
空间相关性映射（SCM）模块被添加到现有的融合策略中，以进一步提高特征表示的质量，并解决传统融合策略相关的问题。SCM机制显式地建模医学图像区域之间的空间相互关系，使网络能够捕捉局部和全局的上下文关系。对于输入图像，首先将其分割成一系列空间区域或补丁。然后计算每对区域特征表示之间的相关性分数，以衡量区域之间的关系。这创建了一个表示区域间依赖性的矩阵。两个区域i和j之间的空间相关性由公式（1）给出：
$$
SCM(i,j) = \sum_{k=1}^{n} \left( x_{ki} - \mu_i \right) \cdot \left( x_{kj} - \mu_j \right) / (\sigma_i \cdot \sigma_j)
$$
其中$x_i$和$x_j$是区域i和j的特征向量，$\mu$是均值，$\sigma$是标准差。得到的相关性矩阵经过归一化后应用于特征图，重点关注空间上显著且高度相关的区域。这种丰富的表示被传递到后续层或融合模块中，从而实现了多模态特征的更好对齐和整合。通过SCM的整合，所提出的框架能够在保持解剖学上重要连接的同时维持结构一致性，而这些连接在更传统的基于特征或基于注意力的融合技术中通常被忽略。

所提出的深度融合方法利用空间相关性，包含几个步骤，这些步骤集成到一个统一的肺癌分类流程中。首先，CT扫描切片被调整大小、归一化并增强，以规范输入。然后图像被分割成补丁，并构建一个空间相关性矩阵来建模区域之间的几何和解剖关系。将特征图应用于该矩阵旨在提供更空间连贯的表示，以对齐多模态信息。改进后的特征随后被传递到卷积神经网络骨干（包括ResNet50和EfficientNetB0）中，以提取多尺度特征。这些骨干的特征向量组合起来形成一个完整的聚合表示，然后输入到全连接层中，通过批量归一化和Dropout来实现鲁棒性。在训练过程中使用类别权重来补偿正常、良性和恶性类别数量的差异。最后，框架为每个输入提供预测概率和标签，除了空间相关性建模和深度特征提取的补充能力外，还产生可靠的诊断输出。

3.5 模型架构
3.5.1 ResNet50-LC-TransF-CNN模型
我使用ResNet50-LC-TransF-CNN实现了迁移学习，这是一个50层的深度残差网络架构，在ImageNet分类任务上取得了最先进的性能。这些跳过连接通过身份映射实现了梯度直接流动，从而允许训练比以前可行的更深层次的架构。ResNet50-LC-TransF-CNN使用在ImageNet数据集上预训练的权重进行初始化，该数据集包含1000个对象类别的140万张自然图像。这种预训练使网络能够在不同层次学习到层次化的特征表示。较低层次可以学习低级别的边缘和纹理检测器，而较高层次可以学习高级语义概念。ResNet50-LC-TransF-CNN骨干的所有基础卷积层的参数都被冻结，使用$\theta_{\text{ResNetConv}$。这种冻结是为了增强学习到的表示，并避免在较小的医学成像数据集上发生灾难性遗忘。将冻结技术应用于从随机初始化训练时容易过拟合的小数据集。冻结的ResNet50-LC-TransF-CNN骨干接收图像（224 × 224 × 3），并通过几个卷积块进行处理，生成14 × 14的特征图，每个特征图有512个通道。然后应用全局平均池化来聚合每个512个特征通道的空间信息，计算空间平均值：
$$
f_k = \frac{1}{14} \sum_{i=1}^{14} \sum_{j=1}^{14} A_{ki,j}
$$
此操作产生一个紧凑的512维特征向量$f_{\text{ResNet}} \in \mathbb{R}^{512}$，该向量编码了具有区分性的模式，同时显著降低了维度，从14 × 14 × 512 = 1,003,520个值减少到仅512个值，从而降低了过拟合的风险。在冻结的骨干之上构建了一个个性化的分类头部，适应于特定的肺癌分类任务。该头部包含一个具有256个单元的密集层，使用ReLU激活函数（ReLU(z) = max(0, z)，随后进行批量归一化。批量归一化通过将每个小批量的输入归一化到零均值和单位方差来帮助稳定训练动态。应用30%的Dropout正则化，意味着在训练过程中随机关闭30%的神经元。这迫使网络学习不依赖于某些神经元的表示。架构以一个具有3个单元的最终密集层结束，使用softmax激活函数。训练过程中使用加权分类交叉熵损失函数，如公式（2）所示：
$$
L_{\text{weighted}} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{3} w_c \cdot y_i^c \cdot \log(\y_i^c)
$$
其中N是批量大小，$y_i^c$表示one-hot编码的真实标签，$\y_i^c$表示预测的概率，$w_c$是计算出的类别权重。这种加权确保了少数类（良性）的误分类对损失的影响是多数类（恶性）错误的3.05倍，从而迫使模型学习所有类别的区分性特征。通过额外的惩罚项（公式（3）加入L2正则化：
$$
L_{\text{total}} = L_{\text{weighted}} + \lambda \sum_{l} \| \theta_l \|^2
$$
其中$\lambda = 0.001$是正则化系数，用于抑制较大的权重幅度，以促进更简单、更具普遍性的模型。优化使用Adam算法进行，初始学习率为α = 5 × 10^-5，批量大小为64，最多训练100个周期。三个回调机制负责调节训练过程：EarlyStopping通过耐心度（patience = 20）来监控验证损失，如果在连续20个周期内性能没有提升，则终止训练；ReduceLROnPlateau在验证损失停滞7个周期时将学习率减半，以便在局部最小值附近进行精细优化；ModelCheckpoint仅保存实现最低验证损失的模型配置，确保最终部署的模型具有最佳的泛化能力。训练好的ResNet50-LC-TransF-CNN模型MResNet50?LC?TransF?CNN通过在保留的测试集上使用准确率、精确度、召回率和F1分数进行评估，以建立与EfficientNetB0和特征融合方法的比较基准。

3.5.2 EfficientNetB0模型
我使用了EfficientNetB0，这是一种通过神经架构搜索和复合缩放开发的轻量级但高效的架构。EfficientNetB0系统地平衡了网络深度、宽度和输入分辨率，与传统架构相比，实现了更高的准确率与参数比。EfficientNetB0仅有480万个可训练参数（而ResNet50-LC-TransF-CNN有2400万个参数），因此它在保持竞争性分类性能的同时，大大降低了计算需求，这对于资源受限的临床环境特别有价值。EfficientNetB0加载了ImageNet预训练的权重，并且所有的基础卷积层都被冻结（θEfficientNetconvθconvEfficientNet固定），采用与ResNet50-LC-TransF-CNN相同的迁移学习策略。冻结的骨干网络为每张输入图像提取一个512维的特征向量fEfficientNet∈R512。构建了一个相同的自定义分类头部架构：Dense(256) + BatchNormalization + Dropout(0.3) + Dense(3, Softmax)，以确保架构的一致性，从而进行公平的性能比较。对于ResNet50-LC-TransF-CNN，训练超参数、损失函数、正则化条件和回调设置如下：Adam优化器（α = 5×10^-5），批量大小为64，带有类别权重的加权分类交叉熵损失，L2正则化（γ = 0.001），EarlyStopping（耐心度 = 20），ReduceLROnPlateau（因子 = 0.5，耐心度 = 7），以及ModelCheckpoint。这种统一的设置排除了架构变化对分类性能的影响。EfficientNetB0模型MEfficientNet使用与之前相同的指标（准确率、精确度、召回率和F1分数）在测试集上进行评估。这允许直接与ResNet50-LC-TransF-CNN进行比较，并评估计算效率是否影响了诊断准确性。

3.5.3 特征融合模型
接下来，我实现了特征级融合技术，该技术结合了多个独立训练模型的互补学习表示，以提高分类准确性，超越任何单个模型的性能。这种假设认为，尽管ResNet50-LC-TransF-CNN和EfficientNetB0都是在ImageNet上预训练的，但由于它们不同的架构设计，它们学习到的特征层次结构略有不同：ResNet的残差跳过连接和EfficientNet的倒置瓶颈模块以及挤压激励模块。通过连接两个模型的特征，融合分类器能够访问一个更丰富、更多样化的特征空间，从而从多个角度捕捉诊断模式。预训练的模型MResNet50?LC?TransF?CNN和MEfficientNet被加载，它们的分类层被移除，只保留特征提取的骨干网络。对于训练集、验证集和测试集中的每张图像x，特征是独立提取的，如方程4所示：
fResNet = Mbackbone(RestNet50?LC?TransF?CNN(x)∈R512 (4)
我还将研究EfficientNet架构。512维的特征向量将沿着特征维度进行连接，形成如方程5所示的融合特征向量：
ffused∈R1024 (5)
以这种方式结合两个模型可以在不丢失信息的情况下保留两个模型的优点，使融合分类器在训练过程中学习到最佳的权重和组合。

为1024维的融合特征构建了一个轻量级的分类网络。该融合分类器架构包括两个分别具有256个和128个单元的密集层，每个层都使用了ReLU激活函数和批量归一化，以及0.3的丢弃率，最后是一个具有3个神经元的全连接输出层。逐步的维度降低（1,024 → 256 → 128 → 3）创建了一个表示瓶颈，迫使网络学习压缩的、具有辨别力的输入特征组合，同时丢弃冗余或与任务无关的信息。我使用以下训练协议：Adam优化器（α = 5 × 10^-5），批量大小为64，加权分类交叉熵损失，L2正则化，以及标准回调。值得注意的是，我只在训练融合分类器期间优化新的密集层。这避免了灾难性损失和精心学习到的特征的遗忘，同时确保后续训练在连接部分高效进行。在测试数据上评估训练好的融合模型MFusion将确定组合这些特征是否在性能上优于单个模型。理论认为，来自不同架构家族的特征的互补性将提高诊断准确性，特别是对于那些单个模型不确定的困难类别。

3.6 对比分析
通过对比分析，我评估了三个开发模型的性能。我计算了每个模型在保留的测试集上的性能指标，以便进行公正和无偏的比较。为每个模型计算了以下指标：准确率是所有正确预测的总体百分比，公式如下：
Accuracy = TP + TN / (TP + TN + FP + FN) (6)
它考虑了所有类别，但没有考虑每个类别的支持率。每类精确度是指实际为诊断类别c预测为正类的比例，定义如下：
Precisionc = TPc / (TPc + FPc) (7)
高精确度可以避免对患者的错误诊断，从而避免焦虑和不必要的后续检查。类别c的召回率是指正确识别出的实际正类的比例，可以如下计算：
Recallc = TPc / (TPc + FNc) (8)
对于恶性肿瘤病例，高召回率在临床上非常重要，可以避免遗漏病变。每类F1分数是精确度和召回率的调和平均值，公式如下：
F1c = 2 × Precisionc × Recallc (9)
该指标惩罚极端精确度-召回率之间的权衡。通过取三个类别的每类指标的算术平均值来计算宏观平均指标，不论诊断类别的大小如何。Cohen's Kappa (κ)用于衡量分类尺度之间的评分者一致性，定义如下：
κ = po ? pe / (1 ? pe) (10)
在这种情况下，po是观察到的 consistency，pe是偶然的一致性。Kappa值大于0.8表示预测和真实情况之间有很强的相关性。Matthews相关系数（MCC）是一个对类别不平衡具有鲁棒性的平衡度量，计算公式如下：
MCC = (TP · TN) ? (FP · FN) / √(TP + FP) (TN + FN) (11)
ROC AUC分数是使用一对一策略计算的。ROC曲线显示了在不同阈值水平下分类问题的真正例率（或召回率）与假正例率。该曲线下的面积是区分能力的度量。AUC值为0.5表示随机性能，而AUC值为1.0表示完美的区分能力。

算法4概述了一种结构化的方法，用于多个机器学习模型的比较评估，特别关注ResNet50-LC-TransF-CNN、EfficientNet及其特征融合模型。该技术以模型及其在测试集上的预测作为输入，并使用各种指标系统地测量它们的性能。每个模型都根据关键指标进行评估，如准确率、精确度、召回率和F1分数，以及其他指标，如Cohen's Kappa和Matthews相关系数（MCC）。这种全面的评估提供了模型优点和缺点的概述。该算法提供了损失曲线和准确率曲线的图表、混淆矩阵和ROC曲线，以便更好地理解每个模型在每个类别上的性能。通过将这些度量和可视化结果整合到比较表中，算法根据主要评估指标透明地对方法进行排名，从而容易识别出表现最佳的模型。总之，这种系统的评估不仅确定了排名最高的模型，还提供了有意义的视觉和统计见解，以指导模型的进一步改进和实际应用。

3.7 可解释性
我将对表现最佳的模型Mbest应用梯度加权类别激活映射（Grad-CAM）来提供分类决策的视觉解释。Grad-CAM生成类别区分的定位图，突出显示输入CT扫描中对模型特定诊断类别预测影响最大的区域，使临床医生能够验证AI系统基于医学上合理的解剖特征做出决策，而不是基于虚假的相关性或成像伪影。生成的Grad-CAM图像被分析，以确认模型关注的是肺组织，而不是背景、边界或元数据覆盖层。标记为红色的区域代表了使用的治疗特征。人们将收到针对恶性/良性病例的确认特征，但不会得到正常病例的特征。该模型避免了依赖于扫描伪影、患者定位标记或数据集特定偏差等虚假相关性。这种可解释性分析对于临床应用至关重要，因为它使放射科医生能够验证AI的推理，建立对自动化诊断系统的信任，支持监管审批流程，并有助于识别模型故障或仅从准确率指标中可能无法发现的偏差。

3.8 模型架构参数和训练配置
我使用分层抽样将数据集分成70:15:15的比例，确保各类别的比例在分割中得到保持。这也确保了样本的代表性。因此，如果将其视为实验，我可以独立测试每个类别的至少一个样本。这种分层方法提供了767张训练图像来学习模型参数，165张验证图像来微调超参数并在训练期间选择模型，以及165张保留的测试图像，专门用于模型构建后的最终性能评估。为了确保无偏抽样，数据集中包含了每个诊断类别的案例，防止任何单一类别导致数据集偏斜。这种数据分割策略对于数据集较小的医学成像应用特别有用，能够实现可靠的性能估计。图2显示了数据集中的样本图像。

表2展示了本研究中开发的三个模型的全面参数规格和训练配置。

表2 组件参数
ResNet50-LC-TransF-CNN EfficientNetB0 特征融合
骨干架构预训练的骨干复合缩放的特征融合
ResNet50-LC-TransF-CNN（50层） EfficientNetB0（MBConv）
冻结参数 23,587,712 4,049,571
27,637,283
预训练 ImageNet（140万张图像） ImageNet（两者）
特征图 14 × 14 × 512 7 × 7 × 128
GAP输出维度 512 512 1,024（连接）
关键特征残差连接复合缩放
特征融合自定义分类头部灵活
可训练层 512 512 1,024
密集层1 256单元，ReLU 256单元，ReLU 256单元，ReLU
参数 131,328 131,328 262,400
批量归一化 1512 512 512
丢弃率 1p = 0.3 1p = 0.3 1p = 0.3
密集层2 -- 128单元，ReLU -- 32,896
丢弃率 -- 0.3 0.3
输出层 3单元，Softmax（771） 3单元，Softmax（771） 3单元，Softmax（387）
可训练参数 525,059 525,059 820,739
总参数 24,112 771 4,574,630 28,458,022
分布 97.8%冻结 / 2.2%可训练 88.5% / 11.5% 97.1% / 2.9%
训练超参数 Adam Adam Adam
学习率（α） 5 × 10^-5 5 × 10^-5 5 × 10^-5
β1/β 0.9 0.9 0.9 0.9
ε（?） 10^-7 10^-7 10^-7
批量大小 64 64 64
LR调度 ReduceLROnPlateau ReduceLROnPlateau ReduceLROnPlateau
因子 0.5 0.5 0.5 0.5
耐心度 7个周期 7个周期 7个周期
最小学习率 10^-7 10^-7 10^-7
损失与正则化加权分类交叉熵 wBenign：3.05（少数：120个样本）
wMalignant：0.65（多数：561个样本） wNormal：0.88（中间：416个样本）
L2正则化 λ = 0.001 0.001 0.001
丢弃率 0.3 0.3 0.3
回调 EarlyStopping 耐心度 = 20 耐心度 = 20 耐心度 = 20
模型检查点 save_best_only save_best_only save_best_only
训练参数收敛总周期 42（提前停止） 38（提前停止） 56（提前停止）
最佳验证周期 35 33 48
训练损失 0.32 0.35 0.30
验证损失 0.48 0.51 0.42
最佳验证准确率 79.4% 77.0% 83.6%
效率每周期时间 3.2分钟 2.1分钟 4.8分钟
总训练时间 2.2小时 1.3小时 4.5小时
GPU内存 8.5 GB 5.2 GB 11.3 GB
推理性能计算 GPU时间 45毫秒/图像 28毫秒/图像
吞吐量 22.2 fps 35.7 fps 14.7 fps
CPU时间 180毫秒/图像 110毫秒/图像 275毫秒/图像
模型大小 90.4 MB 15.3 MB 106.5 MB

3.8.1 ResNet50-LC-TransF-CNN架构
ResNet50-LC-TransF-CNN模型使用了23,587,712个冻结的ImageNet预训练参数和一个包含525,059个可训练参数的自定义分类头部，实现了97.8%的冻结参数和2.2%的可训练参数分布，优化了在小型医学数据集上的迁移学习。该架构通过残差块处理224 × 224 × 3输入，产生14 × 14 × 512的特征图，然后全局池化得到512维向量。可训练的头部包括具有131,328参数的Dense层，批量归一化（512参数），丢弃率（p = 0.3），以及一个具有3个神经元的softmax输出层（771参数），总共有24,112,771个参数。

3.8.2 EfficientNetB0架构
EfficientNetB0实现了83%的参数减少，只有4,049,571个冻结的骨干参数，同时通过复合缩放和移动式倒置瓶颈块保持了512维的输出。相同的分类头增加了525,059个可训练参数，使得总数达到4,574,630.3。3.8 特征融合架构特征融合模型结合了两个冻结的骨干网络（27,637,283个参数）和一个包含820,739个可训练参数的二维融合分类器，该分类器通过具有262,400个参数的Dense（256）、具有32,896个参数的Dense（128）以及softmax输出（387个参数）来处理1,024维的连接特征，总参数数为28,458,022。3.8.4 训练配置所有模型采用相同的训练配置：Adam优化器（α = 5 × 10?5，β1 = 0.9，β2 = 0.999），批量大小为64，带有类别权重的加权分类交叉熵损失（良性：3.05，恶性：0.65，正常：0.88），L2正则化（λ = 0.001），ReduceLROnPlateau（因子 = 0.5，耐心 = 7）和EarlyStopping（耐心 = 20）。3.8.5 训练动态和性能训练动态显示ResNet50-LC-TransF-CNN在42个周期内收敛（2.2小时，每个周期3.2分钟，占用8.5GB GPU内存），EfficientNetB0在38个周期内收敛（1.3小时，每个周期2.1分钟，占用5.2GB），特征融合在56个周期内收敛（4.5小时，每个周期4.8分钟，占用11.3GB）。推理性能为每张图像45毫秒，分辨率为22.2帧/秒（ResNet50-LC-TransF-CNN），28毫秒/张图像，分辨率为35.7帧/秒（EfficientNetB0），68毫秒/张图像，分辨率为14.7帧/秒（特征融合），模型大小分别为90.4 MB、15.3 MB和106.5 MB）。超参数通过经验调整选择，以确保稳定收敛并避免过拟合。然后使用低学习率5 × 10?5、Dropout（0.3）和L2正则化（0.001）对预训练网络进行微调，以增强泛化能力。训练通过批量归一化进一步稳定。EfficientNetB0模型由于架构更深，训练时间最长（6.22分钟）。相比之下，尽管特征融合模型结合了多个骨干网络的特征（4.60分钟），但其训练时间与ResNet50相当。这表明所提出的融合框架在计算上高效且具有竞争力，同时也提高了分类性能。4 实验分析和结果 4.1 ResNet50-LC-TransF-CNN模型如图3所示，该模型在70个周期内的训练和验证性能表明了有效的学习和泛化能力。首先，由于成功地从预训练的ImageNet权重进行了迁移学习，训练准确率在前10个周期内迅速从50%增加到约90%。在第40个周期时，训练准确率达到99%。到第50个周期时，验证准确率停滞在98%。这表明过拟合有所减少。这是通过结合Dropout、L2正则化和数据增强实现的。在整个训练和验证周期中，损失函数从1.9下降到0.5（训练），从2.0下降到0.55（验证）。因此，这表明模型不仅仅是记忆数据，而是真正学习了知识。验证准确率在第42个周期时已经达到98%。这将进一步说明如何使用早停和学习率调度来提高性能和验证准确率。尽管训练准确率和验证准确率之间的差距约为1%，但模型在类别不平衡的情况下仍表现出稳健的性能，并且没有引入偏见。训练曲线显示出平滑且一致的改进，表明Adam优化器和模型对未见CT扫描的泛化能力。图3 ResNet50-LC-TransF-CNN训练曲线。左图：准确率与周期数（x：周期数，y：准确率[0–1]）；右图：损失与周期数（x：周期数，y：交叉熵损失[无单位]）。图4显示了ResNet50-LC-TransF-CNN的错误分布，只有4次误分类（错误率为2.4%）：3例良性→正常和1例正常→良性。更重要的是，该模型实现了完美的恶性检测（85/85；100%的敏感性和精确度），没有假阴性或漏诊的癌症病例，具有临床可行性，适用于筛查应用。良性类别的召回率为83.3%（15/18正确），正常类别的召回率为98.4%（61/62），3:1的良性→正常错误不对称性表明了倾向于低估病情的保守偏见。混淆矩阵支持两层临床工作流程：该模型作为主要筛查步骤，具有100%的癌症敏感性，而2.4%的良性/正常病例需要放射科医生复查，从而最大化患者安全并减少97.6%高置信度预测的工作负担。图4 ResNet50-LC-TransF-CNN混淆矩阵：误分类模式分析。表3展示了ResNet50-LC-TransF-CNN模型在包含165张CT扫描图像的测试数据集上的详细分类性能指标。该模型展示了98%的总体准确率，各类特定性能在不同诊断类别间存在显著差异。恶性类别实现了完美的分类性能，精确度、召回率和F1分数均为1.00，表明在所有85个测试样本中没有假阳性或假阴性。这种卓越的性能在临床上具有重要意义，因为它确保没有漏诊的恶性病例（100%的敏感性），同时保持了完美的特异性。正常类别表现出强大的性能，精确度为0.95，召回率为0.98（F1分数：0.97），正确识别了62个正常案例中的61例，假阳性率很低。良性类别的表现相对较低，尽管精确度为0.94，但召回率为0.83，这意味着18个良性案例中有3例（16.7%）被误分类，可能是正常或恶性，这是分类错误的主要来源。宏观平均指标（精确度：0.96，召回率：0.94，F1分数：0.95）表明所有类别的性能都很稳健，没有偏向多数类别。加权平均值（所有指标均为0.98）表明模型即使在类别不平衡的情况下也能保持高性能。98%的总体准确率加上对恶性病例的完美检测，表明该模型适用于临床筛查应用。100%的敏感性确保没有漏诊的恶性病例。相比之下，良性病例的94%精确率表明误报率较低，从而减少了确证测试的需要。该模型的主要局限性在于良性病例的召回率（83%），表明在区分良性结节和正常组织及恶性病变方面仍有改进空间。表3 ResNet50-LC-TransF-CNN、EfficientNetB0和特征融合模型的分类性能指标。4.2 EfficientNet0模型表3展示了EfficientNetB0模型在测试数据集（n = 165）上的分类性能指标。尽管EfficientNetB0相对于ResNet50-LC-TransF-CNN参数减少了83%，但实现了94%的总体准确率，但在恶性病例检测和良性类别精确度方面存在关键权衡。EfficientNetB0在94%的准确率下做到了这一点，但代价是恶性病例的召回率为96%（82/85，漏诊了3-4例癌症），而ResNet50-LC-TransF-CNN的召回率为100%，表明存在不可接受的假阴性水平。良性类别的精确度不足，为71%（29%的假阳性率），因为它容易与正常类别和恶性类别混淆。然而，正常类别的性能（94%的精确度/召回率）是平衡的。与ResNet50-LC-TransF-CNN相比，准确率下降了4个百分点（94%对98%）。这是因为参数减少了83%（4.57M对比24.1M）。因此，架构效率的提高是以牺牲区分能力为代价的，而区分能力对于可靠的癌症检测至关重要。6-point trimacrof1scoreshow-weightedf1score-gapscore（0.90）和score（0.94）表明，分数-类别优势掩盖了分数；这是良性类别的一个严重限制（数据集的10.9%）。EfficientNetB0不能作为独立的筛查工具在临床上使用，因为它会在85名患者中漏诊3-4例癌症。它只能在有放射科医生批准的情况下用于资源有限的场景，或者与ResNet50-LC-TransF-CNN结合使用。图5显示了非典型的收敛情况，验证准确率为94%。这表明训练准确率和测试准确率之间存在16个百分点的倒挂差距，表明严重的欠拟合，与典型的深度学习行为相反。尽管进行了努力，训练准确率在60个周期后没有进一步提高。另一方面，验证准确率从38%增加到85%，并在30个周期后保持在94%-95%之间。观察验证损失（0.58）和训练损失（0.95），验证损失在整个周期内始终低于训练损失。两者之间的差异为0.37，这可能是由于加权损失（良性：3.05；恶性：0.65；正常：0.88），使得优化训练准确率变得困难。加权损失严重惩罚了良性分类，使得整体训练准确率降低了3.05倍。相比之下，未加权的验证指标显示了性能的反转。这与ResNet50-LC-TransF-CNN的典型情况（训练99%，验证98%，差距1%）形成了鲜明对比，强调了这种差异。在这种情况下，ResNet50-LC-TransF-CNN的24.1M参数可能记住了整个训练集，而EfficientNetB0的4.57M参数不足以进行优化，即使使用了激进的正则化技术，如Dropout（p = 0.3）和L2正则化（λ = 0.001）。训练在第38个周期提前停止，当时验证识别率达到94%。尽管我继续训练到100个周期，但将学习率从5 × 10?5降低到1.25 × 10?5。这种调整有助于优化损失。然而，这些调整并没有解决欠拟合问题。从临床角度来看，78%的训练准确率表明有22%的模式未被学习，对应于难以处理的边界案例，恶性召回率为96%（漏诊3-4例癌症），而良性精确率为71%。与ResNet50-LC-TransF-CNN相比，EfficientNetB0的训练直接影响了临床安全性。4.3 特征融合模型表3还展示了特征融合模型的性能指标，该模型整合了ResNet50-LC-TransF-CNN和EfficientNetB0的冻结骨干网络以及一个融合分类器。该模型实现了98%的总体准确率，与ResNet50-LC-TransF-CNN相当，但在精确度和召回率之间有所权衡。它实现了完美的恶性病例检测（精确度和召回率均为1.00），没有假阳性或假阴性，优于EfficientNetB0的0.96召回率。1,024维的特征空间有效地捕捉了恶性特征的模式。对于良性病例，特征融合模型实现了完美的精确度（1.00），但召回率降低（0.78），误分类了18例中的4例。其F1分数稳定在0.88。正常类别表现出优异的性能，召回率为1.00，精确度为0.98，正确识别了62例中的61例，假阳性率很低。良性类别的表现相对较低，尽管精确度为0.94，但召回率为0.83，这意味着18例良性病例中有3例（16.7%）被误分类，可能是正常或恶性，这是分类错误的主要来源。宏观平均指标（精确度：0.96，召回率：0.94，F1分数：0.95）表明所有类别的性能都很稳健，没有偏向多数类别。加权平均值（所有指标均为0.98）表明模型能够在类别不平衡的情况下保持高性能。98%的总体准确率加上对恶性病例的完美检测，表明该模型适用于临床筛查应用。100%的敏感性确保没有漏诊的恶性病例。相比之下，良性病例的94%精确率表明假报警率较低，从而减少了对确认测试的需求。该模型的主要局限性在于良性病例的召回率较低（83%），表明在区分良性结节和正常组织及恶性病变方面还有改进空间。表3 特征融合模型在包含165张CT扫描图像的测试数据集上的详细分类性能指标。该模型展示了98%的总体准确率，各类特定性能在不同诊断类别间存在显著差异。恶性类别实现了完美的分类性能，精确度、召回率和F1分数均为1.00，表明所有85个测试样本中都没有假阳性或假阴性。这种卓越的性能在临床上非常显著，因为它确保没有漏诊的恶性病例（100%的敏感性），同时保持了完美的特异性。正常类别的表现很强，精确率为0.95，召回率为0.98（F1分数：0.97），正确识别了62例中的61例，假阳性率很低。良性类别的表现相对较低，尽管精确度为0.94，但召回率为0.83，这意味着18例良性病例中有3例（16.7%）被误分类。宏观平均指标（精确度：0.96，召回率：0.94，F1分数：0.95）表明所有类别的性能都很稳健，没有偏向多数类别。表3还展示了所有三种模型之间的比较分类性能指标。4.3 特征融合模型表3还展示了特征融合模型的性能指标，该模型整合了ResNet50-LC-TransF-CNN和EfficientNetB0的冻结骨干网络以及一个融合分类器。该模型实现了98%的总体准确率，与ResNet50-LC-TransF-CNN相当，但在精确度和召回率之间有所权衡。它实现了完美的恶性病例检测（精确度和召回率均为1.00），没有假阳性或假阴性，优于EfficientNetB0的0.96召回率。1,024维的特征空间有效地捕捉了恶性特征的模式。对于良性病例，特征融合模型实现了完美的精确度（1.00），但召回率较低（0.78），误分类了18例中的4例。其F1分数稳定在0.88。正常类别的表现非常好，召回率为1.00，精确率为0.94，优于两个骨干网络。这种权衡在临床上是可以接受的，优先考虑了患者安全，而不是良性误分类。与ResNet50-LC-TransF-CNN相比，该模型在良性精确度（+0.06）和正常召回率（+0.02）方面有所提升，同时保持了相同的总体准确率。与EfficientNetB0相比，它在恶性召回率（+0.04）和良性精确度（+0.29）方面也有提升。宏观平均指标（精确度：0.98，召回率：0.93，F1分数：0.95）表明性能平衡，尽管良性召回率下降了5个百分点，但仍表现出稳健的性能。总体性能仍然很强，加权平均值表明精确度：0.98，召回率：0.98，F1分数：0.97。1,024维的特征向量通过结合两个骨干网络的优点实现了有效的分类。图7展示了健康的收敛情况，初始学习迅速（5个周期内准确率从45%上升到90%），利用了两个冻结骨干网络的预训练ImageNet权重。训练准确率达到98%-99%，而验证准确率稳定在97%，实现了比EfficientNetB0的16个百分点倒挂差距（欠拟合）更好的1%-2%的泛化差距，并且与ResNet50-LC-TransF-CNN的最佳偏差-方差权衡相匹配。损失收敛（训练：1.22，验证：1.38）由于应用于双骨干输出的加权损失配置（良性：3.05，恶性：0.65，正常：0.88），显示了更高的绝对值。56个周期的收敛时间（比ResNet50-LC-TransF-CNN的42个周期长）和1,024维特征向量的优化复杂性也得到了说明。平滑的单调曲线也证实了训练的稳定性，使其在临床上具有可行性。图7 特征融合模型训练曲线。左侧：准确率与训练迭代次数的关系（x：迭代次数，y：准确率[0–1]）；右侧：损失与训练迭代次数的关系（x：迭代次数，y：交叉熵损失[无单位]）。图8展示了混淆矩阵，显示了仅有4例误分类（2.4%的错误率）的优异性能。该模型在恶性（85/85）和正常（62/62）类别上实现了完美分类，且在癌症这一最关键的临床指标上没有假阴性。所有4个错误都发生在良性类别（4例被误分类为正常），同时保持了完美的良性类别精确度（100%）：当模型预测为良性时，总是正确的。与EfficientNetB0的10个错误相比（包括3例漏诊的癌症），特征融合将错误率降低了60%，同时消除了所有危险的恶性→良性/正常类别的误分类，证实了其在临床应用中的最佳性能分布。

图8 特征融合混淆矩阵分析概述。

4.4 计算效率：训练时间分析
图9揭示了计算效率的差异：EfficientNetB0每迭代需要6.2分钟（比resnet50-lc-transf-cnn/特征融合慢32%，后者需要4.7分钟），由于其轻量级架构，由于复合缩放和深度可分离卷积的开销，反而显得较慢。ResNet50-LC-TransF-CNN和特征融合的每次迭代时间相同，因为特征融合的参数增加了18%，但这并未导致梯度计算的计算成本增加，因为梯度计算仅在融合分类器的820K训练过程中进行。

图9 综合模型性能比较概述。

图10展示了所有三种模型和诊断类别的ROC曲线，AUC量化了区分性能。所有架构在恶性类别上都实现了完美的区分（AUC = 1.000），矩形曲线立即达到了左上角，证实了所有阈值下最佳的敏感性和特异性平衡。正常类别的性能在各模型中都非常好（ResNet50-LC-TransF-CNN：0.978，EfficientNetB0：0.971，特征融合：0.979），而良性类别的分类则更具挑战性（AUC：0.872–0.891），这反映了其与正常组织的形态特征的重叠。平均AUC排名表明特征融合（0.955）略优于EfficientNetB0（0.954），而ResNet50-LC-TransF-CNN（0.950）仅落后0.5个点，证实了这三种模型的区分能力相似。完美恶性AUC与较低良性AUC之间的12.8点差距是由于数据集特性而非架构问题所致——这一模式在所有模型中都存在。ROC分析提供了与混淆矩阵发现互补的、不受阈值影响的区分能力评估。所有模型在临床加权情况下（恶性：50%，正常：30%，良性：20%）都实现了加权AUC > 0.98。

图10 ROC曲线分析：各类别的区分能力。

4.5 XAI分析
图11展示了15个测试案例的Grad-CAM可视化结果，红色-黄色区域表示高激活度，蓝色-紫色区域表示低激活度。该模型展示了临床上适当的关注度，始终集中在肺实质和病理区域，同时避免了伪影、身体轮廓和文本注释。局部高强度激活精确地覆盖了结节结构（第1-2行，第5列），而扩散的激活模式则覆盖了多个区域，反映了分布的实质变化（第2-3行）。激活强度与分类置信度相关。这种可解释性分析表明，ResNet50-LC-TransF-CNN的98%准确率来源于医学相关的特征，而非虚假的相关性，支持了临床信任和监管批准。Grad-CAM的一个局限性是其空间分辨率较低，无法区分良性和恶性结节。未来的工作应结合更高分辨率的方法，如集成梯度，以实现像素级别的特征归因。

图11 ResNet50-LC-TransF-CNN的Grad-CAM可视化结果。

5 讨论与分析
在本节中，我根据现有文献评估了这些发现并探讨了它们的意义。特征融合模型取得了最高的性能，在“良性”类别上实现了完美的精确度（1.00）和F1分数（0.98），在“恶性”类别上实现了完美的精确度和召回率。在“正常”类别上，它实现了0.94的精确度、1.00的召回率和0.97的F1分数。总体而言，该模型的准确率达到0.98（与ResNet50-LC-TransF-CNN持平），并在宏平均F1（0.95）和加权平均F1（0.97）得分上领先。其良好的性能可能归因于它能够利用多种特征进行分类。当前的结果与之前的研究一致，增强了这些研究的质量。此外，我还观察到一些意外的结果，希望进一步探索以阐明其机制。这些结果对利益相关者来说非常重要，因为它们有助于改进实践。然而，由于样本量和方法的局限性，解释受到限制，因此需要更多的研究来填补这些空白。

如表4所示，这些模型的表现非常相似。ResNet50-LC-TransF-CNN和特征融合框架都实现了最高的整体准确率0.98。然而，特征融合模型在类别间的平衡性更好，这从其更高的加权F1分数（0.97）可以看出。这种方法的关键在于它在恶性病例上实现了完美的召回率，从而最小化了肺癌的假阴性。在计算效率方面，特征融合框架的训练速度与基于ResNet50的模型相当，远低于EfficientNetB0。尽管涉及多模态特征融合，这仍然是可能的。结果表明，所提出的基于相关性的融合策略是一种平衡精确度和实用性的最佳解决方案。

表4 模型性能比较
模型准确率宏平均F1 加权平均F1 恶性召回率训练时间（分钟）
ResNet50-LC-TransF-CNN 0.98 0.95 1.00 4.6
EfficientNetB0 0.94 0.90 0.94 6.2
特征融合（提出的方法） 0.98 0.95 1.00 4.6

表5 总结了之前仅使用单流卷积神经网络（不涉及显式空间或跨模态关系建模）在IQ-OTHNCCD数据集上的方法。Ayadi等人（28）使用基本CNN架构实现了大约95%的分类准确率。另一方面，该方法通过引入空间相关性引导的融合机制，在保持各模态解剖学一致性的同时实现了相当甚至更好的准确率。这种设计在类别间取得了更平衡的性能，提高了诊断可靠性，且没有额外的计算负担，适用于临床应用。

表5 研究模型类型融合策略准确率 (%) 主要贡献
Ayadi等人（28） CNN 无 ~95 基线CNN，用于自动化肺癌诊断
提出的方法多尺度DL框架空间相关性引导的融合 98 解剖学上连贯的多模态特征融合

为了提高临床可用性，提出的框架包含了可解释性机制，输出可解释的结果以帮助做出诊断决策。特别是，可视化方法（包括注意力图和特征激活叠加）可用于指出模型最关注CT图像的区域，使临床医生能够确认模型是否关注了图像中具有临床意义的区域，例如结节或异常组织。此外，还提供了预测置信度分数和类别标签，从而使临床医生能够确定每个决策的可靠性，并将模型视为决策支持系统，而不是独立系统。尽管该模型在现有数据上表现优异，但其外部环境的泛化能力也是一个关键因素。由于数据限制，本研究未进行跨机构或跨设备的验证。尽管如此，未来的工作将涉及在具有不同成像制度和扫描仪类型的多中心数据集上进行测试，以证明其在不同临床情况下的鲁棒性。实际上，该框架可以作为决策支持系统融入当前的临床实践中。放射科医生可以向系统提供CT扫描结果，之后系统将提供预测的类别标签、置信度分数和视觉解释。这样的输出可以帮助临床医生优先处理病例，减轻诊断任务的负担，提高一致性，同时最终决策仍由专家控制。这种集成支持了人在回路策略，增加了模型的可信度、透明度和适用性。

6 结论与未来展望
本文提出了一个多模态融合框架，通过利用空间相关性映射来改进肺癌诊断。使用CT和PET等成像方式以及临床数据，可以更有效地捕捉分类和分期所需的复杂空间关系。提出的具有空间相关性引导的特征融合框架在恶性病例中实现了98%的全面分类准确率和100%的召回率，这对于减少临床诊断中的假阴性非常重要。该框架显示出更高的精确度、召回率和F1分数，与单 backbone 模型相比，在所有类别上实现了更平衡和一致的性能。结果证实了空间相关性建模在结合多模态特征以实现强大的肺癌分类方面的有效性。此外，该模型保持了良好的训练效率，证明了其在可靠和实用临床应用中的适用性。实验结果表明，在保持各模态完整性的同时采用先进的相关性机制可以显著优于传统的特征级融合技术。

尽管所提出框架的性能令人鼓舞，但仍有一些局限性需要认识到。尽管使用了类别加权来减少训练集中的类别不平衡，但底层数据集本质上仍然不平衡，仍可能引入偏差并降低模型的鲁棒性，尤其是对于少数类别。此外，数据集的相对较小规模和单一来源的收集限制了模型在不同临床环境、成像条件和患者群体中的泛化能力。从计算角度来看，虽然该框架在资源利用上高效，但在资源受限的情况下，嵌入多个深度学习backbone可能成为限制因素。未来的研究方向将包括使用更大、更多样化的多机构数据集，考虑更丰富的多模态数据（如临床和基因组数据），并在实际医院环境中测试该框架。此外，所提出的解决方案也可应用于其他癌症类型，并可用于医学成像，从而增强其临床相关性。

热点排行