基于早期与中间融合的多模态深度学习在肺部疾病诊断中的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《AI》：Comparison Between Early and Intermediate Fusion of Multimodal Techniques: Lung Disease Diagnosis

【字体：大中小】 时间：2026年01月12日 来源：AI 5

编辑推荐：

　　本综述系统比较了早期融合（Early Fusion）与中间融合（Intermediate Fusion）两种多模态策略在肺部疾病诊断中的性能。研究整合胸部X光（CXR）、计算机断层扫描（CT）和咳嗽声音三种异构数据，采用Xception和卷积神经网络（CNN）架构，证实多模态学习（特别是中间融合，准确率达98%）显著优于单一模态模型，为提升诊断准确性及可靠性提供了实证依据。

背景与引言

肺部疾病如COVID-19、肺炎和肺癌是全球主要的健康威胁，早期准确诊断对治疗和患者管理至关重要。传统的单模态诊断模型往往依赖于单一数据类型，例如仅使用胸部X光图像或咳嗽声音，可能遗漏重要的临床信息。近年来，深度学习技术在医学影像分析中显示出巨大潜力，但单模态方法在处理复杂疾病时存在局限性，无法捕捉不同数据源之间的相关性。多模态学习方法通过整合多种数据源，有望克服这些限制，提供更全面、准确的诊断。

多模态数据融合策略

多模态数据融合主要分为三种策略：早期融合、中间融合和晚期融合。早期融合在输入层或特征提取的早期阶段将不同模态的数据直接拼接，然后输入到模型中进行处理。这种方法适用于模态间特征较为同质的场景，但对于异构模态（如图像和音频）的效果可能不理想。中间融合则先让每个模态的数据通过独立的编码器提取高层次的特征表示，然后在共享的潜在空间中进行融合，从而更好地学习模态间的交互关系。晚期融合则是分别训练每个模态的模型，最后通过加权平均或投票等方式整合预测结果，适用于模态间相关性较低的情况。本研究重点比较了早期融合和中间融合策略在肺部疾病诊断中的应用。

数据集与预处理

研究使用了来自多个公开数据库的胸部X光图像、CT扫描图像和咳嗽声音数据。数据集涵盖了COVID-19、肺炎、肺癌以及健康对照样本。由于原始数据存在严重的类别不平衡问题，研究采用了降采样和数据增强技术，将每个类别的样本数平衡至500个，以确保模型训练的公平性。对于咳嗽声音数据，首先通过梅尔频谱图技术将其转换为图像形式，以便与视觉数据一起输入到卷积神经网络中。所有图像数据均进行了灰度转换、裁剪、尺寸调整等预处理步骤，以消除无关信息并保持数据的一致性。

模型架构与实验设置

特征提取采用Xception模型，该模型基于深度可分离卷积构建，具有参数效率高和性能优越的特点。分类任务则由卷积神经网络完成。在早期融合模型中，三种模态的数据在特征提取后直接拼接，然后输入到分类器。在中间融合模型中，每种模态先通过独立的编码器进行处理，提取的特征再在中间层进行融合。实验在Kaggle平台上进行，使用NVIDIA Tesla P100 GPU进行训练。数据集按8:1:1的比例划分为训练集、验证集和测试集。模型采用Adam优化器，学习率为0.0001，批次大小为16，训练轮数为30，损失函数为分类交叉熵。

结果与讨论

实验结果表明，多模态学习方法显著优于单模态基线模型。使用中间融合策略的多模态模型达到了最高的分类准确率（98%），其次是早期融合模型（97%）。作为对比，仅使用胸部X光图像或CT扫描图像的单模态模型准确率为94%，而仅使用咳嗽声音的模型准确率为79%。中间融合模型在精确度、召回率、F1分数、AUC-ROC和AUC-PR等各项评估指标上均表现最佳。混淆矩阵显示，该模型对各类别样本的分类错误率极低。性能提升归因于中间融合策略能够有效捕捉不同模态之间的互补信息，同时减少噪声干扰。相比之下，早期融合由于在原始特征层面进行拼接，可能引入冗余或噪声，影响模型性能。单模态模型则由于信息有限，难以全面捕捉疾病的复杂特征。

结论与展望

本研究证实了多模态深度学习在肺部疾病诊断中的有效性，特别是中间融合策略能够整合胸部X光、CT扫描和咳嗽声音等多种数据源，显著提高诊断准确性和鲁棒性。未来的工作将集中于引入可解释人工智能技术，以增强模型决策的透明度，并探索在真实临床环境中的验证，以进一步推动其实际应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号