一种基于协同注意力的多模态数据融合模型，用于诊断职业性尘肺病

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：A fusion model of multimodal data based on cooperative attention for diagnosing occupational pneumoconiosis

【字体：大中小】 时间：2026年02月22日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　职业尘肺病多模态诊断中提出协作注意力融合方法，通过缩放注意力对齐不同模态特征，跨模态交互增强早期同质模态信息，级联双注意力机制融合后期异质模态，并采用非参数注意力优化加权融合，显著提升诊断准确性和鲁棒性。

钱赵|郭毅楠|龚敦伟|金印东

临沂大学自动化与电气工程学院，中国山东省临沂市276000

摘要

尘肺病是中国最常见且最严重的职业病，对公共卫生构成了重大挑战。尽管存在多种单模态诊断方法，但它们的准确性往往存在局限。整合多模态数据中的互补信息可以提供更全面和准确的诊断，有效降低误诊率。然而，现有的多模态融合方法在职业尘肺病领域的研究还不够充分。因此，本文提出了一种利用协作注意力机制的新型多模态数据融合方法，以提升职业尘肺病的诊断效果。首先，引入了一种缩放注意力机制来对齐特征表示，有效缓解不同模态之间的空间尺度差异，确保特征维度的一致性。接下来，开发了一种基于交叉注意力的交互机制，用于早期同质模态的融合，其中CXR和CT特征的独立模型分支相互作用，提取互补信息，结合CXR的全局感知和CT的局部细节，在弱监督学习框架下实现更精确的病变定位。此外，采用了一种级联双注意力机制进行后期异质模态的融合，捕捉医学图像与临床文本之间的深度交互关系，提高特征的相关性以增强分类性能。最后，引入了一种基于非参数注意力的多模态融合策略，优化多模态特征的加权融合，从而提高分类性能。通过充分利用不同模态之间的互补信息，该方法在尘肺病诊断方面取得了先进的结果。在自构建的数据集上进行了大量实验，证明所提出的模型在分类准确性和鲁棒性方面优于现有的先进方法。

引言

职业尘肺病是中国最常见的严重职业病之一。它是一种由长期吸入粉尘或矿物颗粒引起的进行性肺纤维化疾病[1]。国际劳工组织（ILO）根据胸部X光（CXR）将尘肺病分为四个阶段（正常、I期、II期和III期）。在早期阶段，肺部无法有效清除小于2.5微米的颗粒，导致慢性炎症、纤维化和呼吸衰竭[2]，[3]。根据2023年中国健康发展统计公报，全国报告了10.48亿例职业病，其中尘肺病占所有报告职业病的66.61%[4]。这些令人担忧的统计数据凸显了开发更准确和高效诊断方法的紧迫性，以防止职业尘肺病的进展并改善患者预后。

中国的国家职业健康标准要求对职业暴露史、CXR和临床症状进行全面评估以诊断尘肺病。然而，在实际临床诊断中仍存在挑战：CXR存在成像重叠和分辨率低的问题，这阻碍了早期检测；同时，不同成像模态下的病变表现存在显著异质性，使得特征识别变得复杂。此外，早期阶段的病变非常微妙且不典型，单独使用单模态方法会导致较高的误诊率。此外，包括患者症状、病史和实验室检测在内的临床文本提供了CXR和CT无法捕获的宝贵互补信息[5]，[6]，但当前的诊断仍然严重依赖专家解读：这种繁重的工作不仅导致主观性、不一致性和时间效率低下，还需要经验丰富的专家来确保诊断的可靠性。因此，需要一种自动化和数据驱动的方法来提高诊断的客观性和准确性[7]，[8]。随着许多单模态方法的性能逐渐达到瓶颈，融合多模态数据的技术越来越受到研究人员的关注。

根据深度学习中的融合阶段，多模态数据融合方法可以分为三类：像素级融合、决策级融合和特征级融合。像素级融合[9]涉及直接将不同模态的数据作为模型输入进行连接，适用于涉及小规模、相似模态的场景或需要在原始数据层进行分析的问题，如图像超分辨率重建、增强和恢复。然而，它容易受到噪声干扰且不稳定。此外，由于不同医学数据模态之间存在显著差异，像素级融合难以广泛应用于所有图像，直接连接2D和3D数据会导致信息不平衡。决策级融合[10]涉及分别从不同模态提取特征以获得与下游任务相关的后验概率，然后进行融合。然而，仅依赖决策层融合无法充分利用不同模态之间的潜在关系。因此，特征级融合是最常见的方法。与像素级融合相比，它减少了数据冗余和复杂性，最小化了噪声干扰[11]。同时，它保留了足够的数据信息，使得多模态特征能够进行深度交互。Xu等人[12]将实验室检测的边缘表示、临床信息和CT数据连接起来预测COVID-19感染。Zhang等人[13]提出了一种基于CNN和RNN的融合模型，使用时间信号、序列临床记录以及静态人口统计和入院数据作为不同分支的输入。特征连接是一种简单且常用的特征级融合方法，许多工作通常直接将来自多个单独训练的深度网络的边缘特征连接到分类器中。然而，这种方法在特征提取过程中缺乏对不同模态之间相关性的学习。边缘特征需要进一步转换为联合特征，以有效利用潜在信息并提高疾病诊断的准确性。

具体而言，职业尘肺病的多模态数据融合方法仍存在以下弱点：（1）如何补偿不同模态之间的空间尺度差异以提取一致的联合特征。（2）如何设计一种同质模态融合策略，将CXR的全局感知与CT的局部细节结合起来，以实现精确的病变特征识别。（3）如何捕捉图像和文本之间的深度交互信息，使异质模态融合模块更多地关注对分类结果至关重要的区域，最终实现有效的多模态特征融合。

因此，本文采用基于协作注意力的融合方法来实现多模态医学数据的联合建模，包括以下步骤：多模态数据对齐、交互和融合。对齐统一了不同模态的特征维度，以防止后续模型学习到有偏的表示。同质（异质）模态数据的交互是指通过挖掘同质（异质）模态之间的互补信息来增强每个模态特征的表示能力。融合是指合并不同模态的特征以获得最终的综合特征。基于此，本文提出了一种基于协作注意力的多模态融合方法，用于诊断职业尘肺病，这是第一项使用多模态医学数据对职业尘肺病进行分类的特征级融合研究。

主要内容包括以下四个方面：

•
基于缩放注意力机制的数据表示对齐方法。该策略学习成像数据中的潜在空间以进行特征提取，补偿模态之间的空间尺度差异，获得具有统一特征维度的表示。
•
提出了一种基于交叉注意力机制的早期同质模态特征交互方法。该方法为CXR和CT的提取特征构建了独立的分支，自动从另一个模态提取互补信息以增强其有价值的特征。这种方法在弱监督学习中结合了CXR的全局感知和CT的局部细节，以实现更准确的诊断。
•
提出了一种基于级联双注意力机制的晚期异质模态特征交互方法。该方法进一步捕捉图像和文本之间的深度交互信息，关注对分类结果至关重要的特征，提高模型的性能。
•
提出了一种基于非参数注意力机制的多模态数据特征融合方法。利用级联注意力机制为该模块分配权重，然后对多模态数据特征进行加权融合，获得最终特征。该方法充分利用了不同模态之间的互补信息，最终在诊断职业尘肺病方面取得了优异的结果。

本文的其余部分组织如下：第2节回顾相关工作；第3节介绍了基于协作注意力机制提出的多模态融合方法；第4节通过实验验证了所提方法的有效性；最后，第5节总结了本文并指出了未来研究的方向。

提出的诊断方法

为了使用多模态医学数据诊断不同阶段的职业尘肺病，本节提出了一种基于多模态融合的职业尘肺病联合学习方法。该方法的基本思想如下：首先提出了一种基于缩放注意力的多模态表示对齐方法。然后设计了一种交互方法，其中同质模态特征由交叉注意力引导，异质模态特征

实验

本节设计了三组实验。第一组实验探讨了多头注意力机制的参数敏感性。第二组实验逐一分析了所提出组件的有效性。第三组实验研究了不同医学数据模态对职业尘肺病诊断准确性的影响，并将本文提出的职业尘肺病诊断模型与

讨论

除了定量性能改进之外，所提出的MFCAM方法在与职业尘肺病诊断相关的跨模态特征融合方面展现了显著的创新，解决了长期存在的挑战。

首先，在跨模态对齐方面，现有的医学诊断多模态方法通常依赖于简单的特征连接[49]或线性投影[50]来统一特征维度，但这些方法未能

结论

尘肺病目前是中国最常见且最严重的职业病。虽然有许多使用单模态数据进行疾病预测的方法，但整合多模态数据中的互补信息可以提供更全面和准确的诊断，显著降低误诊率。因此，本文提出了一种利用协作注意力机制整合多模态数据的新方法，以提高职业尘肺病预测的准确性

CRediT作者贡献声明

钱赵：撰写——原始草案、可视化、验证、软件、方法论、调查、数据管理、概念化。郭毅楠：撰写——审稿与编辑、资源获取、调查、资金筹集。龚敦伟：撰写——审稿与编辑、项目管理、方法论、资金筹集、概念化。金印东：撰写——审稿与编辑、监督、数据管理。

伦理批准

获得患者的口头知情同意，以便在本文中发布他们的匿名信息。

资助

本工作得到了中国教育部系统控制与信息处理重点实验室基金会的支持，资助编号为Scip202203。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作