AeroCOPDNet：一种基于深度学习技术的框架，用于通过肺部声音检测慢性阻塞性肺疾病（COPD）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：AeroCOPDNet: A deep learning framework for COPD detection from lung sounds

【字体：大中小】 时间：2026年02月22日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　COPD肺音自动检测模型AeroCOPDNet通过时间-频率表示和轻量级CNN架构实现高效分类，在合并ICBHI和Fraiwan数据集上取得超过95%的敏感性和特异性，并验证了跨设备、跨人群的泛化能力。

Md Emran Hasan | Yue-Fang Wu | Dong-Jun Yu

南京理工大学计算机科学与工程学院，中国南京小灵威200号，210094

摘要

慢性阻塞性肺疾病（COPD）是全球发病率和死亡率的主要原因之一。传统的诊断方法如肺功能测定需要大量资源并且需要临床专业知识，这促使人们开发自动化、成本效益高的筛查工具。在本文中，我们提出了AeroCOPDNet，这是一个用于从肺音中自动检测COPD的深度学习框架。我们在两个公共来源的呼吸声音数据集上评估了我们的模型，这些数据集包含了COPD和非COPD病例的多样化组合。所提出的方法将音频信号转换为时频表示，并采用基于CNN的紧凑架构来区分受COPD影响的呼吸声音和其他声音。我们的结果显示了先进的性能；AeroCOPDNet在5折交叉验证中取得了最佳成绩。与强大的基线模型（Basic CNN、CRNN（CNN + RNN）、LSTM、GRU和MobileNetV2）相比，AeroCOPDNet提高了准确性，并提升了F1分数、AUROC和校准误差。AeroCOPDNet还优于一些增强策略，如不使用增强（基线）、+SpecAug（频谱图）和+Mixup，表明补充性增强在实现观察到的鲁棒性方面起着关键作用。AeroCOPDNet也优于其他架构变体，包括没有挤压-激励（squeeze-and-excite）和全局平均池化（global average pooling）的版本，以及结合了挤压-激励和全局平均池化的模型，以及仅使用全局平均池化的基线卷积神经网络。我们还将我们的结果与最近的先进方法进行了比较，并讨论了数据集多样性和增强对泛化能力的影响。研究结果表明，AeroCOPDNet可以提供一个可靠且易于使用的工具，用于早期COPD检测，有助于早期干预并改善患者预后。源代码和所有说明可在以下链接免费获取：https://github.com/emrancub/AeroCOPDNet.

引言

慢性阻塞性肺疾病（COPD）是一种常见的慢性肺部疾病，其特征是持续的呼吸系统症状和气流受限。COPD对全球健康产生了深远的影响，是导致死亡的主要原因之一，2019年约有323万人因此丧生[3]。世界卫生组织报告称COPD是全球第三大死因（2021年为第四大死因）[4]。早期诊断COPD对于管理症状和预防急性加重至关重要。临床医生通常依靠听诊肺音来检测与COPD相关的气道异常。然而，准确解读肺音需要丰富的专业知识，即使是医学实习生也经常误诊大约一半的肺音[5]。此外，听诊评估具有主观性，不同从业者之间的结果可能有所不同。这促使人们开发自动化、客观的方法来分析肺音以检测COPD。

近年来，计算机化的呼吸声音分析作为辅助诊断呼吸系统疾病的工具受到了关注[6]。特别是2017年的ICBHI（国际生物医学与健康信息学会议）呼吸声音数据库激发了大量应用信号处理和机器学习对肺音进行分类的研究[1]。传统方法探索了隐马尔可夫模型、决策树和支持向量机等技术，这些技术基于手工制作的特征[7]。最近，深度学习方法表现出更优越的性能[8]。研究人员已将循环神经网络、卷积神经网络（CNN）和混合模型应用于呼吸声音分类[9]。例如，提出了Bi-ResNet模型和基于注意力的CNN来识别异常的呼吸周期[10]。尽管取得了这些进展，但区分COPD特有的声音仍然具有挑战性。许多先前的研究在ICBHI数据集上仅报告了中等程度的敏感性和特异性[11]。例如，Yang等人（2023年）开发的BLNet模型在ICBHI数据集上的敏感性和特异性分别为66.3%和79.1%，表明有相当一部分COPD病例被遗漏，同时许多健康病例被错误地标记为COPD[5]。

现有研究的另一个局限性是缺乏跨单一数据集的泛化能力。模型在训练数据上通常表现良好，但其在现实世界中的实用性取决于能否泛化到其他患者群体和记录条件。为了解决这个问题，我们在本研究中考虑了两个不同的数据集。首先是ICBHI 2017挑战数据集，这是最大的公共呼吸声音存储库，包含来自126名患者的约5.5小时的音频记录[12]。这些记录是在七个胸部位置（气管；左侧/右侧前方；左侧/右侧后方；左侧/右侧侧面）使用四种不同的听诊器/麦克风设备（AKG C417L、3M Littmann Classic II SE、3M Littmann 3200、Welch Allyn Meditron）收集的[1]。第二个数据集由Fraiwan等人发布，他们使用电子听诊器记录了健康受试者和患有七种不同呼吸系统疾病（哮喘、心力衰竭、肺炎、支气管炎、胸腔积液、COPD）患者的肺音[2]。这个Fraiwan数据集为我们评估模型在不同人群和记录条件下的泛化能力提供了外部测试平台。它包括正常呼吸声音以及各种疾病的病理声音[2]。传统方法通常依赖于手工制作的声学特征（如能量、频域统计、小波系数）和经典分类器（如支持向量机或随机森林），但这些方法通常难以处理现实世界肺音记录的复杂性和噪声[7]。例如，在官方的ICBHI 60/40分割中，Serbes等人（基于特征的SVM）报告的准确率为约49.86%，而Jakovljevi? & Lon?ar-Turukalo（HMM-GMM）报告的ICBHI分数为39.56%，这突显了需要更强大且抗噪声的表示方法[13],[14],[15]。

深度学习的出现引入了CNN和循环神经网络（RNN）作为强大的肺音分类工具。特别是CNN，在从频谱图输入中学习具有辨别力的时频模式方面非常有效。几个团队设计了基于CNN的模型，用于异常声音检测（正常 vs. 异常）和疾病诊断[6],[9]。例如，Chambres等人（2018年）提出了一个患者级分类器，该分类器汇总了周期级预测，并在ICBHI数据集上报告了约85%的患者级准确率（他们没有报告敏感性和特异性）[16]。随后出现了更全面的深度架构：Ma等人（2019年）引入了LungBRN，这是一个基于bi-ResNet的多类呼吸系统疾病分类系统，在官方ICBHI分割下进行了评估[17]。Acharya & Basu（2020年）提出了一个针对可穿戴设备的CNN-RNN混合模型，进行了患者特定调整，报告了在四类周期级分类上的ICBHI分数为66.31%，并采用了权重量化来降低计算成本[9]。

具体关注COPD检测，一些最近的研究尤为突出。Shuvo等人（2021年）提出了一个轻量级的CNN，该CNN从肺音中生成EMD-CWT混合频谱图，并在ICBHI 2017数据库上进行了评估；他们报告了在三类（“慢性”分组）任务上的加权准确率为98.92%，在六类病理任务上的准确率为98.70%，尽管没有评估跨数据集的泛化能力[18]。Petmezas等人（2022年）通过在CNN-LSTM中加入焦点损失（focal loss）来解决类别不平衡问题；在ICBHI数据集上，他们报告的准确率为73.69%（官方60/40分割）和76.39%（患者间10折交叉验证），敏感性取决于分割方式[13]。Roy等人（2025年）提出了TriSpectraKAN用于COPD检测，通过并行子网络融合了Mel频谱图、色谱图和MFCC，并使用Kolmogorov-Arnold网络分类器；使用结合数据集（ICBHI + CWLSD + RD@TR），他们报告了93%的准确率和0.98的F1分数，并展示了在Raspberry Pi上的设备部署[19]。

总的来说，文献表明：（1）基于CNN的方法在肺音分析中显著优于早期基于手工特征的方法[6]；（2）经过精心特征工程的轻量级模型可以在特定任务上实现非常高的准确率[18]；（3）跨数据集的泛化仍然是一个问题，因为在一个语料库上训练的模型在另一个语料库上的性能可能会下降，这是由于设备和患者人群的差异[2]。这些观察结果激发了我们的方法。AeroCOPDNet被设计为一个紧凑的CNN（受到MobileNet架构成功的启发[20]），并在合并的数据集上进行了训练以提高泛化能力。我们还采用了频谱图级的数据增强和按受试者划分的交叉验证来缓解数据不足的问题，并进一步进行了架构消融研究，以量化每个网络组件的贡献[21]。

在本文中，我们介绍了AeroCOPDNet，这是一个用于分类肺音的新深度学习框架，重点是检测COPD。这个名字反映了我们的目标，即开发一个适用于像COPD这样的气溶胶疾病的轻量级网络，优化以适应资源受限的场景。这项工作的主要贡献包括：

•

我们设计了AeroCOPDNet，这是一个基于CNN的轻量级架构，受到MobileNet的启发，并专门为肺音频谱图进行了优化，实现了高COPD分类准确率，同时保持了极小的模型体积。

•

我们的模型在合并数据集的二元分类任务（COPD vs 非COPD）上取得了显著的性能提升。它在敏感性和特异性上都超过了95%，超过了之前的最先进COPD检测方法。据我们所知，这是报告的最高准确率之一。

•

我们通过在不重新训练的情况下评估模型数据集来严格测试泛化能力。此外，我们还在该数据集内进行了交叉验证。模型在未见数据上保持了高准确率（≈96%）和稳健的AUC约为0.99，证明了其泛化能力。

•

我们研究了频谱图级数据增强对模型性能和跨领域泛化的影响，评估了SpecAugment和Mixup训练方法。此外，我们进行了架构消融研究，以量化AeroCOPDNet中关键设计组件的贡献。

总体而言，我们的结果表明，AeroCOPDNet可以作为一个可靠且高效的工具，用于使用肺音进行自动COPD筛查。通过提高敏感性和特异性，它可以减少漏诊和误诊，特别是在初级护理或远程医疗环境中帮助临床医生。在接下来的部分中，我们将描述相关工作、方法论、展示定量结果并进行比较和消融研究，并讨论影响和未来的工作。

数据集和预处理

我们通过合并两个公共的肺音数据源构建了一个合并数据集：ICBHI 2017挑战呼吸声音数据库（RSD）[1]和Fraiwan等人的肺音数据集[2]。ICBHI数据集包含来自126名患者的920条记录，这些患者的诊断包括COPD、哮喘、支气管扩张症、下/上呼吸道感染等，以及健康对照组。Fraiwan数据集包含来自112名受试者的337条记录（35名健康/正常，77名患有各种肺部疾病）

与强大基线的比较评估

表2总结了在合并的COPD与非COPD数据集上，五种广泛使用的音频分类器（Basic CNN、CRNN（CNN + RNN）、LSTM、GRU和MobileNetV2）在相同训练设置下的五折交叉验证测试性能（使用相同的mel特征、相同的分割、Adam优化器和增强包），以及我们的AeroCOPDNet。指标以各折叠的平均值±标准差报告。AeroCOPDNet在准确性、AUC、AUPR、F1分数、召回率、MCC等方面表现最佳

讨论

我们的结果表明，所提出的AeroCOPDNet模型通过采用合并的多数据集训练方法，在COPD检测方面实现了稳健的先进性能。实际上，AeroCOPDNet在COPD检测及相关肺音诊断任务上的准确性和诊断指标优于最近的强大方法[18],[19]。之前的自动肺音分析研究在使用复杂深度模型的某些数据集上报告了高达95-99%的准确率

结论

我们提出了AeroCOPDNet，这是一个用于从肺音中检测COPD的深度学习模型。通过合并两个主要的肺音数据集，并将问题框架化为二元分类，我们在广泛的呼吸声音范围内训练和评估了该模型。我们的结果显示，AeroCOPDNet在区分COPD与非COPD病例方面实现了最先进的性能，优于传统的CNN、CRNN、LSTM和MobileNetV2。这项研究还强调了数据多样性的重要性

CRediT作者贡献声明

Md Emran Hasan：写作 - 审稿与编辑，撰写 - 原始草稿，可视化，验证，软件，方法论，调查，正式分析，数据管理，概念化。Yue-Fang Wu：写作 - 审稿与编辑。Dong-Jun Yu：写作 - 审稿与编辑，监督，资源管理，项目管理，调查，资金获取，概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

这项工作部分得到了中国国家自然科学基金（授权号62372234和62072243）的支持。作者衷心感谢使这项研究成为可能的公开可用的呼吸声音数据集。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号