慢性阻塞性肺疾病(COPD)是一种常见的慢性肺部疾病,其特征是持续的呼吸系统症状和气流受限。COPD对全球健康产生了深远的影响,是导致死亡的主要原因之一,2019年约有323万人因此丧生[3]。世界卫生组织报告称COPD是全球第三大死因(2021年为第四大死因)[4]。早期诊断COPD对于管理症状和预防急性加重至关重要。临床医生通常依靠听诊肺音来检测与COPD相关的气道异常。然而,准确解读肺音需要丰富的专业知识,即使是医学实习生也经常误诊大约一半的肺音[5]。此外,听诊评估具有主观性,不同从业者之间的结果可能有所不同。这促使人们开发自动化、客观的方法来分析肺音以检测COPD。
近年来,计算机化的呼吸声音分析作为辅助诊断呼吸系统疾病的工具受到了关注[6]。特别是2017年的ICBHI(国际生物医学与健康信息学会议)呼吸声音数据库激发了大量应用信号处理和机器学习对肺音进行分类的研究[1]。传统方法探索了隐马尔可夫模型、决策树和支持向量机等技术,这些技术基于手工制作的特征[7]。最近,深度学习方法表现出更优越的性能[8]。研究人员已将循环神经网络、卷积神经网络(CNN)和混合模型应用于呼吸声音分类[9]。例如,提出了Bi-ResNet模型和基于注意力的CNN来识别异常的呼吸周期[10]。尽管取得了这些进展,但区分COPD特有的声音仍然具有挑战性。许多先前的研究在ICBHI数据集上仅报告了中等程度的敏感性和特异性[11]。例如,Yang等人(2023年)开发的BLNet模型在ICBHI数据集上的敏感性和特异性分别为66.3%和79.1%,表明有相当一部分COPD病例被遗漏,同时许多健康病例被错误地标记为COPD[5]。
现有研究的另一个局限性是缺乏跨单一数据集的泛化能力。模型在训练数据上通常表现良好,但其在现实世界中的实用性取决于能否泛化到其他患者群体和记录条件。为了解决这个问题,我们在本研究中考虑了两个不同的数据集。首先是ICBHI 2017挑战数据集,这是最大的公共呼吸声音存储库,包含来自126名患者的约5.5小时的音频记录[12]。这些记录是在七个胸部位置(气管;左侧/右侧前方;左侧/右侧后方;左侧/右侧侧面)使用四种不同的听诊器/麦克风设备(AKG C417L、3M Littmann Classic II SE、3M Littmann 3200、Welch Allyn Meditron)收集的[1]。第二个数据集由Fraiwan等人发布,他们使用电子听诊器记录了健康受试者和患有七种不同呼吸系统疾病(哮喘、心力衰竭、肺炎、支气管炎、胸腔积液、COPD)患者的肺音[2]。这个Fraiwan数据集为我们评估模型在不同人群和记录条件下的泛化能力提供了外部测试平台。它包括正常呼吸声音以及各种疾病的病理声音[2]。传统方法通常依赖于手工制作的声学特征(如能量、频域统计、小波系数)和经典分类器(如支持向量机或随机森林),但这些方法通常难以处理现实世界肺音记录的复杂性和噪声[7]。例如,在官方的ICBHI 60/40分割中,Serbes等人(基于特征的SVM)报告的准确率为约49.86%,而Jakovljevi? & Lon?ar-Turukalo(HMM-GMM)报告的ICBHI分数为39.56%,这突显了需要更强大且抗噪声的表示方法[13],[14],[15]。
深度学习的出现引入了CNN和循环神经网络(RNN)作为强大的肺音分类工具。特别是CNN,在从频谱图输入中学习具有辨别力的时频模式方面非常有效。几个团队设计了基于CNN的模型,用于异常声音检测(正常 vs. 异常)和疾病诊断[6],[9]。例如,Chambres等人(2018年)提出了一个患者级分类器,该分类器汇总了周期级预测,并在ICBHI数据集上报告了约85%的患者级准确率(他们没有报告敏感性和特异性)[16]。随后出现了更全面的深度架构:Ma等人(2019年)引入了LungBRN,这是一个基于bi-ResNet的多类呼吸系统疾病分类系统,在官方ICBHI分割下进行了评估[17]。Acharya & Basu(2020年)提出了一个针对可穿戴设备的CNN-RNN混合模型,进行了患者特定调整,报告了在四类周期级分类上的ICBHI分数为66.31%,并采用了权重量化来降低计算成本[9]。
具体关注COPD检测,一些最近的研究尤为突出。Shuvo等人(2021年)提出了一个轻量级的CNN,该CNN从肺音中生成EMD-CWT混合频谱图,并在ICBHI 2017数据库上进行了评估;他们报告了在三类(“慢性”分组)任务上的加权准确率为98.92%,在六类病理任务上的准确率为98.70%,尽管没有评估跨数据集的泛化能力[18]。Petmezas等人(2022年)通过在CNN-LSTM中加入焦点损失(focal loss)来解决类别不平衡问题;在ICBHI数据集上,他们报告的准确率为73.69%(官方60/40分割)和76.39%(患者间10折交叉验证),敏感性取决于分割方式[13]。Roy等人(2025年)提出了TriSpectraKAN用于COPD检测,通过并行子网络融合了Mel频谱图、色谱图和MFCC,并使用Kolmogorov-Arnold网络分类器;使用结合数据集(ICBHI + CWLSD + RD@TR),他们报告了93%的准确率和0.98的F1分数,并展示了在Raspberry Pi上的设备部署[19]。
总的来说,文献表明:(1)基于CNN的方法在肺音分析中显著优于早期基于手工特征的方法[6];(2)经过精心特征工程的轻量级模型可以在特定任务上实现非常高的准确率[18];(3)跨数据集的泛化仍然是一个问题,因为在一个语料库上训练的模型在另一个语料库上的性能可能会下降,这是由于设备和患者人群的差异[2]。这些观察结果激发了我们的方法。AeroCOPDNet被设计为一个紧凑的CNN(受到MobileNet架构成功的启发[20]),并在合并的数据集上进行了训练以提高泛化能力。我们还采用了频谱图级的数据增强和按受试者划分的交叉验证来缓解数据不足的问题,并进一步进行了架构消融研究,以量化每个网络组件的贡献[21]。
在本文中,我们介绍了AeroCOPDNet,这是一个用于分类肺音的新深度学习框架,重点是检测COPD。这个名字反映了我们的目标,即开发一个适用于像COPD这样的气溶胶疾病的轻量级网络,优化以适应资源受限的场景。这项工作的主要贡献包括:
•我们设计了AeroCOPDNet,这是一个基于CNN的轻量级架构,受到MobileNet的启发,并专门为肺音频谱图进行了优化,实现了高COPD分类准确率,同时保持了极小的模型体积。
•我们的模型在合并数据集的二元分类任务(COPD vs 非COPD)上取得了显著的性能提升。它在敏感性和特异性上都超过了95%,超过了之前的最先进COPD检测方法。据我们所知,这是报告的最高准确率之一。
•我们通过在不重新训练的情况下评估模型数据集来严格测试泛化能力。此外,我们还在该数据集内进行了交叉验证。模型在未见数据上保持了高准确率(≈96%)和稳健的AUC约为0.99,证明了其泛化能力。
•我们研究了频谱图级数据增强对模型性能和跨领域泛化的影响,评估了SpecAugment和Mixup训练方法。此外,我们进行了架构消融研究,以量化AeroCOPDNet中关键设计组件的贡献。
总体而言,我们的结果表明,AeroCOPDNet可以作为一个可靠且高效的工具,用于使用肺音进行自动COPD筛查。通过提高敏感性和特异性,它可以减少漏诊和误诊,特别是在初级护理或远程医疗环境中帮助临床医生。在接下来的部分中,我们将描述相关工作、方法论、展示定量结果并进行比较和消融研究,并讨论影响和未来的工作。