利用深度学习对肺部声音进行分类以检测类风湿关节炎继发性间质性肺病

《Biomedical Signal Processing and Control》:Classification of lung sounds for the detection of interstitial lung disease secondary to rheumatoid arthritis

【字体: 时间:2026年02月21日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  为解决RA-ILD(类风湿关节炎继发性间质性肺病)早期诊断难题,本文提出了一套结合高通滤波、变分模式提取、谐波-冲击源分离(HPSS)及短时傅里叶变换(STFT)的预处理流程,并利用GoogLeNet进行深度学习分类。该方案在患者层面达到了87.8%的准确率,有望为基于廉价且安全的肺部听诊进行大规模筛查铺平道路。

  
类风湿关节炎(Rheumatoid Arthritis, RA)是一种影响约1%人口的自身免疫性疾病,它不仅导致关节疼痛、肿胀甚至畸形,还可能引发严重的合并症,其中间质性肺病(Interstitial Lung Disease, ILD)是致死率最高的并发症之一。RA-ILD患者的预期寿命极短,仅为3-8年。更严峻的现实是,目前虽有药物能延缓ILD进展,但前提是必须在疾病极早期介入。而RA-ILD的早期诊断面临巨大挑战:患者常常在疾病早期无症状,或症状(如疲劳、呼吸困难和咳嗽)缺乏特异性;高分辨率计算机断层扫描(High-resolution Computed Tomography, HRCT)虽是诊断金标准,但因成本高昂和存在电离辐射,并不适用于大规模筛查。物理肺部听诊是一种安全、经济、可重复的筛查手段,研究表明肺组织中的“Velcro”爆裂音(Velcro-like crackles)与不同的放射学模式独立相关。然而,如何从听诊音频中准确、客观地识别这些病理声音,并将其转化为可靠的筛查工具,是当前研究的核心难题。
为了解决上述问题,来自意大利摩德纳和雷焦艾米利亚大学科学与工程方法学系的研究者Fabrizio Pancaldi和Luca Dibiase开展了一项研究,旨在开发一种新的信号处理和深度学习技术流程,用于对RA患者的肺部声音进行分类,以实现对RA-ILD的早期检测。他们的研究成果发表在了《Biomedical Signal Processing and Control》期刊上。他们利用一套创新的音频处理流程结合预训练的深度学习模型,在真实临床数据集上验证了其可行性。
研究者为开展此项研究,运用了若干关键技术方法。首先,他们构建了一个来自摩德纳大学医院的临床数据集,包含137名RA患者的肺部声音录音(每位患者6次听诊),其金标准(Ground Truth)为HRCT放射学报告(78例阴性,59例阳性)。其次,他们设计了一套数据处理流程:采用80 Hz高通滤波消除心跳等低频干扰;使用变分模式提取(VME)进行信号分解以去除噪声;通过样本切割(4秒长度,1秒重叠)进行数据增强;应用短时傅里叶变换(STFT)获取时频谱图,并利用谐波-冲击源分离(HPSS)算法来强化与病理声音相关的谐波成分。最后,他们将处理后的时频谱图输入预训练的GoogLeNet卷积神经网络(CNN),通过迁移学习进行二元分类(ILD阳性/阴性)。
研究结果与讨论
  • 数据集的复杂性:研究首先指出,其所用的RA-ILD患者数据集与其他公共数据集(如RespiratoryDatabase@TR)不同,所有患者均患有RA,因此没有“完全健康”的对照组,这增加了分类难度。通过t-分布随机邻域嵌入(t-SNE)可视化分析发现,原始声音数据非常混杂,无法形成清晰聚类,而经过HPSS处理后的谐波分量数据呈现出小规模聚类的趋势,说明预处理流程有效增强了数据的可分离性。
  • 预处理对信号的改善:研究展示了预处理的效果。对于一名RA-ILD阳性患者的原始信号和经过高通滤波与VME处理后的信号对比,处理后的信号听起来就是典型的Velcro音。阳性与阴性患者声音的STFT谱图也显示出明显差异,正常呼气声音的能量集中在约80-300 Hz频带,而ILD阳性患者则在300-800 Hz频带表现出更强的谐波成分,即Velcro音。
  • 模型的分类性能:研究者构建的分类流程(整体流程图见图1)在单个听诊样本的分类上达到了83.2%的准确率和77.9%的F1-分数。当结合同一患者的多个听诊结果进行综合判断时,准确率和F1-分数分别提升至87.8%和87.1%。该模型在测试集上的特异性(Specificity)达到90.0%,这意味着它能有效减少不必要的HRCT检查(假阳性低)。敏感性(Sensitivity)为73.2%,研究者解释这可能是因为晚期ILD患者呼吸较浅,难以产生可检测的异常音。模型的接收者操作特征(ROC)曲线下面积(AUC)约为85%。
  • 模型的可解释性:通过梯度加权类激活映射(Grad-CAM)技术对模型决策过程进行分析发现,模型对ILD阴性样本的关注点集中在时频谱图的高频(800-2000 Hz)区域,该区域通常缺乏明显的病理信号;而对ILD阳性样本的关注点则集中在300-1000 Hz的中频区域,这正是Velcro音的典型频带。这表明模型的决策逻辑与已知的病理生理特征相符,增强了结果的可信度。
  • 与其他方法的对比:研究者将提出的方案与几个变体(使用连续小波变换CWT或伽马通滤波器组替代STFT+HPSS,或用ResNet-18替代GoogLeNet)以及专门检测ILD的先进模型ILDNet进行了比较。结果显示,本文提出的流程(STFT+HPSS+GoogLeNet)在准确性(83.2%)、特异性(90.0%)和精确度(83.3%)上均优于或与其他方法持平。相较于ILDNet(81.3%准确率,78.9%敏感度),本文方法在准确率和特异性方面表现更优,显示出其在特定临床数据集上的鲁棒性。
结论与意义
本研究成功开发并验证了一种结合高级信号处理(VME、HPSS)与深度学习(预训练的GoogLeNet)的自动化流程,用于从类风湿关节炎患者的肺部听诊声音中检测间质性肺病。该方法以高分辨率CT报告为金标准,在单个听诊分类和患者层面诊断上均取得了有临床参考价值的性能(准确率分别达83.2%和87.8%)。其重要意义在于,利用患者无创、廉价且可重复获取的肺部声音,构建了一个具有高特异性的筛查工具,能够有效识别需要进一步进行HRCT检查的高风险患者,从而优化医疗资源配置,并有望实现RA-ILD的早期发现与干预。研究还通过Grad-CAM等技术证实了模型的决策与Velcro音的病理特征一致,增强了该人工智能方法的可解释性和临床可信度。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号