基于GRU的咳嗽声音分析对慢性阻塞性肺疾病急性加重的建模

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Modelling exacerbation of chronic obstructive pulmonary disease using GRU-based analysis of cough sounds

【字体：大中小】 时间：2026年06月07日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　背景：慢性阻塞性肺疾病（COPD）以进行性气流受限和反复急性加重（AECOPD）为特征，这会加速疾病进展。尽管先前的研究集中于区分不同呼吸系统疾病状态，但检测COPD患者体内可能先于加重发生的细微生理变化仍未被充分探索。咳嗽声学提供了一种有前景的无创生物标志物

背景：慢性阻塞性肺疾病（COPD）以进行性气流受限和反复急性加重（AECOPD）为特征，这会加速疾病进展。尽管先前的研究集中于区分不同呼吸系统疾病状态，但检测COPD患者体内可能先于加重发生的细微生理变化仍未被充分探索。咳嗽声学提供了一种有前景的无创生物标志物，但其反映运动诱发的呼吸状态变化的能力尚未被系统研究。目的：确定咳嗽信号的声学分析能否区分COPD患者的稳定（运动前）和运动诱发的肺过度充气状态，使用标准化6分钟步行试验（6MWT）前后采集的记录。方法：研究人员进行了一项实证研究，分析了21名COPD患者（36次会话，6MWT前后）的咳嗽记录。应用了声学预处理和基于特征的学习，使用基于GRU的注意力模型进行分类。外部验证在ICBHI 2017公共呼吸数据集上进行。结果：所提出的方法在增强的先导数据集上表现出高分类性能。在ICBHI 2017数据集上，该模型达到了与已发表基准相当的性能，证明了超过先导队列的泛化能力。结论：咳嗽声学分析可以捕捉与COPD中运动诱发的呼吸压力相关的生理变化。作为一项在有限临床数据集上的先导可行性研究，这些发现鼓励进行更大规模的前瞻性验证研究。轻量级GRU架构支持未来在移动设备和边缘设备上部署，用于远程COPD监测。

**论文解读：基于GRU的咳嗽声音分析对慢性阻塞性肺疾病急性加重的建模**

**研究背景与问题**

慢性阻塞性肺疾病（COPD）是一种以持续性呼吸症状（包括呼吸困难、慢性咳嗽、咳痰和频繁加重）为特征的炎症性肺病，其病理基础是气道异常导致持续且通常进行性的气流受限。根据世界卫生组织（WHO）2024年死亡率统计，COPD目前是全球第三大死因，2019年约造成323万人死亡，其中约85%的死亡发生在65岁及以上老年患者中。COPD急性加重（AECOPD）被定义为超出日常正常变化的症状显著恶化，常伴有过度充气加重、呼吸困难和全身性炎症，这些加重事件会加速疾病进展并降低患者生活质量。肺过度充气可发生在静息状态（静态过度充气）和运动期间（动态过度充气），是COPD的关键特征。研究表明，运动可触发COPD患者的炎症反应和氧化应激，并引起呼吸音变化，如喘息、爆裂音、呼气相延长和咳嗽声学改变。6分钟步行试验（6MWT）特别有助于通过肺活量（IC）变化指示动态过度充气的发展。目前，AECOPD的临床诊断标准是Anthonisen标准，依据呼吸困难加重、痰量增加和痰脓性三个主要症状进行分级。然而，AECOPD的诊断和预测仍是一项复杂且具有挑战性的任务。既往研究在利用呼吸音和听诊音对COPD、COVID-19、肺炎、上呼吸道感染（URTI）、支气管扩张和哮喘等疾病表型进行分类方面取得了显著进展，但预测COPD患者急性加重的研究仍需要进一步分析。研究表明，在AECOPD事件发生前通常存在长达两周的前驱期，期间咳嗽等呼吸症状逐渐加重。客观监测恢复期咳嗽显示，咳嗽频率在长达45天内持续下降，尽管患者通常在7天后感觉咳嗽恢复至基线水平。这种模式表明，加重期前后的咳嗽变化为早期检测提供了一个关键窗口，从而可及时干预，防止再住院、降低相关医疗成本并减轻AECOPD相关的发病率。这一证据强调了将咳嗽作为加重生物标志物进行监测的重要性，凸显了基于客观咳嗽数据进行早期干预的潜力。

本研究推动了自动化技术的发展，旨在显著提高检测COPD状态变化的效率和有效性。基于智能手机的数据作为一种无创检测方法，代表了疾病进展监测的重要进步，尤其适用于资源匮乏环境中的患者。与因成本高、需要专业设备和重复测试而难以在资源有限地区普及的肺活量测定法不同，所提出的方法利用现成技术，通过数字信号处理技术对噪声数据输入进行滤波和分析。本研究评估了咳嗽信号区分COPD患者稳定（运动前）与运动诱发咳嗽事件的能力，这些记录在6MWT前后采集，并采用深度学习模型进行分析。该框架以6MWT诱发的动态过度充气为目标，这是与AECOPD相关的生理特征，但并未声称提供明确的临床诊断。该论文发表在《Biomedical Signal Processing and Control》。

**主要关键技术方法**

为开展研究，研究人员采用了以下主要关键技术方法：
1. **数据采集**：来自英国诺森比亚大学健康与生命科学学院，2022年10月至2023年11月期间招募的21名COPD患者（50-85岁，临床确诊），共计36次访视。每次访视在标准化6MWT前后采集指令性咳嗽音频（智能手机应用，16位分辨率，麦克风距离口部20-50 cm，45°-60°角）。
2. **信号预处理与增强**：使用Haar小波与贝叶斯阈值进行小波去噪，结合预训练Demucs模型（htdemucs）进行混合去噪；统一重采样至8 kHz并归一化至[-1, 1]；采用Audiomentations库的40种标签保持型变换（加性噪声、增益、音高、时间拉伸、重采样、滤波等）进行数据增强，将65个原始文件扩增至2600个样本。
3. **特征提取与融合**：提取平稳小波变换（SWT，Haar小波，5级分解，10×1000维）和Gamma通频率倒谱系数（GFCC，64个Gammatone滤波器，保留20个倒谱系数，20×1000维），并沿行方向融合为30×1000维张量，经标准化处理。通过随机森林基尼重要性分析验证SWT和GFCC为最具判别力的特征组合。
4. **分类模型**：提出轻量级双向门控循环单元（GRU）注意力模型——GCED（GRU-enabled COPD Exacerbation Detection），包含两层双向GRU（第一层256单元，第二层128单元）、特征级注意力层（学习特征维度全局重要性权重）、dropout（0.7）和L2正则化，以二元交叉熵为损失函数，Adam优化器训练50轮。

**研究结果**

**结果1：模型在先导数据集上的性能**
通过分层随机划分（60%/20%/20%）训练/验证/测试集，GCED模型在测试集上达到准确率0.9538、AUC 0.9881、F1分数0.9478、敏感度95.22%、特异度95.56%，表明模型能有效区分COPD稳定状态与运动后状态，且泛化能力良好。

**结果2：消融实验验证架构有效性**
比较不同循环层类型（GRU vs. LSTM）、隐藏单元数、激活函数和注意力机制，发现GRU（64,32）配合Sigmoid激活和二元交叉熵损失表现最优；增加隐藏单元或引入TimeDistributed层未带来性能提升；仅使用SWT和GFCC两种特征即可达到与使用七种特征相当的分类效果（准确率约0.9538），表明特征融合方案高效且避免了冗余。

**结果3：与基线模型及公开数据集对比**
在ICBHI 2017四分类任务（COPD、肺炎、健康、其他）上，GCED模型达到准确率91.08%、召回率99.38%、特异度98.29%，优于多个近期发表的深度学习方法（如Swin Transformer、Audio-Spectrogram Vision Transformer、多视角谱图Transformer等）。在RespiratoryDatabase@tr数据集上，模型也表现出竞争力。此外，在与SVM、CNN、Transformer基线的比较中，GCED在先导数据集和ICBHI上均取得最优或接近最优的准确率和F1分数，验证了其通用性和鲁棒性。

**结果4：特征空间探索与可解释性**
通过主成分分析（PCA）和t-分布随机邻域嵌入（t-SNE）可视化显示，不同数据增强策略（Audiomentations、GAN、扩散模型）产生的特征分布存在差异；Audiomentations产生的样本分布更广泛，有利于提升模型泛化能力。基尼重要性分析确认GFCC和SWT贡献最大，与最终特征选择一致。

**讨论与结论**

**讨论部分**：本研究证明了咳嗽声学分析能够捕捉COPD中与运动诱发的呼吸压力相关的生理变化。在先导数据集上，模型表现出强劲的分类性能，尽管存在轻微的过拟合迹象，但整体泛化良好。由于数据集包含同一患者的多次访视，无法完全排除受试者层级相关性，但测试集准确率（0.9538）高于验证集（0.9288）可能归因于小数据集的采样变异。在ICBHI 2017上的优异召回率（99.38%）具有临床意义，表明模型能有效避免漏检呼吸异常。然而，直接与先前工作比较存在挑战，因为缺乏针对AECOPD的公开音频数据集，且各研究在数据划分、预处理和类定义上存在差异。

**研究结论**：本文提出了一种基于咳嗽的分类框架，旨在区分稳定COPD与运动后咳嗽模式（与运动诱发的过度充气相关，该特征与AECOPD有关）。早期识别此类呼吸应激反应可能有助于及时的临床评估，尤其考虑到COPD进展带来的日益增长的医疗负担。所提出的架构整合了数据增强、基于重要性的特征分析和双向GRU注意力模型，在先导数据集上实现了0.9538的测试准确率，以及一致的高F1分数和AUC，表明在区分咳嗽状态方面性能稳定。使用简化特征集还有助于计算效率，支持其在资源受限环境和边缘设备上的潜在应用。作为方法学稳健性检验，该框架在公开ICBHI 2017数据集上表现出与近期深度学习方法相当的性能。这些结果支持基于咳嗽的深度学习模型用于表征COPD中运动诱发的呼吸变化的可行性，同时强调在临床部署前需要在更大、临床注释更详细的数据集上进行进一步验证。

**局限性**：本研究是一项受限于可行性的先导性探索，而非生产级临床系统。主要局限包括：数据集规模较小且人口统计学有限，可能限制对更广泛人群的泛化；缺乏外部验证的临床注释AECOPD数据集；由于纵向设计，未严格实施患者级数据划分，可能导致性能估计偏高；跨数据集泛化受信号特征和标签分布差异影响；注意力机制提供的透明度有限，不能替代临床决策指标。

**未来方向**：未来工作将致力于更全面的加重风险分层，整合咳嗽特征（如爆裂音、喘息、喘鸣），结合肺活量测定参数（如FEV₁、FVC），并在更大、更多样化的队列中进行患者级交叉验证。从转化角度，原型采集应用将发展为生产级移动健康平台，支持安全的本机和云端推理，可扩展至NHS临床网络、患者支持组织和资源匮乏的初级保健环境。

联系信箱：

粤ICP备09063491号

热点排行