《Results in Engineering》:Single-Stage Ensemble Learning with LDAM Loss and Threshold Tuning for Imbalanced Respiratory Sound Classification
编辑推荐:
自动呼吸音分类面临两个核心挑战:一是提取具有判别性的声学特征,二是处理临床数据集中固有的严重类别不平衡问题。本研究在单阶段集成分类器中系统性地整合了互补的不平衡处理技术,结合XGBoost、LightGBM和神经网络,采用软投票策略实现六类呼吸系统疾病的诊断。
自动呼吸音分类面临两个核心挑战:一是提取具有判别性的声学特征,二是处理临床数据集中固有的严重类别不平衡问题。本研究在单阶段集成分类器中系统性地整合了互补的不平衡处理技术,结合XGBoost、LightGBM和神经网络,采用软投票策略实现六类呼吸系统疾病的诊断。所提出的框架集成了标签分布感知边界(Label-Distribution-Aware Margin, LDAM)损失并结合焦点加权(focal weighting)、有效数量类加权(Effective Number class weighting)、基于SMOTE的合成过采样(Synthetic Minority Over-sampling Technique, SMOTE)、优先考虑少数类判别特征的多策略特征选择,以及面向F1优化的逐类阈值调优。为避免阈值优化带来的乐观偏差,研究人员采用嵌套交叉验证,在内部折中调整阈值。该集成架构直接对所有六类疾病进行分类,避免了层次化方法中固有的错误级联问题。在ICBHI呼吸音数据库上,采用患者级分组的五折分层组交叉验证进行评估,该方法实现了0.46 ± 0.04的宏F1分数(macro F1-score),在多数类上表现优异(慢性阻塞性肺疾病Chronic Obstructive Pulmonary Disease, COPD的F1=0.96),并在少数类识别上优于单一模型基线。通过消融研究、与卷积神经网络及Transformer架构的基线比较、基于Bootstrap置信区间的统计显著性检验、受试者工作特征曲线(Receiver Operating Characteristic curve, ROC)、精确率-召回率曲线(Precision-Recall curve)及校准图的全面分析,验证了系统性组合的有效性。虽然各项技术(LDAM、SMOTE、梯度提升)已有基础,本研究的贡献在于针对不平衡呼吸音分类进行了这些技术的严谨整合与评估,并提供了可复现的开源实现,适用于计算机辅助诊断。
研究背景与意义
呼吸系统疾病是全球重大健康负担,听诊作为临床常规检查依赖医生经验,自动分类可实现客观、可重复的诊断,尤其在远程医疗和资源有限地区具有重要价值。然而,呼吸音复杂的时频模式及临床数据集的严重类别不平衡限制了现有方法的性能。标准分类算法倾向于忽略少数类,导致整体准确率高但罕见病检测失败。以往研究多采用孤立的不平衡处理策略,缺乏系统性整合,且层次化分类存在错误级联风险。为此,研究人员提出了一种单阶段异构集成框架,在ICBHI数据集上实现了稳健的多疾病分类。该研究成果发表于《Results in Engineering》。
关键技术方法
研究人员采用ICBHI呼吸音数据库,包含126名患者的917条录音,覆盖健康、COPD、支气管扩张、细支气管炎、肺炎及上呼吸道感染(Upper Respiratory Tract Infection, URTI)六类。音频统一重采样至22,050 Hz并进行幅度归一化。特征提取涵盖128维对数梅尔频谱、40维梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCCs)及其一阶与二阶差分、色度特征(Chroma)、光谱对比(Spectral Contrast)、音调网络特征(Tonnetz)及时域起始统计等约2000个特征。通过多策略特征选择保留前350个最具判别性特征。数据预处理采用Z-score标准化,并在特征空间应用SMOTE将少数类扩充至多数类的50%。集成模型由5个不同随机种子的神经网络、XGBoost和LightGBM组成,分别结合LDAM-焦点联合损失、有效数量权重及样本加权训练。预测阶段采用软投票融合概率,并通过嵌套交叉验证进行逐类阈值调优以最大化宏F1分数。
研究结果
总体性能:五折交叉验证结果显示,宏F1分数为0.46 ± 0.04,加权F1分数为0.89,总体准确率为90.0%。
每类性能:COPD的F1达0.96 ± 0.02,支气管扩张为0.75 ± 0.10,健康为0.54 ± 0.08;细支气管炎、肺炎和URTI因样本极少表现相对较弱,分别为0.32 ± 0.22、0.26 ± 0.15和0.17 ± 0.12。
混淆矩阵分析:COPD与支气管扩张召回率最高,URTI与肺炎因极度不平衡识别难度最大。
ROC与精确率-召回率分析:COPD与支气管扩张的AUC超过0.95,罕见类亦保持合理区分度;精确率-召回率曲线显示模型在不平衡场景下的判别能力。
校准分析:概率可靠性评估揭示了进一步校准的空间。
特征空间可视化:t-SNE投影显示COPD聚类清晰,罕见类存在重叠。
对数分布分析:各类别模型对数分布反映置信度差异。
阈值调优影响:嵌套交叉验证的阈值优化将宏F1从0.42提升至0.46。
消融研究:逐步加入LDAM-焦点损失(+12%)、有效数量权重(+6%)、SMOTE(+5%)、集成模型(+5%)及阈值调优(+10%),累计提升宏F1至0.46。
基线比较:优于随机森林(0.32)、CNN(0.35)、音频频谱Transformer(0.38)及单独XGBoost(0.39)。
讨论与结论
单阶段分类避免了层次化错误级联,异构集成结合梯度提升与神经网络的互补优势,LDAM-焦点联合损失同时解决类别不平衡与样本难度问题。阈值调优在无重训情况下显著提升F1,但需在目标人群中重新校准。研究局限包括极罕见类的样本不足、特征聚合可能丢失细粒度时间模式,以及仅在ICBHI数据集验证。未来工作应聚焦于多中心外部验证、生成式数据增强、时间建模及可解释性提升。结论表明,系统整合多种不平衡处理技术显著提升了呼吸音分类性能,开源实现支持在其他医学分类任务中复用。