机器学习与语音技术在帕金森病、慢性阻塞性肺疾病与健康对照者多分类中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls

【字体：大中小】 时间：2026年05月20日 来源：Scientific Reports 3.9

编辑推荐：

　　研究人员针对帕金森病（Parkinson’s disease, PD）与慢性阻塞性肺疾病（chronic obstructive pulmonary disease, COPD）缺乏广泛应用的客观生物标志物的现状，探索语音作为非侵入性数字生物标志物在多分类任务

研究人员针对帕金森病（Parkinson’s disease, PD）与慢性阻塞性肺疾病（chronic obstructive pulmonary disease, COPD）缺乏广泛应用的客观生物标志物的现状，探索语音作为非侵入性数字生物标志物在多分类任务中的可行性。研究采集瑞典语COPD及健康对照者、英语PD及健康对照者的持续元音“a”发音录音，提取基线语音特征与梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients, MFCCs），采用软投票（soft voting）集成学习框架，结合支持向量机（support vector machine, SVM）、随机森林（random forest, RF）、CatBoost（CB）与Light Gradient Boosting（LGB）四类分类器，在嵌套交叉验证与超参数优化条件下训练模型。数据按参与者级别划分为开发集与独立测试集，性能评估采用准确率、宏平均精确率、召回率、F1分数、受试者工作特征（receiver operating characteristic, ROC）分析及混淆矩阵，并通过沙普利加性解释（Shapley additive explanations, SHAP）与元音空间分析实现可解释性。结果显示，最终软投票分类器在参与者独立的测试集中总体准确率达0.842，宏平均F1分数为0.839，其中PD分类性能最高，健康对照居中，COPD较低；误分类主要集中在健康对照与COPD之间，PD与COPD混淆极少。特征归因分析显示不同类别具有特异性的声学特征贡献模式，元音空间分析揭示组间细微但一致的差异。研究表明，基于持续元音发音的可解释软投票机器学习框架能够在跨语言背景下区分神经源性与呼吸源性语音障碍，支持语音作为移动录音条件下的多分类临床判别数字生物标志物。

本研究发表于《Scientific Reports》，聚焦于帕金森病（PD）与慢性阻塞性肺疾病（COPD）缺乏客观临床生物标志物的问题，旨在探索语音分析作为非侵入性数字生物标志物在多分类判别中的可行性。当前PD与COPD的诊断主要依赖临床评估，早期识别困难，且现有语音研究多局限于单一疾病的二分类，缺乏对跨病理生理机制及跨语言背景的综合分析。研究人员整合瑞典语COPD队列与英语PD队列的持续元音“a”录音，构建统一的软投票集成学习框架，以实现PD、COPD与健康对照（healthy controls, HC）的多分类判别。结果表明，该框架在参与者独立的测试集中取得稳定性能，能够区分神经源性与呼吸源性语音障碍，并揭示不同疾病类别的特异性声学特征模式，为语音作为数字生物标志物在临床多病种判别中的应用提供了概念验证。

关键技术方法方面，研究人员使用来自瑞典语COPD队列（COPDVD数据集）与英语PD队列（mPower数据集）的移动录音数据，进行年龄与性别匹配以消除人口统计学混杂。特征提取涵盖基频、抖动（jitter）、微扰（shimmer）、共振峰频率及MFCCs等102维声学特征。机器学习框架采用嵌套交叉验证防止信息泄露，并基于SVM、RF、CB、LGB四类分类器构建软投票集成模型，通过超参数网格搜索优化性能。模型可解释性通过SHAP分析与元音空间（F₁-F₂）分析实现，以揭示不同类别的声学特征贡献模式及生理基础。

研究结果分为四部分。第一部分为整体多分类性能，软投票分类器在独立测试集中总体准确率为0.842，宏平均精确率0.852、召回率0.829、F₁分数0.839；PD组F₁分数最高（0.915），HC次之（0.839），COPD最低（0.763）。第二部分为判别性能与混淆矩阵分析，ROC曲线显示微平均AUC为0.953，宏平均AUC为0.947，PD的AUC最高（0.993），COPD最低（0.935）；混淆矩阵表明误分类集中在HC与COPD之间，PD与COPD混淆极少。第三部分为元音空间分析，F₁-F₂分布显示COPD重心向低F₂偏移，PD与HC重心接近但PD离散度更高，组间差异虽重叠但具有系统性。第四部分为SHAP特征归因与集成贡献分析，不同诊断组的声学特征重要性排序与方向存在差异，MFCCs、年龄、基频相关特征在不同组中均占重要地位；LGB与SVM对集成预测贡献最大，RF贡献最小。

讨论部分指出，PD的语音损伤因中枢运动控制受损而呈现较稳定的声学模式，COPD则因气流受限及代偿策略多样性导致异质性较高，故分类性能相对较低。跨语言设计验证了持续元音任务在减少语言差异影响方面的优势，支持语音特征在不同语言背景下的泛化潜力。SHAP分析揭示了疾病特异性的声学特征贡献模式，并与已有生理学证据一致，提升了模型的临床可解释性。研究同时承认参与者数量有限、横断面设计无法评估病程变化、语言与疾病效应未能完全分离等局限，强调需在更大规模、多中心、纵向队列中进一步验证。

结论部分表明，基于持续元音发音的软投票机器学习框架可在跨语言背景下有效区分PD、COPD与HC，不同疾病的声学特征贡献模式存在差异，元音空间分析支持组间系统性差异的存在。该研究为语音作为移动健康场景下的多分类数字生物标志物提供了可行性与可解释性证据，具有潜在的早期筛查与远程监测应用价值。

联系信箱：

粤ICP备09063491号

热点排行