基于自注意力增强MLP架构的帕金森语音特征抑郁风险分类模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Simulated depression risk classification from Parkinson’s voice features using a self-attention-enhanced MLP architecture

【字体：大中小】 时间：2026年02月10日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对帕金森病（PD）患者抑郁风险早期识别难题，提出基于语音生物标志物的创新分类框架。研究人员采用自注意力增强的多层感知机（MLP）模型，通过对谐噪比（HNR）和基频微扰（Jitter）等声学特征的分析，实现了抑郁风险的精准分类。该架构在UCI帕金森数据集上取得97%准确率、98% F1-score的优异性能，显著优于SVM、k-NN等传统算法，为PD患者心理健康监测提供了非侵入性评估新范式。

帕金森病（Parkinson's Disease, PD）作为常见的神经退行性疾病，其临床表现不仅包括典型的运动症状如震颤和运动迟缓，还常伴随非运动症状，其中抑郁障碍尤为突出。研究表明约35%的PD患者会出现抑郁症状，严重影响生活质量和治疗效果。然而，传统抑郁评估主要依赖主观量表，存在诊断延迟、患者隐瞒等问题。值得注意的是，PD患者的发声器官受累会导致特征性语音改变，这为开发客观生物标志物提供了新思路。

近日发表于《Scientific Reports》的研究提出了一种创新解决方案：通过分析PD患者的语音特征实现抑郁风险自动分类。该研究首次将自注意力机制（Self-Attention）与多层感知机（Multilayer Perceptron, MLP）相结合，构建了专门针对声学特征的抑郁风险预测模型。

研究团队采用UCI帕金森数据集，重点挖掘谐噪比（Harmonic-to-Noise Ratio, HNR）和基频微扰（Jitter）等核心声学参数与抑郁状态的关联。通过对比支持向量机（Support Vector Machine, SVM）、k近邻（k-Nearest Neighbors, k-NN）、TabNet等传统机器学习方法，以及卷积神经网络-长短期记忆网络（CNN-LSTM）、深度神经网络（Deep Neural Network, DNN）等深度学习模型，验证了新架构的优越性。

关键技术方法主要包括：基于UCI帕金森数据集的声学特征提取，重点分析HNR和Jitter参数；构建自注意力增强的MLP架构实现特征交互建模；采用五折交叉验证评估模型稳定性；通过准确率、F1-score等指标进行性能对比。

研究结果

模型性能表现

自注意力增强MLP在测试集上达到97%的准确率和98%的F1-score，召回率（Recall）为95%，特异性（Specificity）达100%。相比表现次优的可解释提升机（Explainable Boosting Machine, EBM），新模型在保持可解释性的同时显著提升了预测精度。

特征重要性分析

注意力权重显示HNR和Jitter对抑郁风险分类贡献度最高，这与PD患者发声控制机制受损的病理生理特征相符。声学特征与情绪状态的关联机制可能涉及自主神经系统调节障碍。

讨论与结论

该研究证实基于语音生物标志物的机器学习方法能有效识别PD患者抑郁风险。自注意力机制成功捕捉到声学特征间的非线性关系，使模型在保持临床可解释性的同时实现精准预测。这种非侵入性评估方法有望应用于社区筛查和长期随访，为早期心理干预提供客观依据。未来研究可结合多模态数据（如运动症状、脑影像等）进一步提升模型泛化能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号