通过智能手机上的叙述内容，并结合经过充分微调的WavLM模型，来筛查抑郁症风险

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Screening for depression risk via smartphone narratives with fully fine-tuned WavLM

【字体：大中小】 时间：2026年05月20日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要在抑郁症发展到临床显著程度之前，需要可扩展且负担较低的工具来识别有抑郁风险的个体。我们评估了一种基于智能手机的框架，该框架利用自监督语音表示方法和现成的数据收集协议来评估亚临床抑郁风险。参与者（共119人）被分为高风险组（PHQ-9评分≥10；n=64）和低风险组（n=55）

摘要

在抑郁症发展到临床显著程度之前，需要可扩展且负担较低的工具来识别有抑郁风险的个体。我们评估了一种基于智能手机的框架，该框架利用自监督语音表示方法和现成的数据收集协议来评估亚临床抑郁风险。参与者（共119人）被分为高风险组（PHQ-9评分≥10；n=64）和低风险组（n=55）。一款移动应用程序通过负面和正面情绪诱导任务收集了两次各1分钟的语音记录，两次记录之间间隔10分钟。我们比较了四种模型：基于手工特征设计的极端梯度提升算法；基于梅尔频谱图的卷积神经网络-循环神经网络（CNN-RNN）模型；仅使用头部语音数据的WavLM-MLP模型；以及经过全面微调的WavLM（WavLM-FT）模型。性能评估采用了5折交叉验证（CV）和外部验证（OOF）方法。在5折交叉验证中，WavLM-FT模型的接收者操作特征曲线下面积（ROC-AUC）为0.90，精确度-召回率曲线下面积为0.90，F1值为0.73，准确率为0.68，召回率为0.89，精确率为0.65。在外部验证中，WavLM-FT模型的表现最佳（ROC-AUC为0.86，准确率为0.79），优于CNN-RNN和WavLM-MLP模型。结果表明，对整个模型进行适应性调整能够捕捉标准化智能手机录音中的重要副语言线索。这种简短且具有生态学有效性的、基于自监督学习的方案可能实现可扩展且无创的抑郁风险筛查。

联系信箱：

粤ICP备09063491号

摘要

热点排行