通过多模型特征共识分析,识别出具有鲁棒性且与数据集无关的抑郁症声学生物标志物

《Computer Speech & Language》:Identifying robust and dataset-independent acoustic biomarkers of depression through multi-model feature consensus analysis

【字体: 时间:2026年02月23日 来源:Computer Speech & Language 3.4

编辑推荐:

  跨语言抑郁症声学特征检测与领域适应研究 通过整合MODMA和E-DAIC两个多模态数据集,提取并筛选107个手工声学特征,采用多方法共识特征选择框架(L1-Logistic Regression、RFE-SVM、mRMR、Boruta、Stability Selection),结合K-sweep评估和CORAL领域对齐技术,验证了声学特征(如基频变异性、谐波噪声比、MFCC统计量)的跨语言、跨设备、跨人群的稳定性和泛化能力,模型在MODMA→E-DAIC迁移时F1达0.49-0.52,并揭示了语言和文化差异对特征稳定性的影响。

  
Musyysb Yousufi | Rytis Maskeliunas
立陶宛考纳斯理工大学信息学院软件工程系

摘要

语音是最丰富、最自然的声学数据来源之一,其中包含韵律和频谱信息。声学特征有助于诊断心理和情绪健康问题。近年来,一些研究人员将语音特征作为检测抑郁症的方法。然而,大多数框架仅适用于它们训练的数据,无法处理新的说话者、录音设备或语言。本研究旨在识别可靠且可解释的声学特征,这些特征可作为不同语音数据集中抑郁症的稳定指标。
本研究使用了两个公开可用的数据集:E-DAIC和MODMA。从4秒长的音频片段中提取了107个手工制作的韵律、频谱和语音质量声学特征,长音频片段有1秒的重叠部分,短音频片段则进行了填充处理。为了防止说话者级别的重叠,采用了基于受试者的预处理方法。使用了五种特征选择算法,并通过基于共识的排名聚合框架整合了它们的结果,以识别两个数据集中与抑郁症相关的特征。使用四种分类器架构通过K-sweep分析评估了这些特征集的效果。通过调整相关性对齐域,减少了源域和目标域之间的分布不匹配问题,从而实现了稳健的跨数据集迁移评估。在E-DAIC上训练的模型在MODMA上的F1分数为0.49-0.52(数据集内准确率为92%-94%),而在MODMA上训练的模型在E-DAIC上的F1分数为0.34-0.35,超过了E-DAIC的数据集内基线。在E-DAIC中观察到的负领域损失(领域损失为-0.22至-0.24)反映了由于自然录制条件导致的较高数据集内异质性,而非泛化能力差。这些发现表明,可以从多样化的数据集中学习到稳健的抑郁症生物标志物,从而实现跨语言的抑郁症检测。

引言

重度抑郁症(MDD)影响着全球超过2.8亿人。它被视为一个重大的公共卫生挑战,需要创新的方法来进行早期检测和监测(Chodavadia等人,2023年;Cui等人,2024年)。传统的诊断方法基于主观自我报告,需要经过培训的临床医生,并可能受到文化污名和获取障碍的影响。这些限制促使研究人员探索能够改进临床评估的客观生物标志物。语音通过韵律、发音和语音质量的变化包含了丰富的心理状态信息。越来越多的证据表明,声学特征可以作为抑郁症诊断的客观、无创的生物标志物(Maurer等人,2018年;Stuart等人,2014年;Mundt等人,2012年)。这些特征包括音高变化减少、说话速度减慢、停顿时间延长以及语音质量变化。
计算精神病学已成为基于音频语音的抑郁症分类研究的一个新兴领域,许多研究表明确实可以使用机器学习(ML)算法对抑郁症患者和健康个体进行分类(Yamamoto等人,2020年;Donaghy等人,2024年)。然而,这些框架存在一些弱点,需要进一步研究。例如,在一个数据集上训练的模型无法应用于其他人群、录音设置或语言,这表明模型学习完全依赖于特定数据的方面,而非普遍的抑郁症相关特征。这种跨数据集泛化的弱点意味着基于语音的抑郁症检测系统无法应用于临床环境(Qin等人,2025年;Seneviratne和Espy-Wilson,2020年;Maji等人,2024年)。
为了解决这个问题,本研究重点关注特征的可靠性和可迁移性,以识别在不同数据集中始终与抑郁症相关的声学特征。尽管深度嵌入模型表现优异,但本研究使用了手工制作的特征,因为它们具有较高的可解释性。诸如基频变化、谐波与噪声比、频谱平坦度和梅尔频率倒谱系数(MFCCs)等特征已被反复证明与抑郁症中的心理运动迟缓、单调语音和声音能量降低有关。然而,对于这些描述符中哪些对语言、说话者身份和录音设置的变化具有鲁棒性,目前仍了解有限(Zhao等人,2022年;Afshan等人,2018年;Taguchi等人,2018年)。
本研究使用了两个公开可获取的大规模数据集:多模态开放精神障碍分析数据集(MODMA)(Cai等人,2022年),其中包含普通话语音数据;以及扩展的痛苦分析访谈语料库(E-DAIC)(Ringeval等人,2019年),其中包含英语语音音频数据。我们从短暂重叠的音频样本中提取了107个手工制作的特征,包括韵律、频谱和语音质量特征。为了找到能够一致代表抑郁症的特征,使用了多种选择方法,包括L1-逻辑回归(Ng,2004年)来发现稀疏特征,RFE-SVM(递归特征消除与支持向量机)(Guyon等人,2002年)来识别非冗余特征,mRMR(最小冗余最大相关性)(Peng等人,2005年)来选择非冗余特征,Boruta(Kursa和Rudnicki,2010年)用于基于树的特征选择,以及稳定性选择(英国皇家统计学会,1912年)来选择稳健特征。生成的特征集通过Borda计数聚合框架进行了整合,得到了跨选择器和重复实验的稳定特征列表。为了评估判别性能,使用共识选择的特征训练了多种分类算法,包括逻辑回归(LR)、支持向量机(SVM)、CATBOOST和弹性网络(EN),进行了数据集内和跨数据集实验。为了进一步分析,使用K-sweep方法研究了改变排名最高特征数量对模型性能的影响,找到了紧凑性和准确性之间的最佳平衡。通过相关性对齐(CORAL)作为特征空间适应策略,减少了两个数据集之间的领域差异。
我们的研究结果表明,虽然可以在个别数据集中获得高准确性,但在不同数据集之间获得一致的结果仍然相对较低,这反映了语言的根本多样性。然而,某些特征(尤其是与音高变化、谐波与噪声比、频谱斜率和MFCC统计特征相关的特征)在不同数据集中是一致且具有预测性的。这些发现表明,选择在广泛数据集中表现良好的强特征比使模型在特定数据集中表现良好更为重要。这种方法使得基于语音的抑郁症检测系统能够适应新的人群,具有临床可解释性,并适用于实际应用。
本研究的主要研究问题是:(1)在不同人群和录音设置中,MDD和健康受试者的共同声学特征是什么?(2)这些特征选择在不同运行和不同特征选择算法之间的稳定性如何?(3)跨数据集迁移的性能成本如何,是否可以通过领域适应方法来缓解?(4)语言和文化泛化是否具有普遍的声学生物标志物?
研究的结果包括:(1)一个专门为跨数据集鲁棒性设计的多方法特征选择框架,用于检测抑郁症;(2)系统地测试了两种大型抑郁症相关数据集中特征的稳定性和可迁移性;(3)发现了可以在不同人群和录音条件下通用的共享声学生物标志物;(4)对领域损失和领域泛化指标进行了数值评估;(5)一个完整的开源实现,可用于可重复的研究。
本文的其余部分结构如下:第2节回顾了基于语音的抑郁症检测和特征选择方法的相关工作。第3节解释了我们的数据集、方法论和实验设计。第4节讨论了我们的结果。第5节提供了讨论和结论,以及当前方法的局限性。

文献综述

越来越多的研究表明,语音携带与抑郁症相关的可测量信号,尤其是在韵律、语音质量和发音方面。早期研究报道了语音参数与抑郁症之间的关系(Tolkmitt和Scherer,1986年;Wittels等人,2002年)。最近的自动化研究发现,抑郁症患者通常表现出较低的音高变化、较慢的说话速度、增加的抖动/闪光以及较低的谐波与噪声比(HNR)

数据集

我们使用了来自中国甘肃兰州大学第二医院的MODMA数据集的语音数据(Cai等人,2022年)。MODMA旨在通过整合客观生理和行为信号与临床诊断信息来支持抑郁症的计算研究。该数据集包括根据《精神障碍诊断与统计手册》第四版的临床指南验证的MDD和健康受试者的数据记录

结果

我们对两个数据集应用了五种特征选择方法(L1-LASSO、RFE-SVM、mRMR、稳定性选择和Boruta)。通过多次运行并使用不同的随机种子确保了生物标志物的稳健识别。

讨论与结论

我们的研究提出了一种综合的多方法共识方法,用于识别适用于不同人群、语言和录音环境的抑郁症通用声学生物标志物。通过对两个大规模数据集(MODMA和E-DAIC)中的五种互补特征选择算法进行系统评估,我们证明了基于共识的特征选择结合领域适应技术可以支持有效的跨数据集抑郁症检测

资助

本研究未获得外部资助。

CRediT作者贡献声明

Musyysb Yousufi:撰写——审稿与编辑、撰写——初稿、可视化、软件、资源、方法论、正式分析、数据管理、概念化。Rytis Maskeliunas:撰写——审稿与编辑、撰写——初稿、验证、监督、项目管理、资金获取、正式分析、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号