基于情感引导的多模态对齐技术在多模态抑郁症检测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Speech & Language》：Emotion-guided cross-modal alignment for multimodal depression detection

【字体：大中小】 时间：2026年01月30日 来源：Computer Speech & Language 3.4

编辑推荐：

　　抑郁症多模态检测需解决情绪线索捕捉、跨模态对齐和类别不平衡三大挑战。本文提出融合显式情绪监督、对比式跨模态对齐与 Lovász 损失优化宏F1的框架，通过情绪类别嵌入增强多模态特征，利用对比学习建立语义对应，直接优化分类指标。实验表明在 EATD-Corpus 上达到 87.40%±0.46% 宏F1，跨 DAIC-WOZ 验证时 F1 提升达 12.34%。

贾文哲|王宇航|康雅慧

齐齐哈尔医科大学，中国黑龙江省齐齐哈尔市建华区北布奎街333号，161000

摘要

从多模态数据中检测抑郁症状对于早期干预和心理健康监测至关重要。然而，现有系统面临三个挑战：(i) 捕捉区分抑郁状态与正常情绪变化的微妙情感线索；(ii) 在异构的语音和文本模态之间建立可靠的对应关系；(iii) 处理现实世界语料库中的严重类别不平衡问题。为了解决这些挑战，我们提出了一个框架，该框架结合了显式的情感监督、跨模态对齐和基于指标的优化，以实现鲁棒的多模态抑郁检测。通过从监督信号中提取的情感类别嵌入来增强声学和词汇特征，以提供情感上下文，同时通过对比对齐目标加强语义对应关系。为了减轻不平衡问题，我们直接使用Lovász损失函数优化宏观F1分数。在情感音视频语料库（EATD-Corpus）上，我们的框架在使用数据集提供的情感信息时达到了87.40%的宏观F1分数（±0.46%），而在使用预测的情感信息时达到了83.15%的宏观F1分数，而没有情感信息时的准确率为71.82%。在Distress Analysis Interview Corpus – Wizard of Oz（DAIC-WOZ）上的跨数据集评估中也显示了一致的改进，包括使用情感信息后F1分数提高了12.34%。这种结合情感监督、跨模态对齐和基于指标优化的方法为抑郁检测做出了新颖的贡献。我们的框架为现实世界中的多模态抑郁检测提供了一个实用且鲁棒的解决方案。

引言

抑郁症已成为一个全球性的心理健康危机，影响了超过2.8亿人，并且是导致残疾的主要原因之一（世界卫生组织，2023年）。标准的评估方法依赖于临床访谈和自我报告问卷，但这些方法受到主观性、临床医生时间和获取障碍的限制（张等人，2024a）。这些限制促使人们寻求自动化、客观的方法来支持可扩展的筛查。

多模态学习通过分析互补的行为信号提供了一个有前景的方向（杨等人，2022年；卡明斯等人，2023年）。对话语音既包含语言内容，也包含反映心理状态的声音韵律。文本揭示了负面思维模式和改变的自我指称语言等语义标记，而音频则捕捉到了音高变化减少和停顿延长的韵律线索（洛等人，2023年）。与单模态方法相比，整合这些异构线索已被证明可以提高检测效果（牛等人，2024年）。

尽管取得了进展，当前的多模态系统仍面临三个根本性挑战。首先，抑郁症的情感表现往往很微妙；没有针对性情感信号的模型可能会错过细粒度的线索。其次，语音和文本在语义上是异构的，简单的融合会留下表示上的差距，从而削弱跨模态对应关系。第三，公共语料库存在严重的类别不平衡问题，但训练目标通常与部署指标不匹配，导致少数类别的召回率降低（哈克等人，2023年）。

为了解决这些问题，我们提出了一个基于情感的跨模态对齐框架，做出了三个关键贡献。具体来说，我们通过将标签派生的情感类别嵌入注入语音和文本处理流程中，引入了情感引导的表示条件化。虽然情感信息在心理健康检测中已被探索——主要是通过多任务学习，其中情感预测作为辅助目标（戈什等人，2022a、2022b、2021年、2022c）——但我们的创新之处在于使用情感标签作为显式的、直接的支持信号，而不是隐式的多任务迁移。这种设计使得情感整合更加可控，并且即使在使用自动预测的情感标签时也证明了有效性，这一点已在我们的实验中得到验证。其次，我们提出了对比跨模态对齐方法，在共享的表示空间中建立语音和文本模态之间的稳健语义对应关系，有效弥合了现有融合方法中的模态差距。第三，我们证明了使用Lovász损失函数进行基于指标的优化可以在严重类别不平衡的情况下直接优化宏观F1分数，从而在保持高精度的同时提高少数类别的召回率。在EATD-Corpus上的广泛实验以及在DAIC-WOZ上的跨数据集评估（使用情感信息后F1分数提高了12.34%）证实了每个组件的有效性以及该框架在跨数据集上的鲁棒泛化能力。

本文的其余部分组织如下：第2节回顾了多模态抑郁检测和情感感知方法的相关工作。第3节详细介绍了我们提出的框架。第4节描述了实验设置和结果。第5节提供了讨论和分析。最后，第6节总结了本文并提出了未来的研究方向。

方法论

我们通过一个综合流程解决了多模态抑郁检测中的三个根本性挑战，该流程包括显式的情感监督、跨模态对齐和基于指标的分类。图1展示了整体架构，该架构通过四个连续阶段处理对话数据：多模态特征提取、情感引导的增强、跨模态对齐和基于指标的分类。该流程将原始的语音-文本对转换为抑郁数据

实验

我们在两个公开可用的抑郁检测语料库上评估了我们的框架，这两个语料库在语言、收集协议和评估工具方面有所不同。本节详细介绍了数据集、实验配置和评估协议。

结果与分析

本节展示了我们的情感引导跨模态对齐框架在多个评估维度上的有效性。

结论

本研究提出了一个基于情感的跨模态对齐框架，通过系统地整合三个互补的创新来推进多模态抑郁检测。通过将标签派生的情感嵌入作为显式的监督信号，通过对比学习和注意力建立双机制跨模态对齐，并通过Lovász损失函数直接优化评估指标，该框架在EATD-Corpus上实现了87.40% ± 0.46%的宏观F1分数，证明了其有效性

CRediT作者贡献声明

贾文哲：撰写——审阅与编辑，撰写——初稿，软件开发，方法论设计。王宇航：撰写——审阅与编辑，数据分析。康雅慧：撰写——审阅与编辑，可视化设计。

资助

黑龙江省省级高校基本科研经费（2021-KYYWF-0385）。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关研究

方法论

实验

结果与分析

结论

CRediT作者贡献声明

资助

利益冲突声明

热点排行