《Pattern Recognition》:Towards Stable Cross-Domain Depression Recognition under Missing Modalities
编辑推荐:
抑郁症多模态识别框架SCD-MLLM通过统一数据处理和自适应模态融合模块,有效解决数据异质性和模态缺失问题,在五个异构数据集上均优于SOTA模型和商业LLM。
Jiuyi Chen | Mingkui Tan | Haifeng Lu | Qiuna Xu | Zhihua Wang | Runhao Zeng | Xiping Hu
华南理工大学未来科技学院,中国广东省深圳市,511442
摘要
抑郁症对公共健康构成严重威胁,包括自杀风险,这凸显了及时和可扩展筛查的紧迫性。多模态自动抑郁症检测(ADD)提供了一个有前景的解决方案;然而,广泛研究的基于音频和视频的ADD方法缺乏一个统一的、可泛化的框架来应对各种抑郁症识别场景,并且对于在现实世界数据中常见的缺失模态表现出有限的稳定性。在这项工作中,我们提出了一个基于多模态大规模语言模型(SCD-MLLM)的跨领域抑郁症识别统一框架。该框架支持整合和处理来自不同来源的异构抑郁症相关数据,同时在模态输入不完整的情况下保持稳定性。具体来说,SCD-MLMM引入了两个关键组件:(i) 多源数据输入适配器(MDIA),它使用掩码机制和任务特定的提示将异构的抑郁症相关输入转换为统一的令牌序列,解决了不同数据源之间的不一致性问题;(ii) 模态感知自适应融合模块(MAFM),它通过共享的投影机制自适应地整合音频和视觉特征,从而在缺失模态条件下提高模型的鲁棒性。我们在五个公开可用的、来自不同场景的异构抑郁症数据集上进行了全面实验:CMDC、AVEC2014、DAIC-WOZ、DVlog和EATD。无论是在完整模态还是部分模态情况下,SCD-MLMM的表现都优于现有的最先进模型(SOTA)以及领先的商业LLM(Gemini和GPT),展示了出色的跨领域泛化能力、更强的捕捉抑郁症多模态线索的能力,以及在现实世界应用中对缺失模态的强稳定性。
引言
抑郁症是一种普遍存在的心理障碍,严重病例可能导致自杀行为。为了实现比传统的自我报告和临床访谈更及时和可扩展的评估,最近的研究探索了基于AI的自动抑郁症检测(ADD)方法,利用音频[1]、文本[2]、面部表情[3]、骨骼运动[4]和生理信号[5]来构建客观高效的识别模型。在这些模态中,音频、文本和视频由于它们的可访问性和丰富的情绪表达能力而被最广泛使用。然而,目前使用这些模态的ADD方法仍然面临两个关键挑战。
首先,当前的抑郁症识别模型在提供能够处理不同识别场景中异构数据的统一、可泛化框架方面仍然有限。这主要是由于数据来源的差异,包括临床访谈、在线问卷和自我叙述录音,以及不同的特征提取策略,如表1所示。因此,在一个数据集场景上训练的模型在转移到另一个场景时往往表现不佳。例如,Chen等人[12]提出的方法在CMDC访谈数据集上取得了优异的结果,但在应用于结构不同的EATD问卷数据集时性能下降了45%。
其次,现有的抑郁症识别模型难以适应缺失模态的场景。这是因为它们依赖于完整且一致的数据进行训练和推理。因此,当使用不完整的样本进行预测时,模型性能会显著下降甚至失败。然而,在抑郁症识别中,尤其是在现实世界场景中,缺失模态是常见的。例如,AVEC2014数据集在某些样本中缺少音频和文字记录,而DVlog数据集由于相机对齐问题而缺少面部记录。这突显了在现实世界应用中稳定性的关键需求。
总体而言,当前的多模态抑郁症识别方法受到数据异质性、缺失模态以及由于不同场景导致的跨数据集特征不一致性的限制。这些挑战凸显了迫切需要一个能够适应不同数据源同时对不完整模态保持稳定的统一框架,这对于实际应用至关重要。然而,构建这样的模型仍然具有挑战性。它必须能够联合建模多种模态,处理可变长度的输入,并在部分模态缺失的情况下提供一致、准确的情绪识别。
受到大型语言模型(LLM)在上下文理解和少样本泛化[13][14]方面的强大能力的启发,我们探索将LLM作为多模态抑郁症识别的骨干模型,因为LLM自然能够编码与抑郁症相关的丰富语义线索,并提供一个可以整合音频和视觉表示的接口。
然而,构建一个具有强泛化和稳定性的统一LLM框架面临三个关键挑战:
1) 多模态对齐的难度。多模态抑郁症数据与LLM语言空间之间的差距需要有效的对齐,以便LLM能够理解与抑郁症相关的语义信息。
2) 模态结构和长度的多样性。不同数据源的抑郁症数据集在模态结构和长度上的显著差异阻碍了大型模型有效处理输入的能力。
3> 缺失模态下的不稳定性。抑郁症数据集中缺失模态的普遍性导致训练动态不稳定和预测结果不一致,从而削弱了基于LLM的多模态抑郁症识别的可靠性。
在这项研究中,我们提出了SCD-MLMM,这是一个基于LLM的多模态抑郁症识别框架,它可以解决挑战1,即将异构的多模态抑郁症信号与骨干LLM的语言空间对齐。它还可以统一处理来自不同来源的抑郁症相关数据,如访谈、问卷和自我报告,同时在缺失模态的情况下保持稳定性。具体来说,它引入了两个核心组件:(i) 多源数据输入适配器(MDIA),它通过使用任务特定的提示和掩码机制将异构的、可变长度的文本输入标准化为统一的令牌序列,解决了不同数据格式之间的泛化问题;(ii) 模态感知自适应融合模块(MAFM),它通过检测音频和视觉输入的可用性并相应地选择不同的处理路径来解决挑战3。当同时存在音频和视觉输入时,它执行模态融合并将特征投影到语言空间中;如果缺少一种模态,则直接通过相同的层投影可用模态。在五个来自不同场景的公开可用的异构抑郁症数据集上的广泛实验表明,SCD-MLMM的表现优于现有的最先进方法(SOTA)和领先的商业LLM GPT-4o [15] 和 Gemini 2.5 [16],即使在缺失模态的情况下也能保持稳定的性能。
总结来说,我们的贡献包括三个方面:
- 我们提出了SCD-MLMM,一个基于LLM的统一多模态抑郁症识别框架。它支持跨数据集训练和推理,能够在不同场景中实现泛化识别,同时对缺失模态保持稳定性。
- 我们设计了多源数据输入适配器(MDIA),它利用场景特定的提示和掩码机制来对齐异构和可变长度的输入,解决了不同数据源之间的不一致性问题。
- 我们引入了模态感知自适应融合模块(MAFM),它采用了一种针对MLLM的模态感知门控机制,可以检测哪些模态存在,并将它们通过适当的处理路径进行路由,使基于LLM的框架能够处理完整和不完整的输入。
本文的结构如下:第2节回顾了多模态抑郁症识别和MLM的先前研究。第3节介绍了所提出的SCD-MLMM模型。第4节和第5节描述了本研究中使用的数据集和预处理过程,并报告了实验结果。最后,第6节总结了本文。
相关工作
相关工作
在本节中,我们回顾了现有的多模态抑郁症识别和多模态大型语言模型方法,并总结了抑郁症识别领域当前的挑战。
方法论
概念。 让 表示场景 j 的第 i 个抑郁症数据集(),其中 t, a 和 v 分别代表文本、音频和视频模态及其对应的序列长度。这里,I, Q 和 S 分别表示 访谈、问卷 和 自我叙述 类型,上标 (*) 表示缺失的模态。
问题定义。 在特定数据集 Dj(t, a, v) 上训练的模型通常无法泛化到其他不同场景的数据集 Dk(t, a, v(*))。
数据集
我们在五个公开可用的多模态抑郁症数据集上评估了我们的方法:CMDC [6]、AVEC2014 [7]、DAIC-WOZ [8] 和 EATD [11],这些数据集在数据来源和模态组成上有所不同(见表1)。
CMDC。 一个包含78名参与者的中文多模态数据集,其中19人为抑郁症患者,59人为非抑郁症患者,通过半结构化的临床访谈收集。它包含音频、文本和部分视频特征,只有45个样本同时包含所有三种模态。
AVEC2014。 一个德语数据集
不同数据集中的不同模态输入比较
为了评估SCD-MLMM在不同场景和模态组合下的泛化能力,我们在五个多模态抑郁症数据集上进行了实验:CMDC、AVEC2014、DAIC、DVlog和EATD。该模型在所有数据集上进行了联合训练,并使用不同的模态组合进行了评估,包括仅文本(T)、文本加音频(T+A)、文本加视频(T+V)和所有模态(T+A+V)。如表2所示,SCD-MLMM表现出强大且一致的性能
结论
我们提出了SCD-MLMM,这是一个用于跨不同场景(包括临床环境、在线评估和自我报告的情绪评估)识别抑郁症的多模态大型语言模型,同时能够处理缺失模态。通过采用Mistral 7B作为骨干模型,我们在特定于抑郁症的提示任务上对其进行微调。我们的方法通过模态对齐的令牌化流程整合了异构输入,并引入了模态感知自适应融合模块来增强音频
CRediT作者贡献声明
Jiuyi Chen:撰写——原始草稿,验证,方法论。Mingkui Tan:验证,方法论。Haifeng Lu:调查,数据整理。Qiuna Xu:可视化。Zhihua Wang:方法论。Runhao Zeng:撰写——审稿与编辑,方法论。Xiping Hu:监督,资源。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
致谢
这项工作部分得到了中国国家自然科学基金(项目编号U24A20327)、深圳市科学技术基金(项目编号JCYJ20250604173210013)和广东省教育厅重点科研项目(项目编号2024ZDZX3012)的支持。