通过时空双重度量融合图变换器实现的多模态抑郁识别

《Digital Signal Processing》：Multimodal Depression Recognition via Spatio-Temporal Dual-metric Fusion Graph Transformers

【字体：大中小】 时间：2026年05月11日 来源：Digital Signal Processing 3

编辑推荐：

　　杨洋|张鹏洲|徐国华|张光华中国太原市太原大学计算机科学与技术系，邮编030032摘要抑郁症是一种全球普遍存在的心理健康障碍，需要及时、精确的检测以实现有效的临床干预。现有的多模态方法主要使用单一网络架构，如卷积神经网络（CNN）或变换器（Transformers），这些架构主要

杨洋|张鹏洲|徐国华|张光华

中国太原市太原大学计算机科学与技术系，邮编030032

摘要

抑郁症是一种全球普遍存在的心理健康障碍，需要及时、精确的检测以实现有效的临床干预。现有的多模态方法主要使用单一网络架构，如卷积神经网络（CNN）或变换器（Transformers），这些架构主要捕捉全局信息，而忽视了细致的局部细节。为了解决这些不足，我们提出了一种新的方法，称为多模态时空双度量融合图变换器（MSTGT）。我们的方法首先设计了一个模内时空双度量图变换器，它包括一个模内时间双度量图变换器（ITDGT）和一个模内空间双度量图变换器（ISDGT），它们同时建模与抑郁症相关的全局和局部时空特征。我们提出了一种时空跨模态融合变换器（STCFT），它结合了时间跨模态注意力和空间跨模态注意力，从而实现了沿时间和空间维度的多模态信息的深度整合。此外，我们设计了一种片段对齐采样策略（SASS），以确保保留视觉和音频数据中的关键信息，同时最小化噪声的包含。在D-vlog和LMVD抑郁症数据集上的广泛测试显示，MSTGT的准确率分别达到了71.38%和73.59%，优于大多数现有模型。

引言

近年来，抑郁症的全球患病率显著增加。世界卫生组织（WHO）预测，到2030年，抑郁症将成为全球疾病负担的主要原因[1]。COVID-19大流行之后，全球报告了超过7000万新的抑郁症病例，还有更多的人出现了睡眠障碍[2]。这些情况因大流行引起的压力而加剧，给抑郁症的诊断和治疗带来了重大挑战。抑郁症的主要临床症状包括兴趣丧失、睡眠障碍、持续的低沉情绪和认知缺陷，在严重的情况下可能导致自我伤害或自杀倾向[3]。这些症状显著阻碍了社交、学术和职业表现，从而增加了社会负担。因此，早期检测和干预抑郁症至关重要。

传统的抑郁症诊断方法主要依赖于使用标准化量表的主观临床评估，如患者健康问卷-9项（PHQ-9）[4]、精神疾病诊断与统计手册（DSM-5）[5]和贝克抑郁量表（BDI）[6]。这些方法面临数据收集困难以及严重依赖精神病学专业知识的挑战。相比之下，多模态抑郁症检测系统利用深度学习算法处理的视觉和音频数据来开发诊断模型。这些系统可以在各种环境中实现无接触的抑郁症检测，无需心理量表或临床评估，显著提高了诊断效率。因此，开发一种客观、高效且可扩展的自动抑郁症识别技术对于克服传统离线临床诊断的局限性具有重要的临床意义。

关于抑郁症检测方法的研究主要使用了手动特征提取[7]或深度学习技术[9][10]。深度学习在自动特征提取、多模态整合和高维特征表示方面的能力越来越促使研究人员采用这些技术进行抑郁症检测。然而，单模态抑郁症检测仍然面临信息捕捉不完整的问题[11][12]。多模态数据，包括音频、视频、文本和生理信号，提供了患者情绪状态和行为模式的更全面视图。例如，音频中的韵律特征、视频中的微表情和身体动作、文本中的语义情感内容以及脑电图（EEG）中的神经活动模式为准确的抑郁症评估提供了补充数据。尽管获取生理信号需要大量人力和物力资源，并且难以扩展，但社交媒体数据易于获取且丰富。因此，本研究旨在利用社交媒体中的视觉和音频数据用于研究目的。

当前用于检测抑郁症的工作主要集中在建模多模态特征之间的全局时空交互上，而往往忽略了从视听源中提取详细的局部关键时空信息[13][14][15]。例如，DepMSTAT基于时空注意力变换器构建，使用空间注意力块（SAB）、时间注意力块（TAB）和多模态融合变换块（MTB）来捕捉全局时空依赖性和模态融合[14]。然而，它在从视听数据中提取细粒度局部时空特征方面还不够深入。DepMamba采用了分层建模与CNN残差块和Mamba，通过分层上下文信息整合关注全局时间建模[15]。尽管如此，它仍然不足以从视听源中提取复杂的局部时空特征，未能完全捕捉到复杂的局部模式。虽然这些全局时空特征能够很好地概括患者表达变化的总体模式和整体说话风格，有助于识别持久的情感模式，但对局部时空元素（如瞬间的声频波动和关键面部区域（如眼睛和嘴角周围的）细微动态变化）的研究仍然非常不足。本文利用双度量图和变换器，通过有效地结合全局时空特征与这些常被忽视的局部元素，使检测系统能够同时评估整体情感轨迹，检测到微妙的、短暂的异常，从而更全面和精确地评估情感状态，显著提高抑郁症检测系统的可靠性和有效性。

为应对这些挑战，本研究提出了一个端到端的多模态时空双度量融合图变换器（MSTGT）框架用于抑郁症检测。该框架的核心思想是通过双度量图机制显式建模细粒度的局部行为线索，以补充统一架构内的全局时空注意力。这种设计基于这样一个限制：单一距离度量可能只能捕捉有限的关系信息，而结合多个度量有助于从不同角度描述局部依赖性。该框架首先使用片段对齐采样策略（SASS）对视觉和音频数据进行预处理，以解决序列长度不一致的问题。随后，我们开发了模内时间双度量图变换器（ITDGT）和模内空间双度量图变换器（ISDGT），分别建模全局依赖性和细化时间和空间维度中的局部关系。对于局部关系建模，模型使用基于欧几里得距离和余弦相似度的Top-k策略构建自适应邻域来捕捉模内依赖性。时空跨模态融合变换器（STCFT）整合了跨模态的信息，以支持分层跨模态交互。最后，分类器处理融合特征以执行抑郁症分类。本研究的主要贡献总结如下：

1.
我们引入了一种双度量图机制，通过使用互补的相似性度量（即欧几里得距离和余弦相似度）构建自适应邻域来建模细粒度的局部时空依赖性。
2.
我们开发了一个由三个专用组件组成的多模态时空框架，即用于时间依赖性建模的ITDGT、用于空间关系建模的ISDGT以及用于跨模态信息整合的STCFT。
3.
我们设计了一种片段对齐采样策略来处理变长序列，同时保持时间连续性，并在两个真实世界数据集上验证了所提出的方法。

章节片段

方法

在接下来的部分，我们介绍了一个名为MSTGT的框架，它利用时空双度量融合图变换器来建模每种模态内的多模态时空信息。为了更好地捕捉与抑郁症相关的特征，MSTGT采用了一种混合架构，依次集成变换器和图组件。虽然标准的跨模态变换器在建模全局序列表示的长距离依赖性方面很有效，但它们的全局注意力

数据集

为了评估MSTGT在检测抑郁症方面的有效性，我们使用了大规模的多模态抑郁症视频博客数据集D-Vlog [44]和LMVD [45]进行了全面实验。这些数据集面向现实世界的音频-视频抑郁症检测场景。由于隐私限制，D-Vlog和LMVD数据集不提供原始多媒体文件。相反，它们由预先提取的68个面部标志点和声学描述符组成，我们使用这些作为输入

结论

本研究解决了过度依赖全局时空特征以及在抑郁症检测中忽视局部信息这一普遍问题。我们提出的MSTGT框架通过整合局部和全局特征，显著提高了多模态抑郁症检测的准确性。这种整合是通过创新使用模内时间双度量图变换器（ITDGT）和模内空间双度量图变换器来实现的

CRediT作者贡献声明

利益冲突声明

徐国华报告称，他获得了教育部计算智能与中文信息处理重点实验室和山西省数据智能与认知计算重点实验室的财务支持、文章发表费用和写作协助。张光华报告称他获得了山西省基础研究计划的财务支持。

杨洋于2023年从中国通信大学获得博士学位。她目前在中太原大学计算机科学与技术系工作。她的研究重点是情感分析、抑郁症检测和多模态融合技术。

摘要

引言

章节片段

相关工作

方法

数据集

结论

CRediT作者贡献声明

利益冲突声明

热点排行