基于面部视频心率变异性无接触筛查抑郁症状：一项大规模临床验证研究

《Translational Psychiatry》：Contactless depression screening via facial video-derived heart rate variability

【字体：大中小】 时间：2026年01月31日 来源：Translational Psychiatry 6.2

编辑推荐：

　　本研究针对抑郁症筛查工具缺乏客观性和可扩展性的临床难题，创新性地利用面部视频提取心率变异性（HRV）并结合人口统计学特征，开发了一种基于堆叠集成机器学习模型的无接触抑郁症状筛查方法。研究纳入1453名参与者，结果显示组合模型（AUROC 0.64）较单一特征模型性能更优，特征重要性分析揭示吸烟状况、性别和共病为最强预测因子。该非侵入性方法为大规模抑郁筛查提供了可行路径，具有重要临床转化价值。

在全球范围内，抑郁症作为一种常见的精神障碍，已成为导致残疾的主要原因之一，带来了巨大的疾病负担。然而，由于健康知识普及不足、社会污名化以及对专业治疗关系缺乏信任等因素，许多患者未能获得及时的精神健康治疗。尽管机器学习模型已被广泛应用于从语音模式、脑电图、眼动、社交媒体帖子等多种客观数据中检测抑郁症，但开发客观、可扩展的筛查工具仍然是该领域的迫切需求。其中，心率变异性（Heart Rate Variability, HRV）——即心跳间期的时间变化，作为自主神经系统（Autonomic Nervous System, ANS）活动的定量指标——受到了广泛关注。系统综述已证实HRV与抑郁症之间存在关联，抑郁症状与中枢自主网络相关，可能导致迷走神经传出减少和HRV模式改变。元分析一致表明，与未抑郁的对照组相比，重度抑郁症（Major Depressive Disorder, MDD）患者往往表现出更低的HRV，且HRV降低的程度常与抑郁严重程度相关。

尽管存在这些关联，但HRV在不同人群和真实世界环境中准确预测抑郁症状的实际效用尚不清楚。虽然人工智能（Artificial Intelligence, AI）技术的进步促进了更复杂的分析，但一些研究强调了仅依赖HRV进行抑郁检测的局限性。早期研究通常样本量小且在受控条件下收集数据，这可能限制了研究结果的普适性。近年来，技术进步，特别是可穿戴设备和远程光体积描记术（remote Photoplethysmography, rPPG）的发展，为大规模收集HRV数据提供了潜在解决方案，同时最大程度地减少了参与者的不适感并降低了对专业操作的需求。然而，将HRV分析从受控环境转化到自然主义环境面临显著挑战。例如，一项近期研究分析可穿戴设备衍生的HRV数据，在基于中度抑郁症状对参与者进行分类时，仅取得了有限的预测成功（受试者工作特征曲线下面积Area Under the Receiver Operating Characteristic Curve, AUROC为0.56）。这些发现凸显了在众多现实世界变异源中使用可穿戴设备数据进行横断面抑郁预测的难度。

鉴于这些挑战，探索与心理状态相关的、新颖、易获取且更稳健的生理信号捕获方法持续受到关注。在其他检测技术中，使用面部图像测量HRV已成为一种有前景的方法。本研究旨在探讨基于面部视频分析的无接触HRV检测技术的潜力。研究人员收集了来自2000多名个体的面部视频数据以推导HRV特征，从而解决了以往研究的样本量限制问题。随后，他们开发并评估了一个机器学习模型，该模型采用基于堆叠（stacking）的集成技术和递归聚类来处理潜在的噪声数据，以评估面部视频衍生的HRV在预测自我报告的抑郁症状方面的效用。主要目的是确定这种方法的预测性能，并探索其在对精神健康进行客观评估领域的潜在贡献。

本研究由研究人员开展，旨在基于常见症状和过程，采用跨诊断（transdiagnostic）方法调查精神障碍。数据收集时间为2021年8月2日至2023年10月1日。数据集包括心理量表评分、访谈录音、HRV以及血液和活动记录等生命体征数据。所有参与者在参与前均提供了书面知情同意。主要纳入标准包括年龄大于18岁、能够佩戴活动记录装置并能提供语音、面部视频、智能手机使用情况等数字数据。HRV数据在参与者到医院就诊当天在院内采集。最终分析共纳入1453名参与者，其中559名（38.5%）根据患者健康问卷-9（Patient Health Questionnaire-9, PHQ-9）评分≥5被归类为抑郁症状组，894名（61.5%）为无抑郁症状组（PHQ-9<5）。抑郁严重程度由PHQ-9确定，该量表评估过去两周内抑郁症状的存在和严重程度。作为抑郁症状的附加评估指标，还使用了医院焦虑抑郁量表抑郁分量表（Hospital Anxiety and Depression Scale depression subscale, HADS-D）进行描述性表征。

研究采用面部视频HRV检测软件（韩国专利号10-2150635）进行数据采集和HRV分析。评估前，参与者休息5分钟。使用标准网络摄像头以每秒30帧的速度捕获面部图像。软件通过远程感知面部肤色的细微变化来计算心率变异性（HRV）。自动识别面部感兴趣区域（Region Of Interest, ROI），从ROI提取的红、绿、蓝（Red, Green, Blue, RGB）信号经处理计算原始光体积描记术（Photoplethysmography, PPG）信号，并应用巴特沃斯带通滤波器（0.75–2.5 Hz）滤出心率相关频率成分。随后应用CHROM算法，利用RGB信号的特定线性组合来增强脉动成分同时抑制噪声，从而从滤波后的PPG信号推导RR间期。然后根据既定指南计算标准时域和频域HRV指标。获得的HRV参数包括：平均心率（Heart Rate, HR）、正常窦性心搏间期的标准差（Standard Deviation of the Normal-to-normal interval, SDNN）、相邻RR间期差值的均方根（Root Mean Square of Successive RR interval differences, RMSSD）、相邻RR间期差值大于50毫秒的百分比（percentage of successive RR intervals greater than 50 ms, pNN50）、总功率（Total Power, TP）、极低频（Very Low Frequency, VLF）、低频（Low Frequency, LF）和高频（High Frequency, HF）HRV、LF/HF比值、TP的自然对数（LnTP）、VLF的自然对数（LnVLF）、LF的自然对数（LnLF）、HF的自然对数（LnHF）、LF占总功率的百分比[LF(%)]、HF占总功率的百分比[HF(%)]以及一致性比率（coherence ratio）。该面部视频HRV估计方法的有效性已在MAHNOB-HCI数据集上得到验证。

统计分析方面，参与者根据PHQ-9状态分为两组。使用Mann-Whitney U检验和χ2检验比较两组的社会人口学特征和HRV参数。对于频域HRV参数（TP, VLF, LF, HF），在分析前进行自然对数转换以减少偏度。为了检查HRV测量值与抑郁症状存在之间的关联，将单变量分析中与抑郁症状相关的因素（P < 0.05）作为自变量纳入逻辑回归分析，并调整已知可能影响HRV和/或抑郁的人口统计学因素，包括年龄、性别、吸烟状况（是/否）、共病（是/否）（定义为有高血压、糖尿病、心绞痛或脑血管疾病中一种或多种病史）以及体重指数（Body Mass Index, BMI）。

机器学习方法上，研究开发了一个堆叠集成机器学习模型，使用HRV和人口统计学数据预测抑郁症状严重程度。最终的堆叠集成包含逻辑回归（Logistic Regression, LR）、梯度提升（Gradient Boosting, GB）、极限梯度提升（eXtreme Gradient Boosting, XGB）和支持向量机（Support Vector Machine, SVM）模型作为基学习器。采用SVM模型作为元学习器，将基学习器的预测整合为最终的分类决策。使用Optuna优化框架对每个基学习器和最终堆叠模型进行超参数调优，优化目标设定为最大化马修斯相关系数（Matthews Correlation Coefficient, MCC），该指标特别适用于评估不平衡数据集中二元分类的性能。使用分层5折交叉验证程序严格评估模型性能和泛化能力。性能通过计算MCC、AUROC和精确召回曲线下面积（Area Under the Precision-Recall Curve, AUPRC）等综合指标进行评估。训练和评估堆叠集成后，使用SHapley加性解释（SHapley Additive exPlanations, SHAP）分析来解释模型的预测，了解每个特征对预测结果的相对重要性和贡献。

参与者特征与组间差异

最终分析共纳入1453名参与者，抑郁症状组559人（38.5%），无抑郁症状组894人（61.5%）。参与者中位年龄55岁，女性占63.9%。抑郁症状组年龄略轻（中位数53岁），吸烟比例显著更高（15.9% vs 10.5%）。BMI和共病率在两组间无显著差异。HADS-D评分在抑郁症状组显著更高（中位数8 vs 4），验证了PHQ-9分组的有效性。

HRV参数与抑郁症状的关联

单变量分析显示，抑郁症状组静息心率更高，时域HRV指标（SDNN、RMSSD）和频域HRV指标（LnTP、LnVLF、LnLF、LnHF）均显著降低，表明抑郁症状与心率增快及广泛的HRV抑制相关。多变量逻辑回归分析调整年龄、性别、BMI、吸烟状况和共病后，证实平均心率、SDNN、RMSSD、LnTP、LnVLF、LnLF和LnHF仍是抑郁症状的独立预测因子。

用于预测抑郁的堆叠集成模型

堆叠集成模型在5折交叉验证中表现出最一致且最佳的MCC。比较三种特征集（仅HRV、仅人口统计学、组合特征）的性能发现，仅HRV特征预测能力非常有限（AUROC约0.6），仅人口统计学特征性能优于仅HRV，而组合特征集（HRV+人口统计学）性能最佳，表明人口统计学因素携带了主要的预测信息，但加入HRV测量值能带来微小但有意义的性能提升。堆叠集成方法被证明是评估中表现最佳的模型，其MCC在所有五个测试折中始终最高，优于每个基学习器。

特征重要性分析

SHAP分析显示，最具影响力的前三个特征均为人口统计学因素：吸烟状况、性别和共病。约半数排名前10的特征是HRV衍生指标。大多数基学习器（GB、XGB、SVM）严重依赖吸烟状况进行预测，而LR模型的特征权重更均衡。敏感性分析表明，这种差异主要源于模型不同的归纳偏差。

亚组和阈值敏感性分析

模型性能在亚组间不均一，在肥胖参与者（MCC: 0.65）和当前吸烟者（MCC: 0.51）中预测性能显著更高。HRV特征分布显示，肥胖亚组中抑郁与非抑郁组的LF/HF比和一致性比率差异更明显。模型区分能力在65岁以下年龄组中相对稳定（AUROC 0.66–0.70, MCC 0.29–0.47），在女性（MCC: 0.32）中略高于男性（MCC: 0.27）。随着PHQ-9诊断阈值提高，AUROC和MCC在 cutoff >5 后保持相对稳定，而AUPRC在较高阈值时逐渐下降。排除临床抑郁症诊断参与者后的分析显示，模型在非临床亚组中仍保持可比或略有改善的判别力，表明其捕捉的生理区别在非临床人群中同样存在。

研究结论与讨论部分强调，本研究首次在自然主义临床环境中大规模评估了基于面部视频HRV的无接触抑郁筛查工具。结果表明，虽然传统人口统计学因素（如吸烟状况、性别、共病）仍是抑郁症状的主要预测因子，但面部视频衍生的HRV特征增加了预测价值。与先前文献一致，抑郁症状参与者倾向于表现出HRV降低。较高的HRV值（如SDNN、RMSSD）反映了更强的迷走神经调节和自主神经灵活性，通常被视为应激韧性的标志；反之，较低的HRV表明副交感神经张力降低和适应能力减弱，这些模式与抑郁持续相关。当HRV与主要的人口统计学特征结合时，模型性能得到一致提升，表明HRV捕捉了人口统计学未能完全解释的部分抑郁表型。堆叠集成模型针对MCC进行了优化，虽然整体准确度一般，但其预测结果稳健且一致。与现有的数字精神健康筛查工具相比，本研究模型在超过1400名参与者的大型真实世界队列中开发和验证，突出了其实际可扩展性。该方法的简单性和非侵入性使得所获得的性能从实践角度看更具可接受性。该方法可能特别适用于社区精神健康计划、工作场所或学校健康检查，或远程精神病学服务。然而，在非受控环境中部署此类工具仍面临照明变化、参与者移动和相机异质性等挑战，未来工作需通过改进伪影校正和自适应信号归一化来解决。尽管当前模型准确度一般，但它为可及的抑郁筛查奠定了基础。通过进一步改进，如添加互补数据流、扩展到更大更多样的样本以及利用更复杂的特征，预计性能可以得到提升。研究结果强化了即使快速、无接触的评估也能获得对精神健康的有意义见解的观点，并鼓励在数字生物标志物与精神病学的交叉领域持续创新。

总之，本研究证明了结合基本人口统计学信息使用无接触面部视频HRV测量进行初步抑郁筛查的可行性。尽管人口统计学因素是最强预测因子，但加入HRV特征可适度提高分类性能。优化MCC的堆叠集成模型在验证折中实现了一致且平衡的判别。鉴于方法的简单性和可扩展性，它有望成为大规模精神健康筛查的可及工具，未来工作需要通过额外数据整合和模型改进来提高性能。该研究发表于《Translational Psychiatry》期刊。

热点排行

新闻专题