用于优化抑郁症生活方式行为的个性化机器学习引导干预：一项试点研究

《NPP—Digital Psychiatry and Neuroscience》：Personalized machine learning guided intervention for optimizing lifestyle behaviors in depression: a pilot study

【字体：大中小】 时间：2026年05月20日 来源：NPP—Digital Psychiatry and Neuroscience

编辑推荐：

　　针对抑郁症，亟需个性化、数据驱动的干预措施。在此，研究人员利用N-of-1机器学习（ML）来优化针对抑郁症的行为生活方式干预。50名患有轻度至中度抑郁症的个体参与了这项单臂、开放标签的个性化情绪增强（Personalized Mood Augmentation

针对抑郁症，亟需个性化、数据驱动的干预措施。在此，研究人员利用N-of-1机器学习（ML）来优化针对抑郁症的行为生活方式干预。50名患有轻度至中度抑郁症的个体参与了这项单臂、开放标签的个性化情绪增强（Personalized Mood Augmentation, PerMA）试点临床试验（NCT05662254）。参与者完成了一个为期两周的数字监测阶段，使用基于智能手机的生态瞬时评估（Ecological Momentary Assessments, EMAs，4次/天）以及智能手表对情绪和生活方式因素（睡眠/运动/饮食/社交联系）的追踪。从这些数据生成了个性化ML模型，以识别对个体情绪最具预测性的生活方式因素，并将结果转化为个体化的情绪增强计划（individualized mood augmentation plans, iMAPs），由参与者在每周一次健康教练指导下实施六周。干预完成者（n=40）显示出抑郁症状的显著减少（主要结局自评PHQ9：?3.5±3.8，Cohen’s d=?0.89，CI [?1.25 ?0.53]，p<0.001；临床医生评定HDRS：?7.2±6.8，d=?1.03，CI [?1.41 ?0.65]，p<1E-6），且益处持续至12周随访。共病焦虑也显著减少（GAD7：d=?0.85，CI [?1.2, ?0.49]，p<0.001），生活质量得到改善（d=0.68，CI [0.33, 1.02]，p<0.001）。此外，抑郁症中受影响的客观认知指标包括选择性注意（d=0.51，CI [0.18, 0.84]，p<0.001）、干扰加工（d=0.53，CI [0.2, 0.85]，p<0.01）和工作记忆（d=0.66，CI [0.31, 0.99]，p<0.001）均显示出显著增强。EMA追踪证实，抑郁情绪的改善特别由个体化靶向生活方式的改善所预测（β=0.4±0.09，p<0.0005）。最后，决策算法和大型语言模型（Large Language Model, LLM）能够以高达95%的准确率匹配人类教练主导的iMAP分配。PerMA试验提出了一种针对抑郁症的个性化生活方式干预方法，值得扩大规模和随机对照试验（RCT）测试以确立临床疗效。PERMA已在ClinicalTrials.gov注册，注册号为NCT05662254。

论文解读：个性化机器学习引导的生活方式行为优化干预在抑郁症中的应用——PerMA试点研究

研究背景与问题提出

抑郁症是全球范围内导致疾病负担最重的心理健康障碍之一，在美国总人群中抑郁发作的患病率约为18%，在年轻人中高达21%。其带来的社会经济成本最近估计超过3800亿美元，医疗成本是主要驱动因素之一，同时还包括家庭和工作相关成本。值得注意的是，大多数（约67%）抑郁症病例属于轻度至中度抑郁范畴，对此类人群，综合行为健康治疗被推荐作为有效且可扩展的一线解决方案。这些治疗包括身体活动/运动、饮食调整、充足睡眠和社交互动，以及正念冥想，所有这些在单独的抑郁症临床试验中都显示出了治疗效果。然而，生活方式干预试验的荟萃分析发现其对缓解抑郁的效应量处于低到中等水平（Cohen’s d约0.3–0.5）。这类同质分配（非个性化）行为干预研究的一个主要局限在于，不同个体之间，与其抑郁最密切相关的特定生活方式因素存在异质性。因此，单一的生活方式治疗领域不太可能普遍有益，这些研究未能解释可能有利于某种行为健康解决方案而非另一种的个体差异。这一局限激发了开发针对每个个体量身定制的个性化治疗的新动力。事实上，针对轻度至中度抑郁症的个性化行为健康解决方案可能被证明是更有效、可扩展和可及的，因此优化此类治疗为社会带来了巨大的益处。

目前，多个医疗领域的研究表明，个性化治疗可提高治疗依从性以及满意度。一项使用个性化优势指数（Personalized Advantage Index, PAI）来分配认知或人际治疗给个体的抑郁症干预研究表明，接受PAI指示治疗与患者长期症状严重程度的降低有关，相比PAI非指示治疗。最近多项个性化心理干预的系统综述和荟萃分析发现，相比标准治疗，个性化显著改善了治疗的效应量。然而，值得注意的是，所有这些个性化干预研究都使用基于多受试者数据的预测模型。虽然这可能足以区分抑郁症的亚型，但此类模型并未捕捉驱动抑郁情绪日常波动的个体生活方式属性。此外，基于特定人群数据的此类模型可能无法泛化，因此可能无法正确分配最优治疗。基于群体数据机器学习的一种替代方法是设计基于个体随时间自身数据链接生活方式特征与抑郁情绪的模型——也被称为特质论（idiographic）或N-of-1建模。

研究概述与意义

总体而言，这项试点研究旨在基于针对个体生活方式量身定制的、数据驱动的N-of-1 ML模型，提供个性化的行为干预。研究人员此前已证明了基于生态瞬时评估（EMA）和被动智能手表数据对个体抑郁情绪进行高精度ML建模；此外，利用模型解释器（如Shapley图），研究人员已识别出每个个体的顶级预测干预目标。经过培训的健康教练可以利用这些预测信息来确定每个个体的最优行为干预。通过健康教练交付行为健康干预还具有相比反复就诊持证心理健康护理提供者（即精神科医生或临床心理学家）成本效益更高的附加好处，并且在低收入环境中可能特别有益。此外，研究人员采用多维方法评估试验结果；症状评估辅以主观心理健康行为和生活质量变化的评估，以及抑郁症中受影响的神经认知客观指标变化的评估。总的来说，据研究人员所知，这是第一项使用数字生活方式标记实施针对抑郁情绪的N-of-1 ML个性化行为干预的研究。如果证明有效，这种个性化方法可以成为一种有前景的方式，以远程提供针对个体生活方式优化的、可扩展的抑郁症治疗。

关键技术方法

研究人员开展了名为“个性化情绪增强（PerMA）”的单臂、开放标签试点临床试验（NCT05662254），纳入50名来自圣地亚哥社区、患有轻度至中度抑郁症（PHQ9评分5-17）的受试者。研究分为两个阶段：第一阶段为为期2-4周的数字监测阶段，受试者使用智能手机App（BrainE?）进行EMA（每日最多4次，共60次会话）并结合三星智能手表追踪情绪及生活方式因素（睡眠、运动、饮食、社交联系）；基于此数据，研究人员构建N-of-1个性化机器学习（ML）模型，利用SHAP（SHapley Additive exPlanations）值排序识别预测个体抑郁情绪最重要的生活方式特征，并制定个体化情绪增强计划（iMAPs，靶向睡眠、运动、饮食或社交联系四大领域之一）。第二阶段为6周的干预实施阶段，受试者每周与健康教练进行约20分钟的一对一视频通话（指导会话，GS），接受基于iMAP的行为干预指导，并继续每日完成EMA追踪。主要临床结局为干预前后自评抑郁量表（PHQ9）评分变化，次要结局包括焦虑（GAD7）、临床医生评定抑郁（HDRS）、生活质量（MCS12）、正念（MAAS）及多项客观认知测试（选择性注意、干扰加工、工作记忆、情绪偏差）；同时使用稳健线性回归、重复测量ANOVA、Friedman检验等非参数检验进行数据分析，并探索了使用决策算法和大型语言模型（LLM, Google Gemini）自动化iMAP领域分配的可行性。

研究结果

模型准确性、干预可行性与依从性

所有50名入组受试者完成了前后评估，46人完成了数字监测阶段（即第一阶段干预期间100% EMA完成，其余4人完成了31% EMA）。所有受试者的个性化最佳拟合ML模型显示出高准确性（75.3±15.2%，以100减去平均绝对百分比误差MAPE计算）。80%受试者（n=40）完成了全部6次教练指导会话（即第二阶段），平均在6周内报告了19.9±13次（共30次）EMA；10人因时间限制未完成第二阶段（其中4人未参与任何第二阶段干预，6人部分参与）。未完成者与完成者在基线人口统计学或抑郁评分上无显著差异。

主要抑郁结局的改善

40名试验完成者的自评抑郁症状（PHQ9）从术前到术后显著下降（均值±标准差变化=?3.5±3.8，效应量d=?0.89，CI [?1.25, ?0.52]，p<1E-13），甚至在数字监测阶段结束（即教练向每位受试者揭示iMAP时的第一次指导会话GS1）时已显著改善，且第二阶段结束时的结果显著优于第一阶段结束时。术后55%（22/40）受试者达到症状缓解（PHQ9评分<5）。PHQ9症状改善在6周（d=?1.06，p<1E-5）和12周随访（d=?0.52，p<0.05）时仍得以维持。iMAP领域（睡眠/运动/饮食/社交联系）协变量对重复测量ANOVA无影响（p=0.78），年龄、性别、种族等人口统计学因素也不影响这些结局。10名未完成者术前术后PHQ9评分无显著变化，表明无自发起效。

次要结局的改善

类似地，40名完成者的自评焦虑症状（GAD7）从术前到术后显著下降（变化=?2.5±3，d=?0.85，CI [?1.21, ?0.49]，p<1E-5），在GS3、GS5和术后时间点较术前显著下降，并维持至6周随访（d=?0.59，p<0.005）但未维持至12周随访。此外，术后相对于术前，临床评定的抑郁（HDRS: d=?1.03）、自评生活质量（MCS12: d=0.68）、正念（MAAS: d=0.78）均显著改善。客观认知结果中，选择性注意（d=0.51）、干扰加工（d=0.53）和工作记忆（d=0.66）的表现效率显著增强，但情绪偏差无显著变化。所有iMAP生活方式领域协变量或受试者人口统计学因素对上述任何指标均无影响。

主要与次要结局的关系

术后相对于术前的PHQ9变化与生活质量（MCS12）变化显著相关（β=?0.59±0.14，p=0.0004），即生活质量的改善与术后较低抑郁症状相关。该关系在6周和12周随访时同样显著。

与缓解相关的指标

分析显示，缓解者（术后PHQ9<5，22/40）与非缓解者（18/40）在基线焦虑（GAD7）和正念（MAAS）上存在显著差异，缓解者基线焦虑更低、正念更高，且即使在控制基线抑郁评分后这些关联仍显著。

抑郁情绪变化与iMAP靶向生活方式领域的关系

在第二阶段干预期间，个体靶向生活方式领域（相对于非靶向领域）的改善与抑郁情绪的改善显著相关（目标斜率β=0.4±0.09，p<0.0005；非目标斜率不显著）。这种关系在第二阶段前10次EMA（约前30%）完成时即已出现，并持续 thereafter。靶向生活方式领域的平均变化斜率显著（d=0.62，p<0.0005），而非靶向领域无显著变化，证实了干预的特异性。

自动化iMAP分配

研究人员探索了决策算法（Decision Algorithm, DA）和LLM（Google Gemini 2.5 flash）基于Shapley数据自动分配iMAP生活方式领域的可行性。朴素DA模型与人体教练分配匹配率达87.5%；LLM方法匹配率达92.5%；基于实际教练分配微调权重的DA方程匹配率达95%。

讨论部分总结与结论翻译

该研究引入了PerMA试点试验，作为一种新颖的、数据驱动的、基于N-of-1 ML的行为生活方式干预方法，用于轻度至中度抑郁症。试验包括一个两周的数字监测阶段，获取智能手机EMA和智能手表数据，基于此执行个性化ML并应用Shapley统计揭示最能预测个体情绪随时间波动的生活方式特征排名。基于顶级个性化ML Shapley特征，向每位受试者分配iMAP，进行为期六周、每周一次人体教练指导的干预。尽管人工智能（AI）聊天机器人治疗日益普及，但人体教练提供的理解深度和同理心仍是聊天机器人无法比拟的，因此研究人员整合了与每位患者进行远程每周视频检查的人体教练。

总体而言，该试点研究显示高度可行性：所有受试者生成了高准确性的最佳拟合ML模型，100%受试者完成了干预第一阶段（数字监测），80%完成了第二阶段（教练指导iMAPs）。关于未完成者，中止的主要原因是个人的繁忙日程限制了他们的参与。40名PerMA试验完成者显示出抑郁症状（PHQ9，主要结局）在术后显著缓解（效应量d=?0.89），并维持至6周和12周随访。次要结局也显示共病焦虑（GAD7）、临床评定抑郁（HDRS）、生活质量（MCS12）和正念注意觉知（MAAS）显著改善。此外，客观认知结局在术后显著改善。

主要PHQ9结局及大多数次要结局显示术后相对于术前变化具有稳健的中到大效应量。虽然该PerMA方法的首次实施缺乏对照组，但比较完成者（n=40）与未完成者（n=10）的效应量也较大（d=?0.84）。值得注意的是，PHQ9评分甚至在第一阶段结束（即数字监测结束对应教练首次揭示iMAP的GS1）时已显著改善，而在第二阶段结束（即iMAP成功实施后）结果显著优于第一阶段结束时。靶向iMAP干预领域（睡眠、运动、饮食或社交联系）不影响结局，表明当个性化时所有生活方式干预领域同样有效，但需注意统计效力有限。有趣的是，社交联系是实施最多的iMAP（40人中的17人），其次是运动（13人），这可能是因为相比睡眠（5人）和饮食（5人）iMAP，这些领域具有更多可建模的可操作变量。此外，年龄、性别和种族等人口统计学因素对试验结果无影响。值得注意的是，研究人员发现生活质量（QOL）的改善与术后及随访时抑郁的改善显著相关，这与证据表明我们靶向的所有生活方式领域的改善都与QOL心理成分汇总测量的改善有关的结论一致；此外，QOL改善已被证明可预测抑郁复发和复燃的较低几率，因此是治疗的一个非常重要的结局。

值得注意的是，虽然抑郁症可能与认知缺陷有关，但很少有抑郁症干预研究显示稳健的认知益处。在此，研究人员显示个性化生活方式干预显著改善了抑郁症状个体的选择性注意、干扰加工以及工作记忆——这些均为抑郁症中受影响的认知领域。此外，这些客观认知结局补充了主观行为结局，并证实了个性化生活方式优化的广泛益处。

研究人员还探讨了基线测量的任何行为/认知因素是否可以预测抑郁缓解至健康状态。在所有指标中，研究人员发现基线正念更高和焦虑评分更低个体更可能在术后缓解，即使控制基线抑郁评分后这些关联仍显著。这两个因素均与被效能感（即相信自己做出改变的能力）有关。正念也被证明可通过更强的自我意识和决策控制促进行为改变，这就是为什么简短的正念注意呼吸是研究的数字日程的一部分。总的来说，该结果表明了更强的自我效能感（通过更高的正念和更低的焦虑）对于实现抑郁缓解的重要性。

在此，研究人员还证实，在第二阶段干预期间，每个个体相对于第一阶段在主要靶向生活方式领域使用EMA测量的显著变化与抑郁情绪的改善显著相关。这一发现与文献中坚实的基础相一致，即睡眠、饮食和运动改善与抑郁症状改善有关。这种关系在第二阶段EMA完成前30%时即已出现，表明个性化生活方式行为的快速变化与情绪改善相关。第二阶段非靶向生活方式领域的变化不显著，且与抑郁情绪改善无关，强调了结局的特异性，即结果并非由所有领域的广义生活方式变化驱动。这些结果传达了将干预选择性个性化到最能预测每个个体抑郁情绪的生活方式领域因素的重要性。

最后，为了进一步简化和自动化iMAP分配，研究人员生成了一个决策算法（DA）以及一个LLM提示，其考虑了个性化ML结果的所有因素（教练在推荐特定iMAP时考虑的因素）。DA方法透明，是一个简单的结构化方程，为每个人输出首选iMAP的领域排名列表。LLM具有提供可能协助教练向参与者传达个性化见解的逻辑解释的优势，但底层模型是黑箱。因此，这两种方法是互补的。朴素DA和LLM均按先验设计（即未根据研究中实际iMAP分配进行迭代以避免过拟合数据集），这些方法与教练决策匹配率达87.5%（DA）和92.5%（LLM），表明在大多数情况下iMAP分配可以是一个简单直接的过程。基于实际教练iMAP分配对DA进行进一步经验微调后，算法匹配率提高至95%。但经验确定的微调DA权重过拟合于样本数据，仅适合作为概念验证。微调DA的5%错误率也可能由于适中样本量而被低估，因此尚未建议完全自动化而无任何人体教练审查。尽管如此，互补的DA+LLM方法可能在未来工作中作为人体教练的有用辅助。

该研究的主要局限是缺乏随机对照组。针对抑郁症靶向生活方式的行为干预通常显示约0.3–0.5的小到中等效应量，而行为干预的安慰剂效应甚至更小（RCT中约0.2）。该个性化ML引导试验的初步效应量0.8与认知行为疗法（CBT）观察到的效应量相似；然而，需要RCT来复制效应并进一步解释机器学习驱动个性化相对于非个性化的优势。没有RCT，研究人员不能明确确定干预效应。然而，该试点研究的主要目的是操作化个性化干预流程的概念验证。在此背景下，荟萃分析证据表明心理治疗的个性化是一种改善治疗结局的有效策略，即使是个性化的小效应量优势在临床人群水平上也可能具有重要影响。除了对照组，未来研究可能利用基于DA/LLM的iMAP分配来消除人体教练基于干预分配引入的潜在变异性。

该试点研究另一个局限是完成者样本量适中（40人）。虽然纯数字健康研究可能具有更大样本量（如类似的针对高血压的行为健康干预），但该研究结合了数字健康治疗和一对一患者-教练/临床医生组件。当查看混合人体交付的试点研究时，40的样本量与可比研究相当。此外，我们的N-of-1策略提供的高受试者内数据密度为传统横断面研究常缺乏的个体洞察稳健水平提供了补偿优势。

尽管存在局限性，该试验证明了数据驱动的个性化生活方式优化在改善抑郁症状、生活质量和认知方面的前景。鉴于数字健康实施方法，参与者的成本和后勤负担最小，并且此类生活方式干预进一步没有药物治疗的副作用。下一步的RCT将巩固该数据驱动的个性化干预的证据基础和实用性，以便大规模应用。

热点排行