非认知性序数生态瞬时评估的响应时间动态作为老年抑郁症症状变化的代理指标：一项纵向观察研究

《JMIR Aging》：Response Time Dynamics From Noncognitive Ordinal Ecological Momentary Assessment as a Proxy for Symptom Change in Geriatric Depression: Longitudinal Observational Study

【字体：大中小】 时间：2026年05月10日 来源：JMIR Aging 4.8

编辑推荐：

　　李朱浩 | 李智恒 | 朴世桓 | 杜刚镐 | 诺智炫 | 文尚俊 | 钟贞美 | 孙相俊 | 朴真英韩国首尔，Digital Medic有限公司医学研究团队 **背景** 老年人的抑郁症状会因社会隔离和难以获得基于诊所的心理健康服务而加剧。生态瞬时评估（EMA）

　　李朱浩 | 李智恒 | 朴世桓 | 杜刚镐 | 诺智炫 | 文尚俊 | 钟贞美 | 孙相俊 | 朴真英
韩国首尔，Digital Medic有限公司医学研究团队

**背景**
老年人的抑郁症状会因社会隔离和难以获得基于诊所的心理健康服务而加剧。生态瞬时评估（EMA）技术能够实现远程自我监测，并隐秘地捕捉反应时间（RT），这些数据可能成为评估心理运动能力和认知功能的指标。

**目的**
本研究探讨了利用基于EMA的反应时间动态来预测症状变化，并分析哪些人适合进行重复自我监测，以帮助治疗晚年抑郁症。

**方法**
研究中选取了49名65岁及以上的社区居民（平均年龄70.7岁，标准差5.8岁；女性35人，男性14人），他们均有重度抑郁症的病史。研究人员为这些参与者提供了每日EMA服务，并让他们自我报告情绪、食欲、睡眠质量和整体福祉状况。评估内容包括15项老年抑郁量表（GDS-15）、修订版流行病学研究抑郁量表（CESD-R）、9项患者健康问卷以及贝克焦虑量表。通过对RT数据进行不对称IQR处理，并按个体和反应水平进行z标准化后，利用指数衰减曲线对这些数据进行了建模。通过前后症状量表的对比，评估了EMA辅助护理的效果。随后通过相关分析探讨了RT特征与症状变化之间的关联。最终，应用贝叶斯多层建模来评估RT动态的临床相关性，包括不同群体的适应模式差异。

**结果**
在为期4周的EMA辅助护理期间，有抑郁风险的老年人整体症状显著改善（CESD-R平均变化11.5分，等级双序列相关系数r=0.78；GDS-15平均变化2.14分，Cohen d=0.76），同时他们的EMA依从性也很高（超过90%）。相关分析显示，描述性的EMA评分指标和原始RT数据与症状变化存在一定关联（CESD-R变化的r值约为0.29，9项患者健康问卷约为0.32，贝克焦虑量表约为0.35），但与老年抑郁症状的变化无显著相关性（GDS-15变化的r值约为0.24）。相比之下，从标准化RT数据中得出的指数衰减模型参数与抑郁症状变化显著相关，其中感受项的影响最为显著（例如，衰减率θb的r值为-0.398，渐近值θc的r值为-0.321）。贝叶斯多层建模进一步表明，接受EMA辅助护理的参与者比未接受护理的参与者适应速度更快（中位数衰减率比约为4.9，95%置信区间为1.44-14.31），而适应后的RT水平差异较小且不确定性较高（中位数衰减率比约为1.25，95%置信区间为0.95-1.58）。敏感性分析显示，不同模型设定下的衰减率效应一致。

**结论**
基于EMA的反应时间动态特性成为监测有抑郁风险的老年人症状变化的敏感指标。这些发现强调了RT作为数字生物标志物的潜力，有助于为老年人开发可扩展和个性化的心理健康干预措施。

**引言**
**晚年抑郁症的现代挑战**
人口老龄化重新引发了人们对晚年抑郁症的关注。单人家庭比例增加、家庭网络缩员以及社区联系减弱等因素会增加老年人的抑郁风险，尤其是在像韩国这样高度城市化的环境中[1,2]。这些变化也给以诊所为中心的护理模式带来了压力，尤其是对于独居且行动不便的老年人而言，因此需要远程、能及时响应日常生活需求的老年心理健康策略。

**生态瞬时评估：从监测到护理**
生态瞬时评估（EMA）能够在日常情境中实时、现场测量行为、情绪和想法[3,4]。这种评估方法能够减少回忆偏差，特别适用于随情境波动的症状[4]。移动技术和传感器技术的进步使得EMA能够隐秘且可扩展地应用，使其成为实用的心理健康支持方法的基础[5,6]。通过EMA进行反复自我监测可能具有治疗效果，尤其是与标准治疗方法结合使用时[7-11]；然而，效果因个体而异，尤其是对于基线症状较重的个体来说，EMA的效果可能较弱[12]。

**EMA反应时间：连接老年人的认知与抑郁**
近期的EMA研究不仅关注自我报告的内容，还关注“附带数据”，如反应时间（RT），这些数据可能反映潜在的认知过程。Chung等人[13]发现EMA RT与抑郁严重程度存在非线性（倒U形）关联，表明过快或过慢的反应都可能表示认知功能障碍（如冲动性或认知迟缓）。Hernandez[14]进一步指出，EMA RT与符号搜索表现相关，表明RT能反映一般性的处理能力，即使是在非认知任务中也是如此[14]。因此，基于EMA的RT数据可能有助于识别易患抑郁症状的个体。这与《精神疾病诊断与统计手册第五版》（DSM-5）中对重度抑郁症的描述一致，该手册提到了可观察到的心理运动迟缓[15]。Hernandez等人[16]应用漂移扩散模型对二值化的EMA反应进行分析，发现RT衍生参数（如漂移率和边界分离度）能够系统地反映神经质和抑郁症状等特质[16]。这些发现表明，EMA RT可作为连接认知效率与情感症状的指标。在老年人群体中，衰老和抑郁共同加剧了心理运动迟缓[17-19]。患有重度抑郁症的老年人相对于对照组启动和运动时间更长，这表明存在执行和运动方面的延迟[17]，且研究发现晚年样本中的心理运动迟缓效应尤为明显[20]。抑郁的老年人面对重复认知需求时适应性较低：症状越严重，反应时间学习曲线越慢，训练效果越差，适应速度越慢，预示着后续功能下降[21,22]。某些干预措施反而可能适得其反；例如，一项随机对照试验显示，速度训练后抑郁症状有所恶化[23]。综上所述，基于EMA的RT指标可作为监测晚年抑郁症患者认知-运动迟缓和适应能力的有效工具。

**利用序数尺度、非认知EMA RT的挑战**
尽管EMA具有潜力，但分析其数据仍存在挑战。虽然如5点或7点李克特量表这样的序数量表比二进制格式提供了更丰富的细节，但将其与RT数据结合需要额外的分析步骤。Hernandez等人[16]指出，情绪清晰度较高的个体对EMA问卷的反应更快，这可能与情绪反应性等特质及情境因素（如丧亲、急性疾病和日常压力）有关，从而掩盖了与认知障碍相关的迟缓现象。此外，移动EMA应用程序的界面设计也会影响用户响应速度（例如，使用频率较高的按钮或滑块）。这些应用特定的差异为分析序数尺度ERA引入了额外噪声。

**研究目的**
基于这些挑战，本研究旨在实现以下目标：首先，测试短期（≤4周）EMA使用加上常规护理是否有助于提高高风险老年人的症状；其次，分析多个基于EMA的特征（如症状评分、反应速度和RT适应）随时间的变化，重点关注RT动态作为改善的行为标志；第三，通过贝叶斯多层模型评估ERA辅助护理受益者与未受益者之间的适应模式差异。尽管样本量较小（n=50），但在多层框架中部分汇总数据可以提高估计稳定性，并处理缺失和不平衡的EMA数据[24]。贝叶斯后验推理为适应参数的群体差异提供了可解释的不确定性。

**方法**
**资格标准**
符合以下条件的参与者有资格参加研究：年龄在65岁及以上，性别不限，并通过韩国京畿道水原市老年心理健康与福利中心发布的招募通知表达参与意愿：(1) 由精神科医生确诊为抑郁症患者，过去3个月内未调整用药且症状未见加重；(2) 无痴呆、中风或帕金森病等可能影响研究的医学或神经性疾病；(3) 目前正在水原市老年心理健康与福利中心接受个案管理服务。

**伦理考虑**
所有符合条件的参与者在入组前均签署了书面知情同意书，并填写了人口统计信息和预评估问卷。完成问卷后，他们获得了关于如何安装和使用应用程序的详细指导，对不熟悉数字工具的参与者提供了额外帮助。鉴于 target 人群对数字设备的经验有限，仅纳入能够独立遵循BIG4+应用程序使用指南的参与者。参与完全自愿，参与者可随时退出研究且不会受到任何不利影响。所有程序均获得了韩国政府卫生福利部（MOHW；P01-202405-01-019）指定的公共机构生物伦理委员会的批准。所有参与者的隐私得到了保护，数据以去识别形式进行处理，仅授权研究人员可访问。电子数据存储在加密文件中，纸质记录存放在安全场所。参与者完成整个研究流程后可获得10万韩元（约67.50美元）的报酬。提前退出的参与者可根据完成周数按比例获得补偿。

**研究设计**
本研究采用观察性单臂设计，参与者为社区居住的老年人，通过水原市老年心理健康与福利中心招募。整个研究期间提供个案管理服务，包括每月一次的家庭访问和1至2次电话联系，个案管理者会监测参与者的日常生活状况和心理健康状况。此外，参与者还被要求在4周内使用BIG4+移动应用程序作为辅助护理工具。该应用程序专为研究目的开发，支持Android和iOS平台，通过7点李克特量表收集每日情绪、食欲、睡眠质量和整体福祉的自我报告。每位参与者访问中心两次：一次是在开始使用应用程序前（基线评估，V1），另一次是在4周结束后（后续评估，V2）。每次访问时，参与者需要完成由个案管理者纸质发放的问卷。

**标准化心理量表**
使用的标准化心理量表包括修订版流行病学研究抑郁量表（CESD-R）[27-29]的韩文版本、15项老年抑郁量表（GDS-15）[30,31]的韩文版本、9项患者健康问卷（PHQ-9）[32,33]以及贝克焦虑量表（BAI）[34,35]。

**数据预处理**
**处理RT异常值**
据我们所知，目前尚无确定的标准来识别与非认知和序数尺度EMA项目相关的RT异常值。由于本研究对象（高风险的老年人）具有高度特异性，需根据数据集内的分布经验性地定义可接受的RT值。我们采用了IQR规则（IQR为第三 quartile 与第一 quartile 之差）。考虑到RT分布高度右偏，我们为数据集设定了非对称边界：下界为Q1 – 0.5 × IQR，上界为Q3 + 1.5 × IQR。这些边界分别为每个EMA项目（感受、食欲、睡眠感受和整体评估）单独计算。分析中排除了响应时间（RT）超出这些范围的试验。预定义的异常阈值和决策过程的详细信息请参见多媒体附录1的第I部分。为了提高RT的可比性，我们对个体内的RT和响应选项进行了标准化，将每个潜伏期表示为该参与者在给定李克特水平上的典型速度。对于个体i、响应选项j（1-7）和试验k，标准化RT（Z-RT）的计算公式如下：Zijk = (RTijk - RTij) / σij，其中RTij和σij分别是参与者i在选项j上的RT的均值和标准差。这种z变换减少了上下文间和个体间的变异性，从而支持更可靠的后续分析。

从每位参与者4周的EMA数据中提取了描述性特征。对于每个EMA条目，我们计算了报告分数的均值、标准差、最小值、最大值和四分位数（第25、50和75百分位数），以描述整个研究期间的总体情绪模式。此外，还得出了一些基于EMA的RT的相同描述性统计量，作为认知处理速度和一致性的指标。除了总体响应潜伏期外，我们还量化了参与者如何随着时间的推移适应重复的EMA自我监控。这种“练习效应”（即，随着重复暴露RT逐渐减少）在认知任务中已有广泛记录，并且鉴于非认知RT也反映了认知特质的证据，因此与EMA相关[16]。尽管练习效应通常用幂律衰减来建模[36]，但指数衰减可能更好地捕捉老年人的适应过程，因为老年人通常表现出较慢的运动和认知调整[37,38]。因此，我们对每位参与者的纵向RT序列（包括原始RT和标准化RT）拟合了一个指数衰减曲线：ft = θa * exp(-θb * t) + θc，其中t表示时间或试验次数。参数通过非线性最小二乘法（Levenberg-Marquardt；scipy.optimize.curve_fit；最大迭代次数10,000次）进行估计。参数θa（幅度）反映了RT在初始阶段的提升，即f(0) - θc），表示在重复试验后潜在的改善幅度。参数θb（衰减率）表示适应速度，表明个体适应重复自我监控的速度。参数θc（渐近值或适应后的RT）表示观察窗口内的稳定潜伏期。该模型适用于原始RT和标准化RT，参数范围根据每个结果的规模和范围进行了调整。

在这个阶段，指数衰减参数是针对每位参与者单独估计的（即不进行部分汇总），以便在没有外部参考数据的情况下在自然环境中计算这些个体级特征。这种个体匹配的方法也有助于与其他从EMA中得出的特征（例如，自我报告分数和RT描述性统计量）进行公平比较，这些特征同样是在个体水平上计算的，而没有借助群体级信息。关于指数衰减模型拟合的技术细节，请参见多媒体附录1的第II部分。

在分析之前，选择一个适当的指标来衡量症状变化是一个关键步骤。虽然治疗反应通常使用简单的变化分数（post-pre）来操作化，但这种方法因其依赖于基线严重程度而受到批评，这导致了与基线值的负相关[39-41]。百分比变化分数可以调整基线差异，并在其他临床领域广泛使用[42,43]，但由于分布偏斜，它们可能难以解释并且可能会降低统计功效[40,41]。基于回归的替代方法（例如，协方差分析或残差变化分析）可以控制基线水平，但如果基线严重程度与治疗效应相关，则可能产生偏差估计，这在观察性研究中很常见[40,41]。鉴于这些考虑以及先前的方法学工作支持简单变化分数在非随机环境中的稳健性[40,44,45]，我们使用简单变化分数Δ(post-pre)作为主要的症状改善结果。

根据GDS-15得出的最低可检测变化（MDC）阈值，将参与者分类为“响应者”或“非响应者”。González-Domínguez等人在一项最近的元分析中[46]报告称，包括21项研究的5876名老年人（平均年龄76岁），GDS-15得分减少3.81分对应于MDC阈值，该阈值定义为只有5%的概率可归因于测量误差（95%置信区间3.59-4.04）[47]。基于这些发现，应用了-3.81分的MDC阈值，以减少分类的任意性并考虑测量误差。

进行了探索性分析，以评估基于EMA的自我监控对老年人群体的益处。由于采用了单臂设计，通过比较基线（V1）和干预后（V2）收集的症状分数，使用配对统计测试来评估基于EMA的自我监控在老年抑郁症中的有效性。测试的选择基于Shapiro-Wilk检验确定的差异分数的正态性。当满足正态性假设时，应用了配对样本t检验。在正态性假设不成立的情况下，使用了非参数的Wilcoxon符号秩检验。所有配对检验都是单尾的。

我们通过相关性分析检查了基于EMA的特征（特别是RT动态）是否跟踪症状改善。我们计算了EMA衍生特征与GDS-15上的Δ之间的Spearman相关性，并使用并行分析评估了CESD-R、PHQ-9和BAI的特异性。

为了检验基于EMA的RT动态的临床相关性，我们拟合了一个调节的贝叶斯多层次指数衰减模型，以测试不同MDC组的基于EMA的RT的适应模式是否有所不同。模型方程以完全随机化的形式展示。有关详细模型规格和理由，请参见多媒体附录1的第III部分。

对于每个观测值n=1, ..., Nobs，我们假设RTn～LogNormal(ηn,σlog)，因此log(RTn)～N(ηn,σlog2)，确保预测值为正，并适应RT数据中常见的右偏态。

预期log-RT在标准化时间t∈ [0, 1]内遵循特定受试者的指数衰减：ηn = θai * exp(-θbi * t) + θci,r，其中i索引受试者，r∈ 1, ..., R索引响应选项（李克特-7量表）。

幅度和衰减率在对数尺度（log-link）上进行建模，以允许受试者间变化，并受到MDC组的调节：log2θa(i) = β0a + β1a * g(i) + σa * za(i)，za(i)～N(0,1)；log2θb(i) = β0b + β1b * g(i) + σb * zb(i)，zb(i)～N(0,1)。基线log-RT或适应后的RT (\xF0\x9D\x9C\x83\xF0\x9D\x91\x96,\xF0\x9D\x91\x9F)被分解为组、受试者和响应选项组分：θc(i,r) = (β0c + β1c * g(i)) + uc(i) + αc(r) + ?c(i,r)，其中uc(i)～N(0,σsubj2)，?c(i,r)～N(0,σcell2)，且∑r=1时Rαc(r)=0，以确保可识别性。基线log-RT或适应后RT的分解符合提倡在个体内和响应选项内对RT进行标准化的框架。通过明确建模这些组分，模型考虑了观察到的潜伏期中的响应选项偏差，同时划分了特定受试者的基线方差。

我们使用了弱信息先验β0?～N(μemp,32)，β1?～N(0,32)，αc(r)～N(0,12)，σa，σb，σsubj，σcell～HalfNormal(1.5)，以及σlog～HalfNormal(1)。模型在PyMC中使用NUTS（4条链；每条链1000次热身+1000次抽样；目标接受度=0.95）进行拟合[48]。为了确定基于EMA的RT轨迹中的适当层次结构，我们比较了一组仅在随机效应规范上不同的嵌套贝叶斯指数衰减模型。具体来说，我们评估了（1）所有参与者参数固定的非层次模型，（2）允许某些参数在受试者层面变化的部分层次变体（例如，仅随机θb；随机θa和θb；随机θb和θcir），以及（3）关键组分在受试者层面变化的全层次模型。使用Pareto平滑的重要性抽样留一法交叉验证（PSIS-LOO）比较了模型，并通过预期的对数点态预测密度留一法交叉验证（ELPD-LOO）总结了样本外的预测性能。为了分离随机效应的贡献，在这种模型结构比较中省略了MDC组调节项。基于表现最佳的随机效应结构（选定的模型；随机θb和θc，θa在受试者之间固定），我们通过扩展选定模型以包括MDC组调节来测试临床相关性，允许这些参数在响应者和非响应者之间系统地变化。

使用贝叶斯后验摘要而不是频率主义假设检验来量化组间差异。对于对数链接的参数（例如θa，θb），效应表示为响应者与非响应者的乘积比率exp(β1)；对于对数RT尺度上的基线参数（例如θc），组效应在对数尺度上是加性的，并通过指数转换转换为RT比率。我们报告了从后验样本中逐次计算得到的响应者与非响应者比率的后验中位数，以及该比率的95%可信区间（CrI）。比率为1表示组间在原始尺度上没有差异；大于1的比率表示响应者的参数值较大（例如，比率1.30表示大约高30%），而小于1的比率表示响应者的参数值较小。95% CrI表示在给定模型和先验的情况下包含95%后验概率的范围。我们还报告了增加的后验概率P(RatioResponder/Nonresponder > 1|data)，该概率量化了响应者的参数值大于非响应者的证据。

模型分别针对每个EMA条目以及条目平均水平RT的结果进行拟合；对于平均水平结果，连续分数被离散为7个区间，以与条目级别模型中使用的响应选项结构对齐。最后，我们通过在不同弱信息先验（Student t）和更复杂的合理随机效应规范下重新拟合模型来进行敏感性分析，并验证了关键组效应结论在这些合理建模选择下的稳健性。

共有50名65岁或以上的老年人参与了研究（平均年龄70.6岁，标准差5.8岁），其中72%（n=35）为女性。在参与者中，49人有明确的MDD病史，1人有双相情感障碍病史。为了确保一致性并避免由双相情感障碍引起的自然情绪波动引起的混淆效应，只有患有MDD的参与者被包括在所有统计分析中（n=49）。基线心理评估显示多个领域的症状临床升高。预评估分数如下：GDS-15平均分=9.37（标准差4.42），CESD-R平均分=33.94（标准差18.24），PHQ-9平均分=13.04（标准差7.40），BAI平均分=22.76（标准差16.46）。研究期结束后，分数如下：GDS-15平均分=7.22（标准差4.44），CESD-R平均分=22.65（标准差16.15），PHQ-9平均分=8.59（标准差6.30），BAI平均分=13.31（标准差11.52）。所有参与者在4周内成功安装并使用了BIG4+应用程序，平均依从率超过93%。所有描述性细节总结在表1中。

表1. 人口统计数据、心理评估和移动应用程序（BIG4+）依从性的描述（N=49）。

描述性统计量
性别，n (%) 女性 35 (71.4)
男性 14 (28.6)
年龄（岁），平均（标准差）70.7 (5.8)
操作系统，n (%) Android 49 (100)
iOS 0 (0)
收入水平，n (%) 最低 0 (0)
中等 6 (12.2)
较高 15 (30.6)
最高 18 (36.7)
无回答 2 (4.1)
居住类型，n (%) 与家人同住 20 (40.8)
独居 29 (59.2)
与家庭关系，n (%) 非常差 5 (10.2)
差 8 (16.3)
中等 16 (32.7)
良好 15 (30.6)
非常好 4 (8.2)
无回答 1 (2.0)
亲近的人在场，n (%) 是 28 (57.1)
否 19 (38.8)
无回答 2 (4.1)
所属群体，n (%) 无 15 (30.6)
1个群体 19 (38.8)
2个群体 8 (16.3)
3个群体 5 (10.2)
4个以上群体 2 (4.1)
预评估量表（V1），平均（标准差） GDS-15 a9.4 (4.4)
CESD-R b33.9 (18.2)
PHQ-9 c13 (7.4)
BAI d22.8 (16.5)
后评估量表（V2），平均（标准差） GDS-15 7.2 (4.4)
CESD-R 22.7 (16.1)
PHQ-9 8.6 (6.3)
BAI 13.3 (11.5)
BIG4+依从性（%），平均（标准差） 93.8 (9.1)
aGDS：15项老年抑郁量表。
bCESD-R：修订版流行病学研究中心抑郁量表。
cPHQ-9：9项患者健康问卷。
dBAI：贝克焦虑量表。

为了评估基于EMA的自我监控的益处，比较了干预前后的4个心理量表（GDS-15、CESD-R、PHQ-9、BAI）的预评估和后评估分数。结果表明，CESD-R、PHQ-9和BAI分数违反了正态性假设（P值分别为.01、.01和.01），而GDS-15的差异分数没有（P=.33）。因此，对CESD-R、PHQ-9和BAI应用了Wilcoxon符号秩检验，对GDS-15使用了配对样本t检验（表2）。

表2. 干预前（V1）和干预后（V2）心理评估分数的配对检验。

量表检验统计量 P值秩数双相关 Cohen d
GDS-15a Student t 5.30 <.001 —
CESD-Rc Wilcoxon W 10 45.0 <.001 0.78
PHQ-9d Wilcoxon W 9 47.0 <.001 0.75
BAIe Wilcoxon W 9 40.0 <.001 0.82

aGDS-15：15项老年抑郁量表。
b不适用。
cCESD-R：修订版流行病学研究中心抑郁量表。
dPHQ-9：9项患者健康问卷。
eBAI：贝克焦虑量表。

所有4个指标在干预后均显示出统计学上的显著改善。CESD-R分数平均减少了11.50分（标准差15.8；SE 2.26；W=1045.00；P<.001），秩数双相关为0.78。PHQ-9分数平均减少了4.50分（标准差6.9；SE 1.00；W=947.00；P<.001），效应量为0.75。BAI分数减少了9.00分（标准差11.7；SE 1.67；W=940.00；P<.001），秩数双相关为0.82。GDS-15得分显著降低了2.14分（标准差2.8；标准误0.40；t48=5.30；P<.001），相应的Cohen d值为0.76。EMA衍生特征与症状改善之间的关联通过相关性分析进行了研究。相关性分析的完整表格见多媒体附录2。EMA得分的描述性统计数据显示，与心理健康变化得分之间存在一般至中等的关联（表3），但ΔGDS-15在各项目之间没有显著相关性。其他结果显示出显著的关联，表明症状变化与项目之间存在特定联系：ΔCESD-R与食欲最低值（r=0.294；P=.04）和总体评价（r=0.29；P=.04）相关。ΔPHQ-9与感受的中位数（r=0.291；P=.04）、平均值（r=0.325；P=.02）以及食欲评分的最低值（r=0.291；P=.04）和总体评价的最低值（r=0.286；P=.046）相关。对于焦虑，ΔBAI仅与睡眠质量评分的最低值（r=0.335；P=.02）相关。

表3. 心理健康变化得分（Δ）、EMA得分和EMA反应时间的描述性统计之间的关联。

a 类型，EMA
b 项目，特征
ΔGDS-15
c (rp)
ΔCESD-R
d (rp)
ΔPHQ-9
e (rp)
ΔBAI
f (rp)

EMA得分感受平均值
0.094 0.239 0.251 0.204 标准差
0.074 –0.246 –0.193 –0.255 最低值 –0.01
0.267 0.234 0.26 中位数
0.039 0.252 0.291 *0.234 最大值
0.233 0.001 0.062 0.025 食欲平均值
0.241 0.273 0.325 *0.152 标准差
0.145 –0.221 –0.136 –0.163 最低值 0.013
0.294 *0.291 *0.14 中位数
0.193 0.245 0.264 0.107 最大值
0.263 0.006 0.086 –0.07 睡眠质量平均值
0.119 0.074 0.197 0.16 标准差
–0.004 –0.231 –0.123 –0.192 最低值 –0.06
0.245 0.277 0.335 * 中位数
0.116 0.060 0.141 0.085 最大值
0.028 0.000 0.038 0.042 总体评价平均值
0.121 0.168 0.198 0.149 标准差
0.016 –0.26 –0.196 –0.203 最低值 0.029
0.29 *0.286 *0.261 中位数
0.106 0.156 0.175 0.162 最大值
0.024 0.072 0.040 0.101 EMA反应时间感受平均值
0.091 –0.073 0.2 0.108 标准差
0.092 0.074 0.091 –0.146 最低值 0.099 –0.028
0.17 –0.039 中位数
0.101 –0.129 0.175 最大值
0.107 0.103 0.181 –0.05 食欲平均值
0.195 –0.122 0.037 * 标准差
0.008 –0.141 –0.077 –0.282 最低值 0.105 –0.114
0.04 –0.158 中位数
0.229 –0.053 0.077 –0.261 最大值
0.044 –0.159 –0.049 –0.35 * 睡眠质量平均值
0.251 –0.067 0.011 –0.224 标准差
0.189 –0.003 –0.106 –0.123 最低值 –0.06
0.245 0.277 0.335 * 中位数
0.116 0.060 0.141 0.085 最大值
0.028 0.000 0.038 0.042 总体评价平均值

描述性统计数据显示，EMA得分与心理健康变化得分之间存在一般至中等的关联，但ΔGDS-15在各项目之间没有显著相关性。其他结果显示出显著的关联，表明症状变化与项目之间存在特定联系：ΔCESD-R与食欲最低值（r=0.294；P=.04）和总体评价（r=0.29；P=.04）相关。ΔPHQ-9与感受的中位数（r=0.291；P=.04）、平均值（r=0.325；P=.02）以及食欲评分的最低值（r=0.291；P=.04）和总体评价的最低值（r=0.286；P=.046）相关。对于焦虑，ΔBAI仅与睡眠质量评分的最低值（r=0.335；P=.02）相关。

表3. 心理健康变化得分（Δ）、EMA得分和EMA反应时间的描述性统计之间的关联。

a 类型，EMA
b 项目，特征
ΔGDS-15
c (rp)
ΔCESD-R
d (rp)
ΔPHQ-9
e (rp)
ΔBAI
f (rp)

描述性统计数据显示，EMA得分与心理健康变化得分之间存在一般至中等的关联，但ΔGDS-15在各项目之间没有显著相关性。其他结果显示出显著的关联，表明症状变化与项目之间存在特定联系：ΔCESD-R与食欲最低值（r=0.294；P=.04）和总体评价（r=0.29；P=.04）相关。ΔPHQ-9与感受的中位数（r=0.291；P=.04）、平均值（r=0.325；P=.02）以及食欲评分的最低值（r=0.291；P=.04）和总体评价的最低值（r=0.286；P=.046）相关。对于焦虑，ΔBAI仅与睡眠质量评分的最低值（r=0.335；P=.02）相关。

表3. 心理健康变化得分（Δ）、EMA得分和EMA反应时间的描述性统计之间的关联。

a 类型，EMA
b 项目，特征
ΔGDS-15
c (rp)
ΔCESD-R
d (rp)
ΔPHQ-9
e (rp)
ΔBAI
f (rp)

贝叶斯多层次建模进一步评估了基于EMA的反应时间（RT）轨迹在EMA辅助护理期间对抑郁症状改善的临床相关性。通过后验分布检验了响应者状态（β1）的调节作用，其中响应者被定义为GDS-15变化超过MDC阈值（ΔGDS-15≤–3.81）的参与者。由于先前的相关性分析表明只有来自感受项目的RT动态参数与ΔGDS-15显著相关，因此以下结果集中在针对感受项目RT的模型上（包括模型选择、充分性检查和群体效应）。群体差异使用后验估计、响应者与非响应者参数比率以及增加的后验概率进行了总结。

模型选择（随机效应结构）
PSIS-LOO模型比较偏好一个部分层次化的指数衰减模型，其中在衰减率（θb）和适应后RT（θc）上具有受试者水平的随机效应（图1A；ELPD-LOO=?459.7）。一个完全的随机效应模型表现相似（ΔELPD-LOO=1.3），但显示出更高的有效复杂性（ploo: 112.2 >109.5），表明允许受试者特定的幅度变化（θa）的预测效益有限。减少或没有随机效应的模型显示出较差的预测性能，支持需要对RT适应中的个体间异质性进行建模。因此，选择了具有随机衰减率（θb）和适应后RT（θc）的模型进行后续分析。

图1. 模型选择和诊断摘要。
(A) 根据随机效应结构的Pareto平滑重要性抽样留一法（PSIS-LOO）预期对数预测密度（ELPD）（数值越高越好）。
(B) 响应者状态调节项（β1）对关键参数（θb和θc）的马尔可夫链蒙特卡洛（MCMC）迹线图。
(C) 将观察到的反应时间（RT）摘要与后验预测中位数和94%区间进行分箱比较的PPC：后验预测检查。

模型充分性和诊断
基于选定的随机效应结构（随机θb和θc），添加响应者状态调节后在样本外预测性能上获得了小幅但一致的增益（ELPD-LOO: ?457.2 vs ?459.7；SE≈26.6‐26.7）。尽管绝对改善幅度不大，但它表明响应者状态解释了RT轨迹中的一些系统变化，超出了受试者间的异质性。LOO影响诊断结果是稳定的（99.7%的观察结果的Pareto k≤0.7），表明模型的预测评估不是由少数高影响力观察结果驱动的，PSIS-LOO近似是可靠的。马尔可夫链蒙特卡洛诊断进一步支持了可靠的后验推断。迹线图显示良好的混合性，没有可见的链分离（图1B），收敛指标（R≈1.00–1.01，ESS通常很高）表明后验摘要在数值上是稳定的，不太可能反映抽样路径问题。最后，后验预测检查表明模型捕捉了感兴趣的关键经验模式，模拟的轨迹再现了整体衰减趋势，分箱的观察平均值紧密跟踪后验预测中位数，同时大部分位于原始RT尺度的94%预测区间内（图1C）。这些检查共同表明，调节模型提供了对该样本中RT动态的充分和普遍的描述，支持对响应者与非响应者在适应参数上差异的下游解释。

响应者与非响应者在RT适应方面的差异
响应者在感受项目的RT适应方面明显快于非响应者（表5）。响应者与非响应者的衰减率比率显著大于1（中位数θb比率=4.86，95%置信区间[CrI] 1.44-14.31；P（增加）=.99），表明在重复进行EMA检查时RT的下降速度更快（快4.86倍）。响应者的适应后RT水平也高于非响应者（中位数exp (θc)比率=1.25），表明在重复检查后反应速度慢1.25倍。然而，适应后RT水平的群体差异更为不确定（95%置信区间[CrI] 0.95-1.58；P（增加）=.95），表明在后期基线延迟上最多只有轻微分离。

表5. 不同群体在EMA领域中的RT轨迹差异

a 量和EMA项目
后验中位数（IQR；宽度；95%置信区间[CrI]
后验P（增加）
衰减率（θb）比率感受 4.86 (3.524-7.609; 4.085; 1.438-14.31) 0.99
食欲 2.22 (1.565-3.169; 1.604; 0.793-6.561) 0.93
睡眠质量 1.69 (1.186-2.373; 1.187; 0.608-4.707) 0.84
总体评价 3.32 (1.828-6.229; 4.4; 0.593-19.26) 0.92
平均 3.11 (2.117-4.592; 2.475; 0.991-10.86) 0.97

基线RT（exp (θc)比率感受 1.25 (1.164-1.38; 0.2164; 0.953-1.581) 0.95
食欲 1.04 (0.975-1.102; 0.1267; 0.862-1.247) 0.66
睡眠质量 0.96 (0.9008-1.025; 0.1244; 0.792-1.161) 0.33
总体评价 1.09 (0.9891-1.2; 0.2108; 0.813-1.433) 0.73
平均 1.08 (1.015-1.154; 0.1392; 0.886-1.315) 0.80

a 比率大于1表示响应者的值大于非响应者的值。

b EMA：生态瞬间评估。
c CrI：可信区间。

群体平均轨迹与后验估计一致，显示响应者的RT下降更为陡峭（图2A）。当将模型推断的轨迹外推到观察研究窗口之后的100天时（图2A中的阴影区域），适应后RT水平的差异变得更加明显。受试者特定的估计支持了群体层面的发现（图2B）。尽管后验估计在每个群体内部有所不同，一些响应者的适应速度较慢或基线RT较低（反之亦然），但个体轨迹总体上遵循了群体的整体趋势。与此一致的是，参与者层面参数的排名图显示响应者的衰减率和适应后RT水平倾向于呈现更高的值。

图2. 回应者状态（最小可检测变化[MDC]对感受项目的调节结果。
(A) 按群体划分的模型推断反应时间（RT）轨迹（后验中位数及95%可信区间[CrI]）。阴影区域显示了拟合轨迹外推至100天的示意图。
(B) 按群体划分的参与者层面参数（θb和θc）的估计。
(C) 对不同模型规格下群体效应比率的敏感性分析。

此外，还检查了单个EMA项目和平均RT结果之间的调节效应。感受项目的群体分离证据最为明显，其衰减率差异最大且最为确定（θb比率=4.86，95%置信区间[CrI] 1.44-14.31；P=.99）。其他项目和平均结果显示出较小的、不太确定的衰减率比率，其置信区间通常重叠为1。适应后RT水平的类似模式也是如此，感受项目再次显示出最大的（但仍然不确定的）群体比率（exp (θc)比率=1.25，95%置信区间[CrI] 0.95-1.58），而其他项目的差异较小，区间范围为1。

敏感性分析
感受项目的群体效应结论在各种可行的替代规格下都是稳健的，包括完整的随机效应模型和学生t似然或替代先验（图2C）。响应者与非响应者的衰减率比率始终约为5（~4.8），在所有规格中的95%置信区间[CrI]均高于1，表明群体在RT适应速度上存在稳定差异。相比之下，适应后RT比率保持适中（~1.3），其置信区间在所有规格中都重叠为1，表明在この数据集中后期RT差异较小且不确定。数字心理健康干预（DMHIs）在老年人群中往往难以实施，因为对数字工具的熟悉度有限可能会降低持续的参与度。然而，在本研究中，参与者的依从性仍然很高（平均超过90%），表明这种干预在实际应用中具有很强的可接受性。本研究使用的EMA协议要求每天简单汇报四项内容，即使对于那些可能因抑郁负担而表现出较低参与意愿或能力的参与者来说，这也显得是可管理的。为了支持在实际应用中的持续参与，可以引入明确的反馈机制，例如面向临床医生的仪表盘、在EMA参与过程中的定期审查，或者当检测到缺失的回答时自动触发提醒。重要的是，通过验证的量表观察到的症状缓解表明，在这种情况下使用EMA可能带来的益处超出了其可行性本身，支持将EMA作为老年抑郁症管理中一个有前景的辅助手段。

第二个重要的问题是症状变化的客观监测。远程精神护理仍然严重依赖于自我报告的症状，这些症状报告方式从回顾性的标准化问卷到每日EMA评分都有，但这些方法都容易受到回忆偏差和其他报告失真的影响（例如，情绪一致性评估、自我反思偏差）。虽然EMA衍生的RT指标并非完全“被动”的，因为它们需要主动响应，但它们提供了一个相对客观的行为信号，反映了潜在的认知和心理运动过程，并且较少受到 deliberate self-presentation（即有意识的自我呈现）或响应框架的影响。因此，观察到的RT适应动态与临床意义的症状改善之间的关联支持RT轨迹作为在自然环境中跟踪抑郁症状变化的一个补充指标，尤其是在主观报告存在噪声或不一致性时。

此外，EMA-RT适应特性可能有助于使数字心理健康干预更加可靠和个性化。正如引言部分所提到的，生态瞬时干预的效果具有异质性，取决于个体特征。因此，扩大数字护理规模的一个实际障碍是提前识别哪些人将从某种方案中受益，哪些人需要额外的支持。我们的研究结果表明，在初始监测窗口期间（大约1个月）RT适应模式可能提供了一个早期指标，用于判断EMA的反应性。这种早期分层可以指导分阶段护理决策（例如，对于可能不响应的参与者，建议加强临床联系、采取替代干预措施或进行安全监测），同时允许响应者继续接受低强度的自我引导支持，从而更有效地分配有限的临床资源，并优化即时适应干预方法。我们还注意到，通过系统研究最佳决策周期，这个早期分层窗口可能会缩短。具体来说，基于对响应者更快适应性的观察，未来的工作可以量化个体内的日间EMA-RT变化趋势（或在滚动窗口上的斜率），并评估潜在的“决策日”（例如7天、10天、14天或21天），以确定一个更早、更可靠的决策时机。

最后，EMA各领域与症状变化之间的具体关联表明，EMA监测的应用范围可以超出抑郁症领域。由于精神症状经常同时出现，识别特定领域的行为特征（例如此处观察到的情绪与抑郁之间的关联）可能使EMA能够同时跟踪多种症状维度，从而支持更加细致、个性化的监测和干预计划。

局限性方面，首先关于基于EMA的自我监测的有效性，尽管在多个验证的量表上检测到了抑郁和焦虑症状的显著减轻，但由于缺乏对照组，无法确定明确的因果关系。参与者没有随机分配，潜在的并发治疗（如个案管理、药物治疗或心理治疗）也没有被系统记录或控制，这可能引入了混淆因素。此外，干预后仅在第4周末进行了一次评估，没有后续测量来评估治疗效果的持久性。因此，基于EMA的自我监测在老年抑郁症患者中的长期效果和可持续性仍然未知。

虽然一些基于EMA的特征与症状变化有关，但在自我报告的EMA得分与症状变化之间的关系中出现了一些意想不到的模式。具体来说，在抑郁和焦虑领域都观察到情绪相关EMA得分与症状变化之间的正相关。这些发现表明，在干预期间较高的EMA评分反而与临床改善较少相关。一种可能的解释是，持续抑郁症状的个体可能自我反思的能力较低，导致夸大或不明显的积极报告。另一种可能是，更健康的参与者可能表现出更细致、更准确的自我监测。然而，这一假设需要进一步的实证验证。

此外，由于样本量较小（n<50），相关分析可能不足以检测症状变化得分与EMA衍生特征之间的微小关联；因此，对零相关或弱相关的解读应谨慎。需要更大的样本量来更精确地估计这些效应，并确认观察到的关联的稳健性和普遍性，特别是涉及指数衰减参数的关联。

最后，在研究动态EMA响应轨迹时，响应者和非响应者之间最明显的群体差异体现在情感项目的拟合参数上，而食欲、睡眠质量和总体评估项目的对比则不那么显著。这种差异可能反映了情感项目的独特心理重要性，因为它直接针对即时情绪状态，而其他项目的内容更多是基于身体感受或抽象概念的。另一种可能是，EMA项目的固定呈现顺序（总是首先测量情感项目）可能增强了其预测能力。有可能第一个项目需要更多的认知努力，或者反映了自我反思反应的启动速度，因此捕捉到了更多的相关认知功能的变异。这种潜在的顺序效应应在未来的研究中系统地进行检验，以更好地明确在生态环境中EMA响应延迟所真正反映的内容。

总之，这项研究表明，在有高风险抑郁症的老年人中，使用基于EMA的自我监测作为一种辅助护理和行为特征分析工具是可行的。这对数字医疗保健有多方面的影响。首先，将响应时间动态整合到移动健康平台中，提供了一种非侵入性的方式来跟踪认知和情绪参与情况，即使在数字素养有限的人群中也是如此。该方法与简短、低频的EMA安排（例如，每天一次的报告）兼容，特别适合可能不适应密集数字协议的老年人群。其次，使用被试内标准化和曲线拟合模型支持个性化跟踪，可以检测到个体内的有意义变化。这对于早期识别症状复发、监测治疗反应性以及根据动态行为特征制定个性化干预措施具有重要意义。

总之，所引入的基于EMA的建模方法为推进老年人的心理健康护理提供了一种新颖、敏感且实用的方法。未来的工作应该致力于在随机对照环境中验证这些发现，探究RT适应的机制基础，并探索其在数字精神病学和老年护理中的更广泛应用。

热点排行