比较个性化模型和基于人群的模型在预测内化障碍患者短暂负面情绪方面的效果：一项数字表型研究

《Neuroscience Applied》：Comparing personalized and population-based models for predicting momentary negative affect in internalizing disorders: A digital phenotyping study

【字体：大中小】 时间：2026年05月02日 来源：Neuroscience Applied CS1.3

编辑推荐：

　　莱昂娜·哈梅尔拉特（Leona Hammelrath）| 罗尚·普拉卡什·拉内（Roshan Prakash Rane）| 萨姆·吉森（Sam Gijsen）| 弗朗齐斯卡·尤雷斯（Franziska Jüres）| 安妮特·布罗斯（Annette Brose）| 克尔斯廷·里特（Kerstin Ritter）| 凯文·希尔伯特（Kevin Hilbert）| 弗兰克·雅各比（Frank Jacobi）| 巴贝特·伦内贝格（Babette Renneberg）| 莉迪亚·费姆（Lydia Fehm）| 诺伯特·卡特曼（Norbert Kathmann）| 乌尔里克·吕肯（Ulrike Lueken）| 克里斯蒂娜·克纳维尔斯鲁德（Christine Knaevelsrud）
柏林自由大学（Freie Universit?t Berlin）临床心理干预系，德国柏林

**摘要**
负面情绪（NA），包括悲伤、焦虑和内疚感的增强状态，是一系列内化障碍的关键症状。数字表型分析（DP）和机器学习（ML）的最新进展可能使通过数字表型分析自动检测负面情绪的短期波动成为可能，这是即时适应性干预（JITAI）的先决条件。关于使用DP预测即时负面情绪的证据尚少，但表明需要个性化的ML模型来考虑个体差异。这项预先注册的研究是首次分析PREACT-digital项目的数据，该项目涵盖了242名被诊断为内化障碍的门诊患者。我们研究了被动传感器数据（心率、步数、活动量、体力活动）是否能够预测通过生态瞬时评估（EMA）测量的即时负面情绪。在19,792对DP数据和负面情绪评分的基础上，训练了个性化和基于人群的ML方法。我们发现个性化ML方法的表现显著优于基于人群的模型。然而，最佳模型仅略微超过了基准，只能预测每个人的平均负面情绪水平。我们的研究结果强调了在DP研究中需要个性化ML的必要性。未来的工作可以整合更丰富或更原始的数据流，或测试序列建模方法，以帮助明确DP和个性化ML是否能够可靠地为受内化障碍影响的个体提供即时、数据驱动的支持。

**1. 引言**
内化障碍，如强迫症、抑郁症或焦虑症，是全球最常见的心理健康问题之一（Global, 2022）。这些障碍的一个关键跨诊断成分是增强的负面情绪（NA），包括反复出现的悲伤、焦虑和内疚感。NA是一个高度复杂且异质性的概念，它涵盖了生理、行为、心理和情境因素的交织（Adler et al., 2024; Meegahapola et al., 2022; Berkemeier et al., 2024）。认知行为疗法（CBT）是内化障碍的一线治疗方法，通过认知重构和行为激活等干预措施直接针对NA。然而，其有效性有限，大约一半的患者反应不佳（Cuijpers et al., 2024）。同时，心理治疗研究中的突破性进展仍然难以实现（Cuijpers, 2024）。随着创新传感器技术和分析方法（如机器学习）的快速发展，人们试图寻找所谓的“数字表型”来识别精神障碍。数字表型分析（DP），也称为数字传感或数字生物标志物，旨在识别可以在个体日常生活中被动监测的症状相关行为和生理模式（Insel, 2017）。这些数据通常通过嵌入智能手机和可穿戴设备中的传感器捕获，包括心率、体力活动和基于位置的移动性等指标。有证据表明，这些DP指标可能有助于检测和预测负面情绪：心率测量值反映了与负面情绪相关的自主神经活动（Gullett et al., 2023）。基于位置的特征，如居住地和位置变化减少，与抑郁症状相关的活动限制有关（Funkhouser et al., 2025; Lee et al., 2024）。体力活动特征，包括步数，可以捕捉与抑郁症状相关的行为激活和参与度降低的模式（Bizzozero-Peroni et al., 2024）。

除了监测负面情绪等症状外，DP作为创新干预概念（如即时适应性干预JITAI）的信息来源也引起了极大的兴趣。JITAI旨在根据个人内部状态和情境的变化调整干预方式和内容，提供适当类型和数量的支持（Wang and Miller, 2020）。在这样的系统中，干预时机和内容由定制变量和决策规则指导。在当前背景下，预测的即时负面情绪可以作为定制变量：如果通过被动传感器检测到负面情绪升高或上升，预定义的决策规则可以触发日常生活中的简短、低负担的支持。对于患有内化障碍的个体，这种支持可以包括行为激活建议、基于CBT的认知重新评估练习或正念和呼吸练习。尽管人们对利用DP进行心理健康应用越来越感兴趣（Cuijpers, 2024），但迄今为止只有少数研究开发或实施了针对NA的JITAI（van Genugten et al., 2025），甚至有研究专门设计了基于被动传感器数据的算法（Milne-Ives et al., 2022; Khalid and Willis, 2022）。在现有研究中，很少有研究关注逐时刻预测。虽然预测第二天或下一周的情绪（Busk et al., 2020; Cho et al., 2019; Balliu et al., 2024）有其用途，但它们不太适合整合到JITAI中，因为“即时”方面无法实现。NA在个体中表现出日常和情境依赖的变异性和分散性（Kuppens and Verduyn, 2017），这需要及时捕捉和处理。这一研究空白需要关注，因为在法律和伦理上将其应用于临床人群之前，需要确证最适合的特征、算法和预期的预测能力。当前的研究旨在缩小这一差距：我们评估DP对即时负面情绪的预测能力，并在此过程中解决可能导致迄今为止证据不足的DP研究中的主要挑战。

首先，DP数据往往量很大且缺乏组织，需要仔细的预处理和聚合才能作为有用的预测因子。由于该领域仍处于起步阶段，目前还没有确立的DP数据预处理黄金标准，研究人员有很多自由度，这可能会严重影响预测性能（Langener et al., 2024），从而导致上述的异质性。在这些标准确立之前，需要细致和透明的文档记录以及所有处理步骤的合理性说明，以提高研究之间的可比性。其次，DP数据是纵向的，并且嵌套在个体中。不幸的是，目前还没有标准或直接的解决方案将受试者依赖性纳入ML模型。因此，以往的研究往往忽视了这一结构，实施了将所有观察结果（即聚合的DP特征和重复结果）视为来自同一人群的独立模型（Bai et al., 2021; Han et al., 2024; Lee et al., 2023）。这些“基于人群”的方法无法描绘个体间的差异。然而，NA的感知及其行为和生理表现因个体而异（Adler et al., 2024; Berkemeier et al., 2024）。通过应用基于人群的“一刀切”方法，这些重要的个体差异实际上被抹去了。一些现有的DP研究尝试使用“个性化ML”方法来模拟个体差异。这些方法大致可以分为（1）完全个性化的模型和（2）混合模型。在完全个性化的模型中，预测基本上被视为N-of-1建模任务；这意味着为一个人的序列数据分别训练ML模型（Berkemeier et al., 2024; W?rtwein et al., 2023）。这是最常用的“个性化ML”方法，完全体现了个体化视角，但需要足够的观察数据以避免过拟合并实现对新数据的可靠泛化。然而，完全个性化模型不适合新用户，因为它们面临“冷启动问题”，即无法为新用户提供可靠的预测。此外，研究表明预测性能在不同个体之间可能存在很大差异（Jacobson and Chung, 2020; Jacobson and Bhattacharya, 2022），这意味着无法保证临床应用的足够准确性。混合方法旨在通过将个体特定信息纳入整体模型架构来平衡完全个性化模型和基于人群方法的优点。一种方法是在特征层面进行标准化（Kathan et al., 2022），或在特征空间中包含潜在变量（例如年龄、教育水平）（Bai et al., 2021; Webb et al., 2024），或者引入其他策略（如混合效应随机森林Hajjem et al., 2014）或更高级的方法（Kathan et al., 2022; Yu and Sano, 2020a），从而在个体层面和群体层面数据之间取得平衡，克服了完全个性化模型中的“冷启动问题”并减少了预测性能的方差。研究表明，完全个性化和混合模型在预测情绪（Balliu et al., 2024; Han et al., 2024）或抑郁严重程度（Kathan et al., 2022; Lewis et al., 2023）方面都优于纯基于人群的方法，支持了个性化ML的理念。

总之，在我们能够继续开发JITAI之前，需要解决使用DP数据进行被动、逐时刻预测NA的算法的有限和异质性证据问题。本研究旨在缩小这一差距，从而应对上述挑战。根据我们的研究目标，我们旨在回答以下问题：（1）仅基于被动和情境特征的模型能否比简单基准模型更好地预测即时负面情绪？（2）与基于人群的模型相比，个性化ML模型是否具有更好的预测性能？（3）哪种个性化ML模型具有最佳的预测性能？为了回答这些问题，我们测试了不同复杂度的个性化ML方法，并将它们与基于人群的模型进行比较，评估场景反映了已知用户（即用于模型训练的数据）与“新”未参与用户的情况。为了估计个性化ML的实际益处，我们实施了基于人群和基于个体的截距（即DeMasi et al. (2017)推荐的平均负面情绪作为基准）。

由于JITAI概念上基于自动、不显式的关键情况识别，我们的算法将主要依赖于被动预测因子。除了传感器数据外，一部分模型还将基于包含与数字表型相关的社会人口统计和临床信息的增强特征集进行训练。这些特征包括季节（Zhang et al., 2024）、天气（Holstein et al., 2024）、时间（Siepe et al., 2024），以及年龄、症状严重程度和智能手机类型（Zhang et al., 2023）。我们仔细选择了这些变量，以确保它们可以在未来的JITAI框架中轻松评估，从而保持经济有效性和便于实施。

**2. 方法**
我们努力提高方法的透明度和可重复性，以及与相关研究的可比性。我们的研究已在OSF上预先注册（https://osf.io/54fcj），代码发布在GitHub上（https://github.com/leona-ha/tiki_code）。预印本已在OSF上发布（Hammelrath et al., 2025a）。详细方法可以在我们的研究方案（Hammelrath et al., 2025b）和相关的OSF目录（https://osf.io/253nb）中找到。

**2.1. 样本和研究设计**
本研究是研究单元RU 5187“面向非反应患者的精准心理治疗：从特征到预测再到临床应用（PREACT）”（Langhammer et al., 2025）的子项目。该研究单元由德国研究基金会（Deutsche Forschungsgemeinschaft，资助编号442075332）资助，并已获得柏林洪堡大学心理学系（批准编号2021-01）和柏林Charité-Universit?tsmedizin伦理委员会（批准编号EA1/186/22）的伦理批准。该研究单元旨在识别内化障碍患者对CBT无反应的预测因子。在德国柏林的四家参与大学门诊诊所寻求CBT的个体通过传单和信息手册了解了这项研究。感兴趣的患者被邀请参加“入职”会议，以修订纳入和排除标准并提供书面知情同意。纳入和排除标准在Langhammer et al. (2025)中有更详细的描述。本研究还要求参与者拥有合适的智能手机。参与我们的子项目（PREACT-digital）的参与者需要决定是参与（1）较短版本的研究，即在治疗开始前进行14天的EMA测量和被动数据收集，还是（2）较长版本的研究，即在20次治疗后以及治疗完成后进行两次额外的EMA测量和同时进行被动数据收集。在当前研究中，我们仅使用前14天测量期间的被动数据和EMA数据。为了收集数据，患者被提供了先进的智能手表（Withings ScanWatch）、配套的Healthmate应用程序，以及由一家德国科技初创公司开发的定制研究应用程序TIKI。Withings ScanWatch能够收集关于睡眠、身体活动和心率的数据，并且电池续航时间相对较长，约为30天。TIKI应用程序作为与Withings API的接口（允许访问ScanWatch的数据），同时收集GPS数据并发送EMA问卷。PREACT研究正在进行中，数据收集将持续到2026年6月2日。

2.2 结果
我们将瞬时负情绪（NA）的预测视为一个回归问题，这更直接地符合用户收集和理解自我报告的方式。瞬时负情绪是通过EMA每天八次、大约每两小时一次的方式在14天内收集的。在每次EMA提示音响起时，表示一个测量点，参与者需要完成PANAS-X量表中的17个项目（Haney等人，2023年；Breyer和Bluemke，2016年）。瞬时负情绪由PANAS-X量表中的八个项目得出，这些项目代表了四种负面情绪子量表：悲伤（沮丧、难过）、恐惧（焦虑、紧张）、敌意（易怒、愤怒）和内疚（羞愧、对自己不满意）。对于每个项目，参与者需要在1到7的Likert量表上表示他们“现在”感受到这种情绪的强烈程度。每次提示音的瞬时负情绪得分是这八个项目的平均值，得分越高表示在那个测量时刻的负面情绪越强烈。

2.3 预测因子和数据预处理
被动数据通过（1）TIKI应用程序获取GPS数据，以及（2）Withings ScanWatch获取所有其他传感器数据来进行评估。表1总结了用于模型训练的特征。根据可用数据格式（即原始数据或已经由Withings预处理的数据）和采样频率，我们应用了通用和特定领域的预处理和聚合步骤。为了将被动感应数据与基于EMA的瞬时负情绪评估对齐，传感器特征在每次EMA提示前的两小时间隔内进行了聚合。

表1. 预测因子和结果概览

| 预测因子 | 评估格式 | 派生特征 | 功能 |
|---------------|----------------|-------------------|-------------------------|
| EMA | 每天8次；每2小时±0.5小时 | 每次提示音的平均负面情绪 | |
| Sensing | 原始数据；基于事件 | 行驶距离（公里）、GPS点数、在家时间、过渡时间、静止时间 | |
| Steps | 基于事件 | 活动状态下的步数：步行、跑步、骑行、睡眠、休息、活跃 | |
| Heart Rate (PPG) | 30秒平均值；10分钟间隔 | 平均值、最小值、最大值、标准差、休息区/中等活动区/剧烈活动区 | |
| Time | 评估小时、一天中的时间、工作日/周末（二进制）、季节、月份 | | |
| Weather-Daily | 平均温度（平均值）、日照小时数（总和）、降水量小时数（总和） | | |

心率数据来自ScanWatch，使用光容积脉搏法（PPG）每10分钟采样一次30秒间隔的平均值。数据清洗过程包括移除非数值数据，以及过滤和移除超出生理范围（每分钟30至220次心跳）的异常值。清洗后的数据根据时间重叠映射到EMA块中。在每个块内，计算包括平均值、最小值、最大值和标准差在内的聚合指标。此外，还根据每个EMA块内心率值的分布计算了在预定义心率区内的时间。我们应用了以下心率区阈值：HR≤60次/分钟（休息区），HR>60 bpm <100 bpm（中等活动区），HR≥100 bpm（剧烈活动区），这与休息心率分类指南一致（Avram等人，2019年）。

步数数据是基于事件进行评估的，每当ScanWatch算法检测到步行发生时记录。步数数据以检测到的采样期间步数的累积和形式提供，并附有开始和结束的时间戳。预处理步骤包括移除非数值和负值。从开始和结束的时间戳计算步事件持续时间；排除持续时间为零或负值的条目。计算每分钟的步数。由于即使是精英跑步者，每分钟超过200步的频率也很低（Lyden等人，2017年），因此超过此阈值的值被视为不合理的并被排除在聚合之外。清洗后的步数据通过计算步事件时间戳与EMA间隔之间的重叠来映射到EMA块中，并根据重叠比例计算每个EMA块的加权步数。活动是基于事件评估的，即当ScanWatch算法检测到六种活动之一发生时（跑步、骑行、步行、睡眠、休息、活跃）。无效条目（如非二进制活动标志）被移除。所有与EMA块的开始和结束时间戳重叠的活动样本根据重叠比例使用加权总和进行聚合，从而得到代表在给定2小时EMA块内处于相应活动状态的分钟数。

GPS数据是基于事件收集的，每当智能手机操作系统检测到位置变化时记录，并以原始格式提供（即经纬度元组加上时间戳）。因此，它们需要更复杂的预处理步骤。这里我们遵循了Müller等人（Müller等人，2021年）的教程论文，但根据我们的基于事件的采样格式进行了调整，因为这导致了获取的GPS数据在个体间的变异性较大。为了将原始GPS轨迹转换为可解释的移动特征（例如，在家时间、访问的不同地点数量），我们首先需要将空间相邻的点聚合成有意义的位置——这个过程称为聚类。可靠的聚类需要一定的位置样本密度，因此我们排除了在测量期间贡献少于50个GPS点的参与者。测试了几个阈值；50的截止值在保留尽可能多的参与者和确保结果簇（以及由此派生的特征）的稳健性之间提供了最佳平衡。连续GPS点之间的距离使用Haversine公式计算：距离 = sin2(Δφ/2) + cos φi cos φj sin2(Δλ/2)，其中φ和λ分别对应纬度和经度。速度是通过将计算出的距离除以连续点之间的时间差来得出的。如果GPS点的速度低于步行速度（即1.4 m/s）且连续点之间的距离小于150米，则将其分类为静止状态。静止状态下的GPS数据使用DBSCAN算法（Schubert等人，2017年）进行聚类，标准化min_samples（即一个人总GPS点数的3%）和epsilon = 100/6371000。作为家庭簇，我们选择了（1）一个人至少在那里过夜四次（即晚上8点到早上6点之间）以及（2）至少50%的总评估夜晚的簇。由于基于事件的评估格式在没有位置变化时不会收集数据，这导致许多参与者没有家庭簇，因此我们实现了一个备选的家庭簇，即每个人访问最频繁的簇。之后，我们将它们的时间戳映射到相应的EMA块后计算了以下特征：块内的GPS点数总和、行驶距离（该EMA块内所有GPS点的距离总和）、在家时间（通过汇总属于家庭簇的GPS点的持续时间）、过渡时间（通过汇总被分类为非静止的GPS点的持续时间）和静止时间（通过汇总被分类为静止的GPS点的持续时间）。

上下文特征包括天气和时间特征。每日天气信息来自Openmeteo（https://open-meteo.com/），针对柏林亚历山大广场的坐标（52.521992, 13.413244）。我们参考了平均温度、日照小时数和降水量小时数的总和来进行评估。时间特征来自EMA评估完成的时间，包括评估小时、一天中的时间（清晨、上午、下午、晚上、夜晚）、季节（春季、夏季、秋季、冬季）、月份、工作日和周末（二进制）。

人员稳定信息在门诊诊所的入职预约期间进行评估。为了保持经济有效性和可行性，我们只考虑了简单的社会人口统计和自我报告的临床指标。我们包括了年龄、就业能力（“您目前适合工作吗？”，二进制）、身体问题（“您有身体疾病吗？”，二进制）、智能手机类型（iPhone、Android）以及当前使用的精神药物（二进制）和之前的心理治疗或精神科治疗历史（无先前治疗、之前的心理治疗、之前的住院治疗）作为症状严重程度的代理指标。

总共，我们包括了28个被动和上下文时间变化特征以及六个人员稳定特征作为预测因子。

2.4 缺失数据处理
我们排除了那些在至少四天内有少于七天完成提示音的参与者（即25%的测量数据），以保持与先前研究（Siepe等人，2024年）的可比性，并确保能够描绘出日常和周内的波动。此外，如果患者在第一次评估阶段的总GPS点数少于50个，也被排除在外，以确保GPS特征的可靠性。

如果在一个提示音之前的2小时块内没有数据点，被动数据流被标记为缺失。对于基于事件采样方案评估的特征（GPS派生数据、身体活动类别、步数），如果可以合理假设它们是由于事件缺失（例如，位置变化、检测到步行）而缺失的，则将缺失值设置为固定值。这个值对于行驶距离、GPS点数、过渡时间、步数和所有身体活动值设置为0，而对于在家时间和静止时间设置为120。我们进一步检查以确保数据不是完全随机缺失的（MCAR），即不是由于患者没有佩戴ScanWatch或常见的技术问题导致GPS数据收集中断。对于缺失的GPS数据，我们检查了一个人在最后2小时内是否表示“正在旅行”。如果满足这个条件，我们假设这个人移动了，因此应该提供了GPS数据。如果一个个体可用EMA块中有超过50%的情况满足这个条件，他们就被排除在进一步分析之外。标记为MCAR的行使用knn方法进行了插补（见模型流程部分）。

对于可穿戴数据（即活动类型、心率、步数），我们检查了该测量块中是否所有其他ScanWatch派生特征也缺失，这表明患者没有佩戴手表。这些条目使用knn方法进行了插补（见模型流程部分）。最后，我们重新评估了参与者是否仍然满足至少7天内有至少4个完成提示音的条件，并排除了不符合这一要求的参与者。

2.5 建模方法
补充表1提供了所有应用的模型类型和超参数的概览。我们实现了基于人群的以及个性化的机器学习方法，基于t-2小时的被动和上下文特征来预测t时刻的NA。

纯粹基于人群的模型：在基于人群的模型中，每个样本都被视为来自同一人群。在实现上，这些可以被视为“一刀切”的解决方案，旨在找到一个最佳解释整个数据集变化的单一函数。因此，它们可以直接应用于来自已知或新用户的新样本。对于基于人群的模型，我们选择了一系列在心理学中常用的线性和非线性机器学习方法（Kova?等人，2024年）。

a.) 随机森林回归器（RF）：随机森林（Breiman，2001）结合了多棵决策树来提高预测性能并减少过拟合。每棵树都在数据的随机子集和特征的随机子集上进行训练；最终预测通常是所有树的平均值。随机森林对异常值具有鲁棒性，并且能够建模复杂的非线性关系。

b.) 线性回归（LR）：线性回归是一种基本的统计技术，用于建模因变量和一个或多个自变量之间的关系。它假设线性关系并估计最小化误差平方和的参数。线性回归简单且训练速度快（Montgomery等人，2021年）。

c.) 前馈神经网络（FFNN）：前馈神经网络是一种深度学习架构，由多层节点（神经元）组成，其中连接仅从输入传播到输出。该模型通过反向传播进行学习，通过调整每个全连接层中的权重来最小化预测误差。全连接神经网络（FFNN）能够捕捉预测因子之间的非线性关系和相互作用，但可能需要大型数据集和对超参数（例如，层数、学习率、激活函数）的仔细调整。（深度学习）我们研究中实现的全连接神经网络的关键组成部分包括：(1) 输入层：接收聚合的传感器数据向量（例如，2小时平均值）；(2) 隐藏层：一个或多个全连接层，每个层应用线性变换（权重矩阵+偏置），然后是非线性激活函数（例如，ReLU）；(3) 输出层：线性回归节点输出一个数值预测，反映“NA”（未提供数据）。(1) 通过人员稳定特征进行基于特征的个性化：基于人群的基线模型在包含人员稳定（PS）属性的增强特征集上进行了训练，以捕捉用户之间的差异。这种低调的个性化策略可以通过事先收集新用户的稳定信息轻松实现。a.) RF + PS：将人员稳定特征与被动数据一起添加到特征集中；b.) LR + PS：将人员稳定特征与被动数据一起添加到线性模型中；c.) FFNN + PS：在通过输入层进入神经网络之前，将人员稳定特征与被动数据连接起来。后续方法包括通过学习截距（MERF）或人员嵌入（FFNN + 嵌入）来表示个体内部特征。(2) 通过混合效应随机森林（MERF）进行个性化：Hajjem等人引入的混合效应随机森林（MERF）结合了随机森林的灵活性和线性混合效应模型的个性化能力。它们已成功应用于基于动态路径（DP）数据预测抑郁严重程度（Lewis等人，2023年）。与线性模型中的固定效应类似，随机森林组件通过跨簇池化样本来学习全局非线性函数。同时，通过训练线性混合模型学习特定于人员的随机截距，调整全局预测以考虑个体差异，从而产生个性化预测。对于新用户，模型需要一组初始数据（例如，几天的观察数据）来准确估计他们的随机截距。(a) MERF：学习全局随机森林以及每个个体的随机截距；(b) MERF + PS：通过额外结合人员稳定特征来扩展MERF。(3) 通过具有特定于人员的嵌入的神经网络进行个性化：实体嵌入将高基数分类变量（例如，参与者ID）映射到密集的连续向量中，揭示传统特征工程可能无法捕捉到的类别之间的潜在相似性（Guo和Berkhahn，2016年）。在这种方法中，我们将每个参与者ID视为高基数分类变量，分配一个嵌入，以捕捉超出人员稳定信息的潜在特征。然后将这些学习到的嵌入与聚合的2小时传感器数据连接起来，并输入神经网络。对于新用户，该模型需要一个训练阶段，以便在新用户积累足够的数据时更新嵌入层。为了利用这些人员嵌入，我们将它们集成到了FFNN架构中。(a) FFNN + 嵌入：在嵌入层中，每个参与者ID被映射到一个较低维度的嵌入向量（即32或64维）。嵌入与传感器特征连接，然后投影到FFNN输入维度。2.6. 模型流程我们的模型评估流程包括：(a) 外部基于用户的分割，选择10%的参与者作为保留集；(b) 内部基于时间的分割，其中剩余90%的参与者的数据被分为(1) 包含每个参与者前80%样本的训练集和(2) 包含每个参与者剩余20%样本的测试集。我们的评估场景概述如图1所示。下载：下载高分辨率图像（272KB）下载：下载全尺寸图像图1. 模型评估场景。作为第一步，我们创建了一个10%的保留样本（用户分割），按每个人可用样本的数量进行分层（即，带有相关传感器数据的EMA标签）。这个保留集用于评估模型对训练或模型调整期间从未见过的完全新用户的泛化能力。剩余的90%样本用于训练我们的模型，并评估模型对已知用户的新样本的表现。在这里，我们应用了基于时间的分割，将每个用户按时间顺序的前80%数据分配给训练集，剩余的20%数据分配给测试集。超参数调整使用分组时间序列交叉验证进行，分为五折。对于每个参与者，数据按时间顺序大致平均划分。在第i折中，模型在所有之前的数据上训练，并在第i折上进行验证。随着折叠的进行，训练集以扩展窗口的方式增长，这模拟了新数据随时间变得可用的现实世界场景。跳过了第一折，以防止训练集为空的情况，从而得到4折。对于保留样本，我们尝试了两种可能的实现方案：(1) 所有模型都在每个保留用户的最后20%数据上进行了测试，没有任何调整，以模拟没有历史数据的新用户的性能；(2) 对于FFNN + 嵌入流程，我们模拟了一个部分微调阶段，其中使用每个保留用户的前80%数据仅更新嵌入层。所有其余模型层保持不变，确保全局学习到的参数固定，而特定于用户的调整仅在嵌入中进行。我们没有对MERF模型应用保留调整，因为这需要完全重新训练其随机森林组件，使得调整过程与FFNN + 嵌入中使用的分部调整方案不一致。首先对训练数据拟合了一个k-最近邻（k-NN）插补器，以学习缺失GPS特征的潜在结构。然后使用学到的插补模型填充基于时间和基于用户的保留集中的缺失值。分类特征使用基于训练数据统计的Min-Max缩放进行one-hot编码。然后将这种缩放应用于保留集（即基于时间的保留集和所有保留用户的样本）。右偏的连续变量在缩放前进行了对数转换。方差为零或接近零的特征被移除。超参数使用scikit-learn的GridSearchCV进行调整。使用测试数据上的平均绝对误差（MAE）来评估预测性能。我们还计算了均方根误差（RMSE）和R2，以便与其他研究进行比较。我们包括了两个仅包含截距的基线模型：全局截距模型预测整个训练集计算出的结果的平均值，而每个个体的截距预测从他们的训练样本计算出的每个参与者的平均结果。3. 结果3.1. 样本和数据质量总共，403名参与者提供了第一阶段评估的数据。在质量控制过程中，由于完成的哔声次数不足，有123名参与者被排除。另有32名参与者由于GPS样本总量不足而被排除。还有2名参与者因为在超过50%的可用哔声中缺少GPS预测因子而被排除。在移除了所有被动特征中缺失值的行后，有6名个体不再满足纳入条件（即至少7天内完成4次哔声），因此被排除。这样我们剩下N = 242名参与者进行分析。表2展示了纳入和排除参与者的样本特征。纳入的参与者中可雇佣个体的比例高于排除的参与者（81.0% vs 72.0%，p = .048）。在检查的社会人口统计或临床变量中，两组之间没有观察到其他统计学上的显著差异。表2. 比较纳入的、质量保证的与排除的受试者的样本描述。变量总体纳入的受试者排除的受试者p值N40332.5 (11.3)33.4 (10.4)年龄，平均值（标准差）33.0 (10.8)45 (28.0)46 (19.0)440可雇佣，n (%)116 (72.0)196 (81.0)否91 (22.6)64 (39.8)114 (47.1).048是312 (77.4)97 (60.2)128 (52.9)智能手机类型，n (%)57 (35.4)90 (37.2)安卓178 (44.2)49 (30.4)64 (26.4).176苹果手机225 (55.8)55 (34.2)88 (36.4)之前的治疗，n (%)32.5 (11.3)33.4 (10.4)无治疗147 (36.5)45 (28.0)46 (19.0).682住院治疗113 (28.0)116 (72.0)196 (81.0)门诊治疗143 (35.5)64 (39.8)114 (47.1)精神药物，n (%)无262 (65.0)105 (65.2)157 (64.9)是141 (35.0)56 (34.8)85 (35.1)诊断，n (%)恐慌障碍（PD）29 (7.2)12 (7.5)17 (7.0).754重度抑郁症（MDD）171 (42.4)65 (40.4)106 (43.8)广泛性焦虑障碍（GAD）35 (8.7)15 (9.3)20 (8.3)强迫症（OCD）54 (13.4)23 (14.3)31 (12.8)创伤后应激障碍（PTSD）20 (5.0)7 (4.3)13 (5.4)社交焦虑障碍（SAD）75 (18.6)29 (18.0)特定恐惧症（SP）14 (3.5)6 (3.7)8 (3.3)缺失5 (1.2)4 (2.5)1 (.4)身体问题，n (%)无224 (55.4)89 (55.3)133 (55.0)是180 (44.6)72 (44.7)109 (45.0)注：值以M（标准差）或n（%）表示。P值反映了使用Welch的双样本t检验对连续变量和卡方检验对分类变量进行比较的结果。缩写：MDD，重度抑郁症；GAD，广泛性焦虑障碍；SAD，社交焦虑障碍；PD，恐慌障碍；OCD，强迫症；PTSD，创伤后应激障碍；SP，特定恐惧症；SD，标准差。预处理后，每个参与者平均剩余85.60 ± 17.00次哔声，最少48次，最多116次。总共，我们得到了19,792个样本，其中包含2小时的被动传感器数据和随后的NA评分。6.36%的样本中步数缺失。在这些样本中的520个样本中，其他智能手表功能也缺失，使用k-NN进行了插补。在所有其余情况下，其他智能手表功能都是可用的，表明没有事件发生（即，没有行走），因此设置为0。同样的方法也应用于所有其他活动类别，这些类别的缺失率为58.46%。在这520个样本中，所有其他智能手表功能也缺失，因此设置为0。GPS数据在25.27%的样本中缺失。在这些样本中的911个样本中，个人表示正在旅行，因此进行了插补；其余的设置为0。心率特征在3.40%的样本中缺失，因此进行了插补。图2显示了NA评分的两个互补可视化。左侧面板显示了所有参与者的评分聚合直方图，而右侧面板叠加了捕捉每个参与者随时间变化的负面情感评分的个体核密度估计。整体平均NA评分为2.89 ± 1.09，分布略微右偏，表明大多数评分位于评分范围的低端，非常高的评分很少出现。此外，个体密度曲线的形状显示了显著的个体内部差异，表明虽然许多参与者通常报告较低的NA水平，但他们的即时体验可能会有很大差异。下载：下载高分辨率图像（281KB）下载：下载全尺寸图像图2. 负面情感评分的分布。左侧显示了所有参与者的平均负面情感（NA）评分分布。较高的评分表示较高的NA。右侧显示了每个个体的NA评分密度，黑色虚线显示了NA的平均密度。3.2. 预测分析在242名参与者中，有24名用户提供了总共1961个样本，他们被随机分配到保留集作为基于用户的分割的一部分。在剩余的数据集中，3656个样本被分配到测试集作为基于时间的分割的一部分，剩下14,175个样本用于模型训练。基于时间的保留：表3总结了所有建模方法在基于时间的保留集上的表现。总体而言，MAE在1-7 NA评分范围内的变化范围为.596到.943，表明预测准确性在不同模型类别之间差异很大。MERF模型的表现最好，其MAE最低（.596）和RMSE最低（.795），解释的方差最高（R2 =.520）。然而，它相对于简单的每个个体截距基线（MAE =.600，R2 =.512，RMSE =.802）的优势非常小。同样，FFNN + 嵌入模型的表现与每个个体截距基线相当（MAE =.609，R2 =.516，RMSE =.799），但没有改进。总的来说，这些发现表明明确建模特定于个体的信息对于预测很重要，而更复杂建模方法的附加价值仍然有限。表3. 在基于时间的保留数据中的模型表现，包括每个参与者的最后20%的样本。模型MAE aR2 bRMSE c全局截距.943?.0031.149每个个体截距.600.512.802线性回归（LR）.937.0041.146随机森林（RF）.932.0121.141全连接神经网络（FFNN）.936.0081.143LR + PS.921.0351.128RF + PS.846.1771.042FFNN + PS.878.1161.079MERF.596.520.795MERF + PS.605.507.806FFNN + 嵌入.609.516.799粗体数字表示表现最好的模型。缩写：LR = 线性回归；RF = 随机森林；FFNN = 前馈神经网络；PS = 人员稳定特征；MERF = 混合效应随机森林。a平均绝对误差（MAE）：越低越好。b决定系数（R2）：越高越好。c均方根误差（RMSE）：越低越好。在没有特定于个体的扩展的全局模型中，表现一致较差。全局截距模型的表现最差（MAE =.943，R2 = ?.003，RMSE = 1.149），标准LR、RF和FFNN模型仅对此基线有轻微改进。添加人员稳定特征（PS）提高了所有三种方法的性能，特别是对于RF（MAE =.846，R2 =.177，RMSE =.1042）和FFNN（MAE =.878，R2 =.116，RMSE =.1079），尽管这些模型仍然明显低于每个个体截距和MERF方法。值得注意的是，向MERF添加人员稳定特征并没有进一步提高性能（MERF + PS：MAE =.605，R2 =.507，RMSE =.806）。总体而言，结果模式表明，大多数预测信号是由稳定的个体差异捕获的，而不是由更复杂的基于特征的建模捕获的。新用户保留测试：表4显示了在训练期间未出现的24名参与者的结果。总体而言，MAE值在1-7的NA量表上介于0.682到0.934之间。每人截距的MAE最低（0.682），RMSE也最低（0.885），而FFNN + 嵌入模型的表现非常相似（MAE = 0.693，RMSE = 0.885），并且显示出最高的R2值（0.293）。然而，没有一个模型明显优于每人截距基线。大多数其他方法在MAE上只显示出微小的改进（MAE = 0.874），并且许多模型的R2值接近零或为负，表明它们对未见用户的泛化能力有限。添加个体稳定特征并没有提高性能。总体而言，这些发现表明，预测完全新用户的NA仍然具有挑战性，更复杂的模型并没有比简单的基于个体的基线提供太多好处。

表4. 新用户保留测试中的模型性能。

模型 MAE a R2 b RMSE c
全局截距 0.874 ?0.043 1.075
每人截距 0.682 0.287 0.885
LR 0.866 0.004 1.050
RF 0.867 ?0.025 1.056
FFNN 0.866 ?0.010 1.060
LR + PS 0.934 ?0.122 1.145
RF + PS 0.931 ?0.127 1.117
FFNN + PS 0.928 ?0.213 1.117
MERF 0.857 0.004 1.050
MERF + PS 0.924 ?0.116 1.112
FFNN + 嵌入 0.693 0.293 0.885

缩写：LR = 线性回归；RF = 随机森林；FFNN = 前馈神经网络；PS = 个体稳定特征；MERF = 混合效应随机森林。

a. 平均绝对误差（MAE）：越低越好。
b. 决定系数（R2）：越高越好。
c. 均方根误差（RMSE）：越低越好。
d. 每人截距和FFNN + 嵌入是基于前80%的数据调整的。

4. 讨论
本研究旨在扩展关于基于动态感知（DP）预测短暂负面情绪的稀少且不一致的证据。为了评估被动和上下文特征在预测NA方面的预测价值，我们将一系列基于这些特征训练的模型与一个简单的基线模型进行了比较，该基线模型计算总体或个体的平均NA。除此之外，我们还通过实施不同的个性化机器学习方法，并将其与已知和新用户中的基于总体的对应方法进行比较，来评估调整模型流程以适应预期个体间和个体内变异的附加价值。我们发现个性化机器学习模型的表现优于基于总体的模型。然而，简单的每人平均值基准的表现与表现最好的模型相似。因此，短暂NA的可预测变异的很大一部分可能存在于平均情绪水平的稳定个体差异中，而本研究中个性化的优势可能来自于捕获特定于个体的基线，而不是对这些基线周围瞬时波动的建模。这一发现至关重要，强调了需要适当的基准模型来解释预测性能。就临床应用而言，我们的模型性能表明，DP数据在支持精确和自动实时干预触发方面的能力有限。

我们的第一个研究问题旨在探讨使用被动数据预测短暂负面情绪的总体可行性。为了找到答案，我们评估了在2小时被动传感器数据聚合和上下文伴随因素上训练的模型在预测准确性方面的表现是否优于基准模型。在已知参与者中，除了FFNN之外，所有模型（无论是否包含个体稳定特征）的表现都优于预测所有样本平均NA的基准模型。MERF以及结合了特定于个体的嵌入的FFNN的表现略优于预测每人平均NA的基准模型，但总体表现相似。通过基于嵌入的个性化或混合效应建模来结合用户特定的调整可以在一定程度上捕捉个体变异性，但相对于简单的每人平均值，额外的预测增益可能微不足道。不出所料，这些模型对新用户的泛化能力也不强。我们的第二个和第三个研究问题探讨了模型个性化的附加价值。我们将不同复杂度的个性化策略与基于总体的策略进行了比较。与先前的研究（Amin等人，2025年）一致，我们发现所有个性化策略都提高了预测性能，这突显了个性化预测建模的必要性。表现最好的是FFNN + 嵌入，其次是MERF。对于基于时间的场景，添加个体稳定特征（PS）对基于总体的模型（RF、LR、FFNN）有益。然而，它并没有改善MERF的表现，可能是因为MERF的随机效应已经考虑了大部分特定于用户的信号。在新用户保留测试中，模型的表现普遍较差，表明泛化能力有限。在保留样本中微调嵌入的FFNN + 嵌入表现最好，但并未优于每人平均NA。

在接下来的部分中，我们将我们的发现置于当前文献的背景下，并批判性地讨论了特征选择、结果定义、建模方法和实施场景的影响。

JITAI的概念依赖于被动数据来自动识别关键的情绪状态。然而，我们的结果质疑被动传感器数据是否能够满足这一前提，或者情绪波动主要是由稳定的个体间差异驱动的。关于短暂情绪的被动预测的证据是稀少且混合的，这加剧了我们发现的分类难度。Cai等人（2018年）在为期2周的研究中探索了220名大学生的情绪状态被动预测。他们将“短暂”特征定义为从每个EMA提示前的1分钟窗口中提取的上下文特征，并将基于所有参与者数据训练的通用模型与仅基于相应参与者数据训练的个性化模型进行了比较。在随机森林、SVM和XGBoost模型中，个性化模型的表现优于通用模型；对于负面情绪，使用短暂特征的个性化SVM的表现最好（RMSE = 100分制上的12.82）。Jacobson和Chung（2020年）使用被动手机传感器数据和偶尔的心率读数预测了患有临床抑郁症的大学生的小时级情绪变化。他们将基于总体的模型（XGBoost）与每人模型权重调整相结合，发现预测和观察到的每小时情绪之间的平均相关性约为0.59。尽管预测在个体之间有所不同，但大多数参与者的情绪波动仍然可以成功建模。然而，这两项研究都没有包括像特定于个体的平均情绪这样的简单基准。因此，目前尚不清楚被动特征是否提供了超出个体平均情绪水平的增量预测价值。Li和Zhang（2025年）使用DAPPER数据集研究了日常情境中的情绪状态识别，该数据集包括88名受试者五天的连续多模态、可穿戴和EMA记录。预测因子包括皮肤电反应、加速度计和PPG数据，与我们的研究不同，这些数据以原始格式提供。他们的模型包括（1）从每个EMA提示前的30分钟窗口中自动提取的深度学习特征，以及（2）一个Transformer，与我们的建模方法不同，它能够捕捉长期时间依赖性和特征间的交互作用。与传统模型（例如随机森林）相比，他们的模型在预测正面与负面情绪方面的分类准确率为71.5%。

总之，上述研究表明，与我们的研究相比，被动数据对于预测短暂情绪是有信息量的。由于他们没有包括每人平均值或类似的基准，我们无法直接将它们与我们的结果进行比较。尽管如此，它们指出了可能导致被动数据超出个体平均NA的增量价值有限的某些问题，这些问题可以在未来得到解决。第一个问题涉及我们特征的粒度、质量和信息价值。为了保护患者的隐私并减少被识别为研究参与者的风险，我们选择使用商业可穿戴设备进行数据收集。因此，除了GPS之外，被动信号仅以Withings衍生的摘要形式提供（例如，步数与原始加速度计数据），这限制了特征提取并引入了潜在的噪声来源（Onnela，2025年）。研究级传感器提供原始的高分辨率数据，使得高级预处理和基于深度学习的特征学习成为可能，从而提高准确性（Li和Zhang，2025年；Rykov等人，2024年）。GPS以原始格式提供，但它是基于事件的评估，与大多数先前的研究不同，即当智能手机的操作系统检测到移动时才进行评估。这种选择是为了减少电池消耗，从而减轻参与者的负担。尽管如此，它导致了参与者之间的数据分布不均匀，并迫使我们偏离典型的预处理流程（Müller等人，2021年）。此外，我们的研究应用程序在GPS数据收集方面遇到了技术困难，导致缺失数据率高于来自可穿戴设备的数据源。此外，短暂情绪受到即时情境背景的强烈影响（de Vries等人，2021年），例如社交互动和正在进行的活动。尽管在更广泛的研究中评估了此类情境信息（即使用EMA项目评估社交和情境背景），但我们有意将其排除在当前模型之外，因为我们的目标是仅评估被动特征的预测价值。这种设计选择增加了JITAI应用的生态相关性和实用性，但可能会限制预测性能。

其次，我们的机器学习方法没有明确地对DP特征和NA评分的时间依赖性进行建模。这是有意为之，因为我们认为首先需要评估结合个体级数据对预测短暂NA的附加价值。尽管如此，DP特征也随时间表现出较高的个体内变异性（B?gemann等人，2024年）。一个简单的解决方案是实施更长的滚动聚合窗口（Jacobson和Chung，2020年；Sun等人，2023年），即利用NA评分前4小时的数据。另一种选择是将序列组件整合到建模方法中。例如，我们可以使用设计用于时间建模的神经网络层（如LSTM或带位置编码的Transformer编码器）来处理序列传感器数据（Kathan等人，2022年；Yu和Sano，2020b）。这些层将学习传感器读数随时间的演变，捕捉短期和长期依赖性。然后，通过将这些时间层的输出与特定于个体的嵌入连接起来，我们的模型可以共同学习个体的基线行为以及他们的传感器模式随时间的变化。需要更多的研究来确定增加模型复杂性是否可以减少预测误差。

5. 强点和局限性
除了上述问题外，我们的研究还有一些局限性必须考虑。首先，由于完成的EMA提示数量不足和其他数据质量问题，我们不得不排除近一半的样本。被排除的参与者就业率显著较低，这可能表明症状负担更高。这对数字表型在临床护理中的实际可行性有重要影响。像这里研究的方法依赖于重复的EMA完成、持续的传感器可用性和足够高的技术数据质量。在常规实施中，如果没有大量的参与者参与、技术可靠性和持续的支持，这些要求可能难以满足。尽管这种模式与其他DP研究一致，但它突显了基于DP的方法在常规护理中的核心实施挑战。在数据预处理方面，我们需要做出各种微决策（例如，完成EMA提示的最低阈值），这可能会严重影响结果（Niemeijer等人，2022年），理想情况下应使用多宇宙分析等方法来满足。为了处理缺失数据，我们实现了一种相对简单的插补技术以提高计算效率。正如Rashid等人（2020年）所示，更复杂的插补技术是另一种提高预测性能的选择。最后，NA和DP之间的关系可能因诊断而异（例如抑郁症和强迫症）。我们的跨诊断方法虽然具有生态学上的有效性，但可能会掩盖特定于疾病的模式并减弱预测信号。

我们研究的优点不应被忽视：首先，我们的样本比大多数过去和现在的DP研究更为全面，包括被诊断为内化障碍并愿意开始心理治疗的患者。这个样本代表了JITAI针对负面情绪的一个可行目标群体，增加了我们研究的生态学有效性。其次，在这个临床样本中，我们实施了相对较高频率的EMA评估，因此有更多的NA结果标签，使我们能够使用DP数据捕捉和预测短暂NA。第三，我们系统地评估了个性化和模型复杂性的附加价值。我们实施了公平的基准模型来现实地评估DP数据的附加价值。此外，我们通过不仅在已知用户上，还在新用户上测试模型，考虑了不同的实施场景。由于个性化机器学习和DP领域仍处于起步阶段，我们的研究为该领域的未来研究提供了宝贵的见解。

6. 结论
当前的研究旨在通过分析被动数据预测短暂NA的潜力，为JITAI铺平道路。在一个由被诊断为内化障碍的患者组成的全面样本中，我们能够显示出NA在个体内部和个体之间存在显著波动。然而，动态感知（DP）特征无法解释北美地区（NA）这些短暂的波动，这些波动超出了稳定的个体特定基线范围。这一发现与由于数据质量不足导致的高流失率相符，从而削弱了将DP技术应用于JITAI系统的期望。为了在这一领域取得进展并跟上那些拥有大量数据的公司，我们需要更多采用大规模临床样本的高质量研究。尽管动态感知在心理健康领域的应用仍处于起步阶段，但这种发展的势头似乎不会很快消失：传感器技术持续进步，传感器能够收集的数据类型和质量也在不断提高。与此同时，大型语言模型（Large Language Models）有助于实现复杂的机器学习架构，并将动态感知数据以清晰、易读的代码形式进行预处理，从而提高研究的可重复性。因此，仍有待观察是否可以通过持续被动感知来检测关键状态（例如负面情绪），进而改善内化障碍的治疗效果。

**代码可用性**
本研究的底层代码可在GitHub上通过以下链接获取：
https://github.com/leona-ha/tiki_code

**作者贡献**
概念设计：L.H. 和 R.R.
方法论：L.H.、R.R.、S.G.、A.B.、K.R. 和 K.H.
形式分析：L.H. 和 R.R.
数据整理：L.H. 和 F.J.
初稿撰写：L.H.
审稿与编辑：L.H.
数据可视化：L.H.
项目监督与管理：A.B. 和 C.K.
资金申请：U.L.、C.K.、K.R.、K.H.、F.J.、B.R.、L.F. 和 N.K.
所有作者均参与了手稿的修订工作，并批准了最终版本。

**资金声明**
本研究由德国研究基金会（Deutsche Forschungsgemeinschaft）资助，项目编号为442075332。

热点排行