基于线性混合模型 (Linear Mixed Models) 的纵向电子健康记录 (Electronic Health Records) 网络分析:MariNET方法及其在COVID-19与帕金森病研究中的应用
《BioData Mining》:Network analysis of longitudinal electronic health records using linear mixed models
编辑推荐:
本文介绍了一种名为MariNET的新颖网络分析方法,该方法利用线性混合模型 (Linear Mixed Models, LMMs) 分析纵向电子健康记录 (EHRs) 数据,以构建临床变量间的交互网络。相较于高斯图模型 (Gaussian Graphical Modeling, GGM) 和向量自回归 (Vector Autoregression, VAR) 等传统方法,MariNET能有效处理重复测量、混杂变量以及数据缺失等挑战,并在COVID-19心理健康与帕金森病 (Parkinson's Disease, PD) 的真实世界数据集中展现出更优性能,为基于网络科学的临床决策和疾病管理提供了更稳健、可扩展的分析框架。
在生物医学研究领域,电子健康记录 (EHRs) 数据的爆发式增长为探索疾病进展、共病模式和患者轨迹提供了前所未有的机遇。然而,这些临床数据具有高维度、异质性以及观测值间存在相关性的特点,传统分析方法如高斯图模型 (GGM) 和向量自回归 (VAR) 因其对数据独立性和平稳性的严格假设,在处理真实世界纵向EHRs时存在局限。为应对这些挑战,研究人员提出了一种名为MariNET的创新方法,其核心是基于线性混合模型 (LMMs) 来构建临床变量间的网络关系。
方法基础
MariNET方法学的基础是线性混合模型。对于一个包含n次测量、p个连续解释变量和q个随机效应分量的数据集,其LMM矩阵形式可表示为 Y = Xβ + Zυ + ε。其中,Y是响应向量,X是固定效应的设计矩阵,β是固定效应系数向量,Z是随机效应的设计矩阵,υ是随机效应参数向量(假设服从υ~N(0,G)分布),ε是残差项。该方法通过为每个临床变量作为响应Y分别拟合一个LMM,将其他所有连续变量作为固定效应,并将分类分组变量(如患者ID)作为随机效应纳入模型,从而在考虑数据层次结构的同时,推断变量间的条件关系。回归系数β经其标准误SE(β)标准化后得到t值(t = β / SE(β)),该值作为加权边输入邻接矩阵,定义节点间的成对关系。最终通过将原始矩阵与其转置相加并计算标准均值,得到表示变量间双向、无向关系的邻接矩阵。
MariNET:一个针对纵向网络分析的全面解决方案
与需要大样本量的多水平VAR或违反独立性假设的偏相关等传统方法不同,MariNET能够应对症状间的时间依赖性、混杂变量的整合以及异质性测量间隔三大关键挑战。其主要功能是构建加权网络,其中节点代表临床变量,边则反映了通过LMM校正协变量后的交互强度。这使得识别核心症状、疾病进展路径和潜在干预靶点成为可能,同时恰当地考虑了主体内的相关性。MariNET还提供了一个比较分析函数,可以对邻接矩阵进行归一化并计算其差异,从而使用户能够可视化网络结构在不同方法或混杂因素分层间的变化。如表1所示,MariNET能够处理多维数据并同时考虑分析中的混杂变量,而其他方法通常需要对混杂变量的不同因子分别分析数据。
COVID-19期间的心理健康与社会接触
为验证MariNET能否提取临床变量间有意义的关联,研究团队分析了一项关于COVID-19疫情期间症状与心理健康相互作用的经验抽样法 (ESM) 数据。该数据集包含80名参与者,在两周内每天测量4次,共产生了4372条涉及14个变量的记录。这是一个完全平衡的设计,所有参与者具有相同的测量次数和时间间隔,且无缺失值。应用MariNET框架分析后,结果显示“C-19 occupied”(花在冠状病毒相关活动上的时间)与“C-19 worry”(对疫情的担忧)之间存在强烈的正相关关系(见Fig. 1A),这表明更多参与COVID-19相关活动与更高水平的疫情相关忧虑有关。同时,也观察到“outdoors”与“home”、“social-offline”与“social-online”以及“alone”与“social-offline”之间存在显著的负向交互,揭示了行为上的权衡。此外,压力症状节点聚集在一起,显示出更强的组内交互。该数据集也使用原研究中采用的两步mlVAR方法以及EBICGlasso进行了分析(Fig. 1B, C)。三种方法发现了相似的变量间关系,MariNET和EBICGlasso产生的中心性度量彼此更为接近。
MariNET评估帕金森病中纵向临床变量间的关系
为了评估MariNET处理纵向数据的能力,研究分析了来自加速医学合作计划帕金森病 (AMP PD) 知识平台的临床数据。经过筛选,最终数据集包含了1316名参与者的2788次访视。MariNET框架成功建模了数据,将参与者标识符作为随机分组效应以解释个体变异性。分析有效展示了MariNET估计已知临床变量间交互作用的能力。例如,记忆力减退和复杂问题解决评分 (UPDRS2) 的严重程度与患者独立活动和进行日常生活的能力 (通过ADL39和Mob39评估) 之间存在强正相关(见Fig. 2A)。同样,蒙特利尔认知评估 (MoCA) 和Schwab与英格兰日常生活活动 (Schwad ADL) 量表也表现出符合临床解释的有意义的交互:这些量表上的更高分数分别反映了更好的认知功能和更高的日常生活独立性,并且与症状进展呈负相关。使用EBICGlasso(通过图LASSO算法估计偏相关)分析该数据集也捕获了UPSIT、MOCA和Schwad ADL等变量间的反向分布等一般交互(Fig. 2B)。比较两种方法发现,最大差异来自ADL39和Mob39之间的关系,这两种方法下均为正相关,但MariNET估计的关联更强(Fig. 2C)。另一方面,评估睡眠问题的爱泼沃斯嗜睡量表 (ESS) 在两种方法中都显示出与PDQ39和UPDRS1定义的认知障碍相关节点的强交互。然而,ESS与UPDRS3之间的交互在MariNET中未显示,而在EBICGlasso中显示。深入分析发现,这种正向交互仅出现在Hoehn and Yahr量表评分为2或更低的患者中,表明该关系仅在PD早期阶段被诱导,在疾病更高阶段则接近于0或转为负值。由于观测值的异质性分布、不同的样本量以及缺失数据的存在,也考虑了向量自回归 (VAR) 作为替代方法,但由于多个变量的方差接近零且每位参与者的测量次数较少,用于估计时间网络的mlVAR方法未能收敛。
混杂变量的影响
为了展示MariNET处理混杂变量的能力,研究修改了上一节使用的AMP PD原始数据集。原本,UPSIT评分和UPDRS3评分呈强负相关。为了模拟存在强混杂变量的情景,人为地在UPSIT和UPDRS3之间引入了正相关,但仅针对男性参与者。分析在包含和不包含性别作为协变量的情况下进行(Fig. 3)。在第一种情况下(包含性别作为协变量),MariNET成功校正了人为施加的UPSIT与UPDRS3之间的负向交互(Fig. 3A)。然而,跳过此协变量调整则导致了虚假的显著交互(Fig. 3B)。最显著的差异出现在UPSIT和UPDRS3的交互上(Fig. 3C),这证实了MariNET有效管理混杂变量的能力。值得注意的是,即使不将性别作为协变量纳入,重复测量的纵向校正也已经改变了变量间的交互。这些结果也与EBICGlasso方法进行了比较。引入的UPSIT与UPDRS3之间的交互导致了一个正向关联(Fig. 3D),但未能解释由性别引入的层次结构。当直接比较两种方法的输出时,主要差异是UPSIT和UPDRS3之间的关系,以及其他与UPSIT相关的变量(如ESS、UPDRS2和Mob39)的关系,这些关系在MariNET中被校正为较低值,而在EBICGlasso中被放大(Fig. 3E)。
讨论
本研究介绍的MariNET是一个新颖的R包和集成工作流程,专为纵向、异质性数据的网络分析而设计。通过不同的案例研究,我们将新方法与几种流行的网络建模方法进行了比较。虽然在平衡、同质且正态分布的数据上所有方法都得到了一致的结果,但当应用于真实世界般的EHR数据(通常分布不均且来自非均质群体)时,MariNET的表现优于现有模型。通过系统性地整合混杂变量并支持跨模型的灵活比较,MariNET提供了更稳健和精确的结果。在计算性能方面,分析合成数据后发现,mlVAR需要更长的计算和输出时间。EBICGlasso是最快的,但这部分是因为它只估计一个不考虑时间结构的同期网络。MariNET在不同规模的数据集上均保持高效,在提供纵向信息估计的同时减少了计算时间。
在COVID-19心理健康研究的案例中,情绪困扰与社会接触之间的交互作用如预期所示。当参与者表现出较低的个体内变异时,MariNET的LMM框架会汇总跨稳定测量的信息,类似于EBICGlasso的横截面相关性,而mlVAR的自回归参数则效力不足,因为它专门建模随时间的变化,而这些变化并不显著存在。我们对AMP PD平台纵向帕金森病数据的评估证明了其相对于EBICGlasso等传统方法的优势。通过随机效应明确建模个体变异性,MariNET可靠地捕捉了既定的临床关系。值得注意的是,与EBICGlasso相比,MariNET的混合效应框架更准确地估计了跨疾病阶段的症状交互作用,EBICGlasso过度强调了在轻度病例(Hoehn & Yahr阶段 ≤ 2)中普遍存在的模式,而低估了晚期疾病中的关系。这在睡眠障碍 (ESS) 和运动症状 (UPDRS3) 之间的差异关联中尤为明显,MariNET恰当地权衡了跨疾病进展的不同关系。
研究发现,当在特定数据亚组中引入合成变异时,MariNET能够检测细微变异并综合全局交互。在修改后的PD队列中,MariNET准确捕捉了男性和女性分层组之间的差异,利用了嗅觉功能 (UPSIT) 与疾病严重程度之间的反向关系,而EBICglasso则过度强调了男性亚组中的正向交互。这种差异凸显了考虑数据层次结构的重要性,因为忽略这一点可能导致有偏或误导性的结论。
最近的纵向和高维EHR分析方法越来越多地采用高斯过程和深度学习框架来建模复杂的非线性模式。这些方法主要旨在优化预测准确性,但当目标是理解临床变量如何随时间演变且未指定明确的结局变量时,MariNET通过提供一个可解释的、专注于揭示描述性变量交互而非预测性能的混合效应框架,对这些模型形成了补充。
这些结果表明,MariNET是一个多功能的工具,弥合了传统横截面网络方法与复杂纵向分析需求之间的差距。这使得研究人员能够提取当前方法可能遗漏的具有临床意义的变量间关系。该软件包能够根据数据特征调整其分析策略(从稳定的群体水平估计到对亚组变异的灵敏检测),代表了临床网络科学的重要进展。
本研究强调了网络分析如何推进解释性和预测性目标,但二者之间的区别至关重要。虽然我们的模型揭示了变量间有意义的关系,但其可解释性并不保证预测能力,反之亦然。尽管MariNET有效地揭示了纵向EHR数据中临床变量间的描述性关联,但必须注意该方法主要捕获的是关联而非因果关系。纵向研究中的因果关系分析需要严格的假设,而这些假设通常难以满足。虽然时间差异可用于假设影响力,但在系统水平上,这些估计是不可能的。
MariNET方法论是探索性和数据驱动型的,优先考虑开放式的科研问题而非特定的先验预测。因此,所产生的网络结构不应被解释为对底层现象的唯一确定性表征,而应被视为依赖于所选变量、测量背景和登记数据特征的一种合理配置。未来的研究应系统地检验这些方法学和背景因素如何影响网络属性,以评估观察到的关系的稳健性和普适性。