用于具有相关审查机制的重复事件数据的联合脆弱性混合 cure 模型：一种 MCEM 方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Statistics in Medicine》：Joint Frailty Mixture Cure Model for Recurrent Event Data With Dependent Censoring: An MCEM Approach

【字体：大中小】 时间：2026年05月10日 来源：Statistics in Medicine 1.8

编辑推荐：

　　摘要现代医疗技术的进步使得一小部分患者能够得到治愈，同时也延长了那些未能康复患者的生存时间。对于未能治愈的患者来说，疾病的复发受到观察到的协变量和未观察到的个体异质性（随机效应）的影响。在生物医学研究中，经常遇到依赖性审查现象，例如在癌症患者中，右审查可能是由于与癌症无关的疾

　　摘要

现代医疗技术的进步使得一小部分患者能够得到治愈，同时也延长了那些未能康复患者的生存时间。对于未能治愈的患者来说，疾病的复发受到观察到的协变量和未观察到的个体异质性（随机效应）的影响。在生物医学研究中，经常遇到依赖性审查现象，例如在癌症患者中，右审查可能是由于与癌症无关的疾病导致的死亡或由于（无法观察到的）治愈状态。本研究提出了一种用于复发事件数据的联合脆弱性模型，该模型考虑了治愈比例，有效地捕捉了异质性并引入了依赖性审查。所提出的多元联合脆弱性混合治愈模型结合了协变量和脆弱性，以及事件发生时间和潜在的治愈状态。该模型使用互补对数-对数（complementary log-log）和逻辑链接函数（logistic link function）来计算每次复发后的治愈概率。采用蒙特卡洛期望最大化（Monte Carlo Expectation-Maximization, MCEM）算法开发了一种基于似然的估计方法。通过蒙特卡洛模拟，我们检验了MCEM估计量的有限样本性质，并通过使用关于 Colonorectal Cancer（结直肠癌）术后复发的医院再入院数据的实际应用进行了补充验证。模拟结果表明，寿命和脆弱性参数的估计是无偏且一致的。与具有相同脆弱性结构的模型相比，具有依赖性脆弱的互补对数-对数和逻辑治愈脆弱性模型与真实数据的拟合效果更好，这通过更低的赤池信息量准则（Akaike information criteria）值得到了证明。

1 引言

在生物医学研究中，事件的重发或复发现象十分常见。例如，乳腺癌手术后患者经常会出现多个肿瘤复发，或者治疗后仍然存在未检测到的癌细胞。尽管如此，患者的免疫系统或抵抗力可能会在手术后下降，导致癌症在体内迅速扩散。心血管疾病患者的多次心脏病发作、抑郁症或焦虑症等心理障碍以及结核病也是生命周期数据中复发事件的例子。机器在维修后的多次故障和服务器的反复停机也是可靠性工程中复发事件的例子。分析这些复发事件数据对于解决有关新治疗方法/疗法的比较研究的问题或在疾病进展过程中考察恢复机会非常重要[1-3]。在生存分析中，通常假设所有患者最终都会经历感兴趣的事件。然而，在现实中，并非所有研究参与者在整个研究期间都面临该事件的风险，即使研究期被延长。这些长期幸存者的比例被称为治愈者。现代发展的医疗技术和治疗方法，例如在乳腺癌、白血病和黑色素瘤或前列腺癌等不同类型肿瘤学研究中的早期诊断或有效疗法，催生了混合治愈模型，这些模型在临床试验和医学研究中非常重要且受欢迎[3-5]。这些混合治愈模型适用于精确估计生存时间和患者在协变量效应影响下的治愈概率。当审查时间与被治愈的可能性或未治愈个体的事件发生时间相关时，会观察到依赖性审查机制[4]。例如，在癌症研究（前列腺癌、结直肠癌或乳腺癌）中，一些患者可能因癌症导致的死亡而被视为治愈（被审查），而未治愈的癌症患者被审查的可能性较低，从而导致依赖性审查。在依赖性审查机制中，已经研究了脆弱性模型以确定失败和审查之间的依赖性[6-9]。对于复发事件时间，脆弱性模型已被广泛用于模拟不可观察的随机效应或脆弱性[1, 2, 10-12]。最近，许多研究将这些模型扩展到单个数据，特别是在分析癌症数据时[13-19]。之前，在联合脆弱性模型中，单个脆弱性术语被用作乘法组分来捕捉由于协变量之外的潜在风险因素引起的未观察到的异质性。在复发事件数据的治愈混合模型中，只有在未治愈的受试者中才观察到事件时间，这意味着复发过的个体不能属于治愈组[20, 21]。事件发生的概率可能与一些有影响力的观察到的和未观察到的因素相关联，忽略这些随机效应可能会导致估计偏倚。此外，在每次复发后，需要估计发生概率以捕捉未来复发的瞬时可能性。患者可能会因为药物反应而在再次入院后增加复发风险或恶化。在每次复发后包含一个新的脆弱性因素可以解决这种个体层面的异质性[22]。逻辑链接函数（logistic link function）、probit链接函数或互补对数-对数链接函数（complementary log–log link function）适合用于建模治愈概率，因为它们在捕捉每次复发后的变化时具有良好的灵活性[21]。Rondeau等人[5]使用带有每次复发后治愈比例的脆弱性模型来建模复发事件，其中采用了共享的随机效应，并在复发和生存组成部分之间建立了比例关系。实际上，对于潜伏期（或治愈概率）和发生期（或事件时间）部分采用不同的但相关的脆弱性术语可能是捕捉这些过程之间潜在依赖性或联合异质性的更好选择，而这在他们的研究中没有探讨。对于具有多个或非正态随机效应、高维混合分布或复杂层次结构的模型，使用数值优化似然函数时经常会出现收敛失败[23]。Rondeau等人[5]在研究中依赖于脆弱性分布的正态性假设，使用SAS 9.1中的PROC NLMIXED和高斯求积法来最大化似然函数。尽管PROC NLMIXED是估计非线性混合效应模型参数的灵活强大工具，但它也有一些限制。当计算边缘似然时，数值积分的准确性取决于求积点的数量以及随机效应的维度[24]。Rondeau等人[5]还报告说，他们在研究中的模拟案例存在高达4%的收敛不稳定性。基线风险通常在参数假设下进行建模，例如分段常数或Weibull分布，这可能无法建模复杂或非比例的风险模式。然而，这种模型产生了随机效应方差的偏倚估计以及回归参数估计的偏倚，并且没有报告不同治愈比例下的估计偏倚。Tawiah等人[3]提出了一个更通用的具有相关随机效应的二元联合脆弱性混合治愈模型。该模型共同考虑了未治愈患者中复发事件和死亡之间的依赖性。治愈概率使用逻辑函数进行建模，其中包含了患者特定的未观察到的脆弱性，尽管这未能捕捉事件时间和治愈状态之间的相关性。所提出的期望最大化（Expectation and Maximization, EM）类型的受限最大似然（REML）估计方法与马尔可夫链蒙特卡洛（Markov Chain Monte Carlo, MCMC）相比，是一个耗时较少的过程。然而，该算法用条件期望替换了缺失的治愈状态，这些条件期望是基于脆弱性的，因此根据潜在的相关模式产生了偏倚的参数估计。本研究旨在开发一个灵活的联合脆弱性模型，其中考虑了两个依赖的随机效应，一个用于发生，另一个用于风险，以获得平滑的底层模型结构。互补对数-对数链接函数和逻辑链接函数都被用来模拟患者的未治愈状态。当估计罕见事件或风险迅速增加的事件的概率时，互补对数-对数链接函数是合适的，而逻辑链接函数可以有效地处理对称连接。通过一系列模拟研究调查了所提模型的性能。使用蒙特卡洛（Monte Carlo, MC）期望最大化（MCEM）算法进行了参数估计和推断。此外，通过分析González等人[25]发布的关于被诊断出Colonorectal Cancer（结直肠癌）患者连续再住院的次要数据，展示了所提出程序的实用性。本文的其余部分结构如下：第2节介绍了用于复发事件的混合治愈脆弱性模型的公式。本章还详细解释了似然函数和参数估计过程。第3节解释了模拟设置并讨论了模拟结果。使用关于被诊断出Colonorectal Cancer患者连续再住院的真实数据进一步评估了所提模型的性能，并与第4节讨论的具有相同脆弱性的混合治愈模型进行了比较。第5节对所提模型及其估计技术的优点和局限性进行了总结性讨论。

2 方法

2.1 用于复发事件的提出的混合治愈脆弱性模型

假设进行了一项纵向随访研究，以观察独立患者的复发临床事件。在复发事件过程中可能会发生右审查，这可能是由于死亡、失去随访或研究结束（即行政审查）。设\(t_{ij}\)为第\(i\)个患者的第\(j\)次复发时间，\(c_{ij}\)为第\(i\)个患者的第\(j\)次复发的审查时间，\(f_{ij}\)对应于每次随访时间。设\(d_{ij}\)为第\(i\)个患者在第\(j\)次复发时的审查指标，那么如果被审查，则\(d_{ij}\)可以设置为0，否则设置为1。设\(\xi_{ij}\)为与第\(i\)个患者的第\(j\)次复发生存时间相关的固定或时间依赖的观察协变量向量。设\(\eta_{ij}\)为一个随机效应或脆弱性，其概率密度函数为\(f(\xi_{ij})\)，捕捉了个体因事件而连续再入院的可能性。不同的基因变异、激素、对致癌物的易感性或其他任何特定的未观察到的因素可能是每个患者内连续复发之间的相关性的来源。Cox比例风险模型允许模型中的脆弱性来捕捉未观察到的异质性，并预期会在同一个体内的复发事件之间引入依赖性[10]。然而，Cox的模型[26]也假设所有个体都会经历该事件，这在实践中并不成立，因为研究中的所有个体可能不会经历该事件，或者在研究期间或以后的生活中甚至没有患病的风险。因此，将普通脆弱性模型扩展到治愈脆弱性的想法是由于需要分别建模易感和非易感个体[27]。为了识别每次复发后个体的治愈状态，设\(y_{ij}\)表示经历事件（未治愈，在第\(j\)次复发）的个体，\(1 - y_{ij}\)表示相反的情况（治愈）。成功响应治疗且不再有复发风险的患者可能更有可能退出研究。相比之下，仍然有复发风险的患者更有可能留在研究中，不太可能提前退出。因此，这种对审查机制的依赖性在治愈比例模型中是显而易见的。给定\(\xi_{ij}\)和一个随机的患者特定脆弱性\(\phi_{ij}\)，未治愈个体在时间\(t\)的危险性由下式给出：

\[h(t,\phi_{ij}) = \phi_{ij} \cdot e^{-\lambda_{ij} \cdot e^{(\xi_{ij} \cdot t)}\]

其中\(\lambda_{ij}\)是所谓的基线危险性，不涉及\(y_{ij}\)或\(\phi_{ij}\)，\(\beta\)是一个未知参数的向量。对应于方程（1）的生存函数由下式给出：

\[S(t|y_{ij}, \phi_{ij}) = S(0|0) \cdot \prod_{k=1}^{j} [H(t-k|0,\phi_{kj})\]

其中\(H(t-k|0,\phi_{kj})\)是累积基线危险函数，指定为非参数的。方程（2）的关联密度函数由下式给出：

\[f(\xi_{ij}, t) = \int_{-\infty}^{\infty} e^{-\lambda_{ij} \cdot \exp[-\eta_{ij} \cdot (t-k)} e^{\phi_{kj} \cdot (t-k)} \, dt\]

在本研究中，考虑了具有不同治愈状态的混合治愈模型以进行相对比较。第一个模型使用互补对数-对数（或clog-log）模型来表示治愈状态：

\[H(t|y_{ij}, \phi_{ij}) = \frac{\log(\lambda_{ij})}{\log(\lambda_0)} \cdot \exp(-\sum_{k=1}^{j} \lambda_{kj} \cdot \phi_{kj} \cdot (t-k)}\]

而第二个模型使用逻辑治愈状态：

\[H(t|y_{ij}, \phi_{ij}) = 1 - \exp\left(\sum_{k=1}^{j} \beta_{kj} \cdot \phi_{kj} \cdot (t-k)\right)\]

其中\(\alpha_{kj}\)是与第\(j\)次复发患者的治愈概率相关的观察协变量向量，\(\beta_{kj}\)是参数向量，\(\gamma_{kj}\)是第\(i\)个患者的随机效应，与治愈概率相关，\(\delta_{kj}\)是每次事件后没有额外事件发生的概率。脆弱性\(\eta_{ij}\)捕捉了第\(i\)个个体复发时间的未观察到的异质性，\(\phi_{ij}\)捕捉了治愈概率的未观察到的异质性。实际上，这两个随机效应并不独立。具有较大\(\eta_{ij}\)的个体表明复发的脆弱性更高。然而，较小的\(\eta_{ij}\)意味着不太可能未治愈，因为它与更高的治愈可能性相关。因此，这两个随机效应之间的相关性对于聚类内的相关性分析是有用的[5]。它们的联合密度可以用向量表示法来表达，对于某个具有边际分布的密度，以及。在这个模型中，确保了复发危险与治愈概率之间的依赖性。然而，脆弱性（frailties）不是相同的；换句话说，没有一个脆弱性项是正态分布的，也没有一个与另一个成正比，这与其他现有的研究结果不同[3, 5]。分布假设以及估计过程将在下面的小节中详细讨论。在给定边际条件的情况下，整体生存函数表示为

（6）
相应的密度函数表示为

（7）
其中复发时间（recurrence times）是指同一受试者在由于事件而发生的连续访问之间的间隔时间。正的脆弱性值表明由于事件导致复发的风险增加（如果个体易感的话），而正的脆弱性值则表明被治愈的概率较低（或者易感概率较高）。在整篇文章中，向量和矩阵用粗体符号表示，设计矩阵则用粗体大写字母表示，例如。

2.1.1 补充对数-对数模型的估计过程
伽马分布由于其无限可分性[12]而常被用作脆弱性分布，这允许将总脆弱性表示为来自个体内部多个来源的许多小而独立的风险成分之和。此外，伽马脆弱性模型在共享脆弱性设置中表现出时间不变的依赖结构，从而在可解释性和计算可行性之间取得了平衡[28]。在文献中提出了几种相关的双变量伽马脆弱性模型[28]；然而，在这项研究中，我们提出了一个新颖的双变量伽马脆弱性模型，假设并。对数变换后的脆弱性确保了对数危险模型和治愈模型的阳性以及叠加效应。这种参数化的优点，以及其数学上的简单性，在其他文献中也有讨论[29]。为了完成模型构建，假设两个独立的随机变量和，其中。然后，伽马变量和贝塔变量的乘积也遵循具有参数和的伽马分布[30]。因此，和共同遵循具有概率密度函数的双变量伽马分布

其中；这表明由于支持限制而存在依赖性。此外，是伽马脆弱性，也是治愈比例中的随机效应，而则线性地加到相应的线性预测变量上，没有任何范围限制。这里，和有助于估计参数并提高可解释性[29]。此外，意味着线性相关，正的三伽马函数总是估计出正的相关性，因为是正的。另外，和仅控制未观察到的异质性程度；解释为，方差表示同质人群。完整的数据似然可以表示为以下形式

如果个体在随访期间未被治愈，删失指标被设置为1，否则为0。对数变换后的似然变为

对数似然（方程8）可以分为三个不同的部分。似然的第一部分是基于补充对数-对数模型参数的贡献（见方程9），第二部分与混合治愈脆弱性模型相关（见方程10），第三部分与脆弱性相关。经历复发的观察到的个体被定义为未治愈的，即意味着。相反，如果相应的随访时间在复发之前结束，则个体的治愈状态是未知的，即当时缺失。为了处理未观察到和观察到的情况，使用完整数据似然。E步骤通过使用观察到的数据和当前的参数来估计完整数据对数似然的期望值，从而完成缺失的治愈状态和脆弱性的处理。M步骤通过对未知参数的条件期望值最大化完整数据对数似然来更新参数估计。E步骤和M步骤之间的迭代持续进行，直到收敛。期望值的解析解是不可能的。可以使用蒙特卡洛EM算法有效地执行EM算法，在每次迭代中，从的密度中生成总共个样本，并且可以通过以下方式近似期望值

在M步骤中，参数通过牛顿-拉福森优化程序获得，其中参数估计值根据给定的数据和当前的、和进行迭代更新。牛顿-拉福森程序应用于，提供了参数的估计值，其中是从似然的第一部分估计出的。期望值的简化如下。

对数似然的第三部分是联合脆弱性模型，其中期望似然通过对应用柯西近似[31]来最大化。期望对数似然如下

其中右侧的所有期望值都是解析计算的（见支持信息）。标准误差是根据路易斯方法[32]从信息矩阵的对角线得出的。使用路易斯方法的观察信息矩阵为

如果个体在随访期间未被治愈，删失指标被设置为1，否则为0。对数变换后的似然变为

对数似然（方程8）可以分为三个不同的部分。似然的第一部分是基于补充对数-对数模型参数的贡献（见方程9），第二部分与混合治愈脆弱性模型相关（见方程10），第三部分与脆弱性相关。经历复发的观察到的个体被定义为未治愈的，即意味着。相反，如果相应的随访时间在复发之前结束，则个体的治愈状态是未知的，即当缺失。为了克服这种情况，使用完整数据似然来处理未观察到和观察到的情况。E步骤通过使用观察到的数据和当前的参数来估计完整数据对数似然的期望值，从而完成缺失的治愈状态和脆弱性的处理。M步骤通过对未知参数的条件期望值最大化完整数据对数似然来更新参数估计。E步骤和M步骤之间的迭代持续进行，直到收敛。对期望值的解析解是不可能的。可以使用蒙特卡洛EM算法有效地执行EM算法，在每次迭代中，从的密度中生成总共个样本，并且可以通过以下方式近似期望值

在M步骤中，参数通过牛顿-拉福森优化程序获得，其中参数估计值根据给定的数据和当前的、和进行迭代更新。牛顿-拉福森程序应用于，提供了参数的估计值，其中是从似然的第一部分估计出的。期望值的简化如下。

2.1.2 逻辑模型的估计过程
为了完成模型构建，假设和，其中和，因此是伽马脆弱性。治愈比例中的随机效应线性地加到相应的线性预测变量上，没有任何范围限制，并遵循广义逻辑分布（类型IV）[33]。和的联合密度具有以下函数形式：

这里，由于和是独立的，因此意味着。这些是模型中基线危险和脆弱性项之间可识别性的基本假设。此外，意味着是脆弱性之间的线性相关系数。尽管固定的相关性是模型的一个限制，但应该注意的是，对于非正态随机变量来说，线性相关并不是一个好的依赖性度量，而且可以通过实证验证，联合分布的形状确实会随着而有所不同（见附录图7和8）。现在，条件在，观察到的数据的似然函数表示为

在对数变换之后，条件似然变为

让我们表示，和，我们从方程（3）得到

相应的方程（14）

对数似然方程（15）的第一部分只涉及参数和，而第二部分包含所有参数，但它对似然的贡献可能非常小，因为和。因此，条件似然函数的两部分可以分别使用来获得模型参数估计值，如下所示。为了估计和，我们使用以下对数似然函数

EM算法结合牛顿-拉福森算法用于获得估计值，比如说和，其中初始值是和。然后在第二步中可以从似然的第二部分估计出

在这两个步骤之间迭代，直到获得收敛。

2.2 相同脆弱性模型
为了进行比较分析，设计了另一个模型，使得复发时间和治愈比例的脆弱性都是相同的。相应的生存函数表示为

其中，是累积基线危险函数，指定为非参数的，治愈状态由给出

相关的密度函数由给出

整体生存的密度函数为

其中遵循具有相同形状和尺度的伽马分布，作为复发时间和治愈状态组分的共享脆弱性。这种脆弱性考虑了未观察到的异质性，它捕捉了经历疾病或复发的风险，以及属于未治愈组的个体。在分层治愈模型中研究了使用共同的伽马脆弱性来处理发病率和复发过程的想法[5]，以适应患者水平的未观察到的异质性。在许多健康数据设置中，这种假设是合理的，其中未测量的受试者水平因素——如遗传倾向、免疫系统功能、潜在的生理脆弱性或多重疾病条件同时影响被治愈的概率以及未来复发的风险或频率。Wienke [34]讨论了在生物医学复发中共享脆弱性的合理性，其中潜在的脆弱性对一个受试者是恒定的。

2.2.1 相同脆弱性情况下补充对数-对数模型的估计过程
为了得出模型参数的最大似然估计量，在设置和之后，对数似然（方程8）被最大化，然后将的密度替换为以下单变量形式

参数和分别使用方程（9）和（10）进行估计。可以使用蒙特卡洛EM算法有效地执行EM算法，在每次迭代中，从的密度中生成总共个样本。蒙特卡洛样本大小为1000，整个实验重复250次以获得最高的准确性。在M步骤中，参数通过牛顿-拉福森迭代优化程序获得，其中参数估计值根据给定的数据和当前的、和进行迭代更新。似然方程（8）的第二部分与Cox比例风险相关，应用牛顿-拉福森迭代优化过程来使用方程（10）获得参数的估计值，其中是从方程（9）估计出的。基线危险是非参数估计的。是从方程（8）的第三部分估计出的，其中联合密度被替换为单变量，似然可以表示为

伽马的标准误差是根据方程（11）使用路易斯方法[32]得出的，和的标准误差是根据方程（12）和（13）的观察信息矩阵得出的。

3 仿真研究
对联合脆弱性混合模型进行了仿真研究，以评估估计量的性能。考虑了两个协变量：，这是长期再入院风险的相关协变量，和，这与事件的发生率有关。这项研究考虑了两种情况，共有和名患者，每位患者随访5年。协变量和是从概率为0.5的伯努利分布中生成的。对于每位患者，按照以下步骤生成复发数据。由于随访时间而丢失的天数，用表示，是从最大为5年的均匀分布中生成的。对于补充对数-对数治愈概率，随机变量是从参数为的Beta分布中生成的，是从伽马分布中生成的。与生存模型相关的脆弱性定义为，是从参数为的伽马分布中生成的。与疾病发生率相关的脆弱性是，也遵循伽马分布[30]。相比之下，是从伽马分布中生成的，是从具有相同形状和尺度的Beta分布中生成的，用于逻辑治愈状态。第个复发个体的治愈状态是从伯努利分布中生成的。对于补充对数-对数模型，概率是，对于逻辑模型如第2节所述。如果治愈状态为1（即患者未被治愈），则使用生存函数生成连续发生之间的间隔时间。Weibull基线危险分布定义为，具有尺度和形状，对于补充对数-对数，以及尺度和形状，对于逻辑模型。然而，如果患者被治愈，即，那么接下来的复发时间在处被删失。在EM程序中，E步骤的蒙特卡洛样本大小（MCSS）分别设置为100、500、1000和5000。整个实验被重复了250次，并且对不同组合的参数值进行了模型有效性的测试。模拟过程在图1所示的流程图中进行了可视化总结，该流程图捕捉了分析中的各个步骤。图1在图查看器中打开。

图1：蒙特卡洛模拟中每个受试者数据生成过程的流程图。

表1总结了250次重复实验中不同MCSSs（总共有1000个个体）的平均估计参数。它包括了平均估计参数、均方误差（MSE）以及使用Louis [32]方法估计的互补对数-对数模型的平均标准误差（标准误差在括号中）。无论蒙特卡洛样本大小从100到5000不等，对和的估计都是无偏且一致的。在MCSS为5000时，潜在参数导致的MSE最小，其与MCSS为100时估计的MSE几乎没有差异。表1的第五列显示了应用Louis方法得到的估计标准误差的均值，其经验标准误差也在括号中显示。估计标准误差以及方差的标准误差也都接近于零，这表明由于潜在变量导致的参数估计的变异性很小，与观测数据相比。当MCSS较大时，蒙特卡洛EM算法的估计过程运行时间显著延长，而使用较小的MCSS时则在较短时间内达到了类似的精度。

表1：基于250次重复实验的不同MC样本大小的互补对数-对数模型的估计参数、SE和MSE。

参数真实参数 MCSSa 估计值 MSEb ESEc(SEd)

发病率 1 100 1 4.52e-08 5.27e-11 (9.09e-12)
潜在参数 ?1 ?1 1.36e-03 0.02 (7.87e-05)
脆弱性 1.5 1.5 4.20e-07 0.01 (2.05)
治愈率（标准差） 61.78% 60.90% 60.90%
发病率 1 500 4.30e-08 3.42e-11 (7.02e-12) 60.90%
潜在参数 ?1 ?1 1.11e-03 0.02 (7.64e-05)
脆弱性 1.5 1.5 4.21e-07 0.01 (2.01)
治愈率（标准差） 60.90% 60.90%
发病率 1 1000 4.30e-08 3.42e-11 (7.02e-12) 60.90%
潜在参数 ?1 ?1 1.72e-03 0.02 (7.50e-05)
脆弱性 1.5 1.5 4.21e-07 0.01 (2.01)
治愈率（标准差） 60.90% 60.90%

a MCSS：蒙特卡洛样本大小。
b MSE：均方误差。
c ESE：估计的经验标准误差。
d SE：估计的标准误差。互补对数-对数模型和逻辑模型在不同的参数、样本大小和治愈率设置下表现都非常好（见表2、表3）。的平均估计值是无偏的，即使是MSE和SE也接近于零。较小的标准误差反映了在多次重复实验中的一致性。通过Louis方法估计的均值的SE、MSE以及估计的SE也很小。当的真实值较大或和为负数时，的MSE tend to be larger。随着样本大小的增加，这个问题得到了缓解。表2展示了样本大小为1000时的估计参数。的估计值是无偏的，SE非常低，MSE也几乎为零。

表2：基于250次重复实验的样本大小N = 1000的互补对数-对数治愈模型的估计参数、SE和MSE。
- 设置1：基线危险度，比例为3，形状为10
- 设置2：基线危险度，比例为1.5，形状为3

模拟1
发病率 0.999 2.34e-09 2.26e-07 1.71e-06 3.00 3.001 3.72e-08 4.00 1.62e-09 3.26e-07 3.00 1.46e-08 7.54e-08 1.37e-08 3.00 1.46e-08 1.71e-06 3.00 3.44e-08 1.93e-04 4.00 4.01e-07 2.00 6.32e-07 5.24e-04 1.5 1.499 4.01e-07 4.01e-07 90.34% 90.34%
模拟2 0.999 5.50e-14 5.16e-08 5.49e-14 1.5 ?1 ?1.00 9.55e-08 2.84e-07 1.5 ?1.5 3.49e-12 4.09e-07 0.5 0.5 1.499 4.01e-07 90.34%
模拟3 0.999 5.50e-14 5.16e-08 5.49e-14 ?1 ?1.00 9.55e-08 2.84e-07 1.5 ?1.5 3.49e-12 4.09e-07 0.5 0.5 1.49 86.16%
模拟4 0.999 8.49e-14 8.55e-08 8.49e-08 ?1 ?1.5 2.82e-12 4.90e-07 ?1 ?1.5 9.55e-08 2.84e-07 0.75 0.75 1.44e-06 0.75 23.09%
模拟5 0.999 1.04e-15 7.51e-10 7.54e-08 ?5 ?5.00 1.19e-11 7.97e-08 ?2 ?1.0003 9.55e-08 2.84e-07 1.5 1.25 4.33e-07 4.80e-06 0.75 0.75 2.21e-15 1.99e-07 23.09%
模拟6 0.999 1.04e-15 7.51e-10 7.54e-08 ?5 ?5.00 1.19e-11 7.97e-08 ?2 ?1.0003 9.55e-08 2.84e-07 1.5 1.25 4.33e-07 4.80e-06 0.75 0.75 2.21e-15 1.99e-07 35.77%
模拟7 0.999 1.04e-15 7.51e-10 7.54e-08 ?5 ?5.00 1.19e-11 7.97e-08 ?2 ?1.0003 9.55e-08 2.84e-07 1.5 1.25 4.33e-07 4.80e-06 0.75 0.75 2.21e-15 1.99e-07 35.77%
模拟8 0.999 1.04e-15 7.51e-10 7.54e-08 ?1 ?1.5 2.82e-12 4.90e-07 ?1 ?1.5 9.55e-08 2.84e-07 0.75 0.75 1.16e-11 3.41e-06 0.75 0.5 0.5 1.95e-08 0.014 (7.27e-07)
模拟9 0.999 3.90e-10 4.28e-11 3.91e-18 3.91e-18 1 0.999 3.15e-20 1.16e-11 ?0.05 ?0.05 2.84e-12 8.77e-11 ?0.05 1.19e-21 2.41e-11 6.35e-12 0.2 0.2 2.48e-21 7.00e-06 0.2 2.69e-22 3.99e-06 0.65 0.65 3.95e-08 0.014 (7.27e-07)
模拟10 0.999 3.90e-10 4.28e-11 3.91e-18 1 0.999 3.15e-20 1.16e-11 ?0.05 2.84e-12 8.77e-11 ?0.05 1.19e-21 2.41e-11 6.35e-12 0.2 0.2 2.48e-21 7.00e-06 0.2 2.69e-22 3.99e-06 0.65 0.65 1.44e-06 0.014 (7.27e-07)

表2：样本大小N = 1000的逻辑治愈模型的估计参数、SE和MSE，基于250次重复实验。
- 设置1：基线危险度，比例为2，形状为15
- 设置2：基线危险度，比例为2，形状为5

模拟1 发病率 1 1.37e-13 6.6e-08 1 1 3.26e-16 1 1 3.44e-14 1 1 3.26e-08 7.96e-17 9.40e-05 7.96e-05 1.46e-08 8.19e-08 1 3.44e-08 1 1 3.44e-08 7.54e-08 1 3.44e-08 1 1 3.26e-07 7.96e-17 9.40e-05 1 0.91 0.910 2.62e-07 0.91 0.91 4.01e-07 0.023 (1.46e-06)
模拟2 发病率 1 1.37e-13 6.6e-08 1 1 3.26e-16 1 1 1 3.26e-07 1 1 1 3.44e-08 1 1 3.44e-08 1 1 3.26e-07 7.96e-17 9.40e-05 0.91 0.91 0.91 2.62e-07 0.91 0.023 (1.46e-06)
模拟3 发病率 1 1 1.37e-13 6.6e-08 1 1 1 3.26e-07 1 1 1 3.44e-08 1 1 1 3.44e-08 1 1 3.44e-08 1 1 3.26e-07 7.96e-17 9.40e-05 0.91 0.91 0.91 2.62e-07 0.023 (1.46e-06)
模拟4 发病率 1 1 1.37e-13 6.6e-08 1 1 1 3.26e-07 1 1 3.26e-07 1 1 3.44e-08 1 1 3.44e-08 1 1 3.26e-07 7.96e-17 9.40e-05 0.91 0.91 0.91 2.62e-07 0.023 (1.46e-06)
模拟5 发病率 1 1 1.04e-15 7.51e-10 7.54e-08 1 0.999 6.84e-09 7.54e-08 1 0.999 6.84e-09 7.54e-08 1 ?1 ?1.5 2.82e-12 4.90e-07 1 ?1 ?1.5 4.58e-19 4.58e-19 0.5 0.5 4.35e-18 1 0.5 4.35e-18 1 0.5 4.58e-19 0.5 0.5 4.35e-18 1 0.1 5.09e-23 2.64e-06 ?1 ?1 8.91e-21 9.61e-06第1次、第2次、第3次和第4次再入院的K-M曲线，按照其他协变量分层后，分别在图4-6中给出。对于个别患者来说，医院再入院和死亡是相关的，导致了依赖性审查（即某些数据的缺失是由于之前的事件结果）。这种依赖性可能是由于患者特定的未观察随机效应，例如炎症性肠病或癌症阶段[3]。因此，提出的混合治愈脆弱性模型考虑了由治愈状态引起的依赖性审查，可能适用于具有治愈比例和依赖性终止事件的连续复发事件数据的建模。表4展示了从混合治愈脆弱性模型中估计出的总结结果。所有负系数都表示未治愈个体的风险降低，表明复发概率较低以及生存时间较长。在治愈组分（clog-log链接）中，女性的系数为正且大于1，表明女性相比男性（参考类别）复发风险大约低11%。相应地，女性相比男性有更高的治愈概率。在生存组分中，女性的回归系数为，对应的危险比为。这意味着在未治愈的个体中，女性再入院的风险比男性低约81%。这种双重保护效应突显了在事件发生率和进展方面存在着强烈的性别差异。化疗与医院再入院显著相关；在治愈组分（clog-log链接）中，接受化疗的系数为正，表明与未接受化疗的患者相比，未治愈的概率较低。在生存组分中，接受化疗的未治愈患者的风险比未接受化疗的患者低93%。从长远来看，未治愈的男性患者和未接受任何治疗的患者更有可能再入院。之前的研究已经报告了这些数据中的性别差异[25]，无论是关于重新住院[5]还是发病率和重新住院[3]。

表4. 对于被诊断出患有结直肠癌的患者，连续再住院的生存模型结果。

| | 估计值a | 估计值b | 估计值c |
|---------|-----------------|-----------------|-----------------|
| 发病率（治愈状态）组分 | | | |
| | | | |
| 协变量 | | | |
| 补充log-log | | | |
| 逻辑组分 | | | |
| 相同脆弱性模型 | | | |
| 截距 | | | |
| 男性（参考） | 1.47 | 0.577 | 2.72 |
| 女性 | 1.11 (2.0e-03) | 1.37 (2.24e-01) | 2.72 (1.7e-06) |
| 化疗 | | | |
| 未治疗（参考） | 1.11 (2.0e-03) | 1.50 (2.33e-01) | 2.72 (1.8e-06) |
| Dukes分期 | | | |
| A-B（参考） | 1.14 (2.0e-03) | 1.22 (2.67e-01) | 2.72 (2.1e-06) |
| C | 1.14 (2.0e-03) | 1.22 (2.67e-01) | 2.72 (2.1e-06) |
| D | 1.13 (3.0e-03) | 1.16 (3.20e-01) | 2.72 (2.6e-06) |
| Charlson指数 | 0 (参考) | 1-2 | 1.12 (4.0e-03) | 1.89 (1.67e-01) | 2.72 (2.1e-06) |
| Cox比例风险组分 | 0.194 (2.80e-02) | 0.173 (1.8e-02) | 0.037 (6.0e-03) |
| AIC | 13083.64 | 79503.05 | 8350.12 |

a 相关脆弱性的补充log-log发病率和Cox比例风险模型。
b 相关脆弱性的逻辑发病率和Cox比例风险模型。
c 相同脆弱性的补充log-log发病率和Cox比例风险模型。
d SE：标准误差。在高级Dukes分期和高Charlson合并指数各个类别中，复发风险被发现是相似的，这与以往的研究结果一致[39]。在肿瘤阶段C和D，未治愈的发病率风险大约比阶段A-B低14%。同时，阶段C或D的未治愈患者比阶段A-B的患者复发风险更低。Charlson合并指数为0的患者未治愈的风险是0.109倍，而指数为0.5的患者未治愈的风险是0.085倍。此外，未治愈患者的复发风险分别比指数为0.0的患者低73%和59%。在发病率风险方面，Dukes分期和更高的合并指数降低了两种模型中被治愈的可能性，这也与以往的研究一致[3]。在逻辑模型的发病率组分中，考虑到患者特定的随机效应后，女性未治愈的概率是男性的1.37倍，而接受化疗的患者未治愈的概率是未接受化疗患者的1.50倍。因此，在未治愈患者中，女性患者复发的可能性高出37%，而接受化疗的患者复发的可能性高出50%。因此，在治愈概率和复发风险方面，男性和女性患者之间存在显著差异。对于肿瘤阶段和，未治愈的概率几乎相当。与Charlson合并指数相关的系数也显示出类似的模式。在未治愈的患者中，被诊断为肿瘤阶段和的患者复发的可能性分别比阶段的患者高出11.71%和14.20%。同样，Charlson合并指数为和的患者复发的可能性分别比指数为0的患者高出3.98%和1.87%。然而，在相同脆弱性模型（第4列）中，发病率估计表明所有协变量和类别下的未治愈危险比率是相同的。因此，估计的治愈概率为0.934，这对于基线类别（即未接受化疗的男性患者、肿瘤分期A-B和Charlson合并指数为0的患者）来说非常高，接近1。参数控制了未观察到的异质性的程度。从相同脆弱性模型估计的脆弱性参数为0.099，标准误差为，低于估计的脆弱性参数0.954的标准误差（见表4）。这表明在相同脆弱性假设下，医院再入院的危险率异质性较小。然而，从逻辑治愈发病率模型估计的脆弱性参数为0.01，标准误差非常小。因此，依赖脆弱性模型比相同脆弱性模型捕捉到了更大的异质性。危险比的对数化99%置信区间表明（此处未显示计算结果）具有统计显著性，因为所有区间都不包含1。置信区间的狭窄范围是由于估计参数的标准误差较小。从混合补充log-log治愈脆弱性模型的观察似然值估计的Akaike信息量准则（AIC）小于逻辑治愈脆弱性模型。用于参数估计的算法非常灵活，平均在65次迭代后收敛，55次迭代后收敛，48次迭代后收敛。使用MCSS为1000和容忍度为0.001的结肠癌数据医院再入院估计的整个过程大约需要40秒完成。

5 讨论
本研究开发了一种半参数混合治愈模型，用于处理具有依赖性脆弱性的结构化复发事件数据簇。与文献中现有的脆弱性混合治愈模型相比，该技术在处理治愈和复发组分之间的相关和非高斯随机效应方面具有优势。每次复发后都会更新治愈的可能性，而不是在第一次就诊后将患者视为永久未治愈。采用独立的但针对特定受试者的相关脆弱性，以克服现有随机效应模型需要共享（相同）或比例随机效应的限制。提出了基于似然的估计方法，其中使用蒙特卡洛EM来估计未知参数，因为E步骤中的积分无法解析求解。所提出的补充log-log模型的计算能力降低了偏差，并快速收敛到真实值。通过模拟以及对治愈率为约47%的结肠癌患者的医院再入院数据的应用，验证了该模型的有效性。从大样本估计的均方误差（MSE）接近零，小的估计标准差表明模型拟合良好。从模拟数据估计的回归参数的MSE非常小，随着样本量的增加甚至可以忽略不计（即接近零）。因此，这些发现表明模型紧密接近真实的潜在过程，最小化了系统误差。该模型适用于任何治愈率以及不同的随访时间，并且可以处理疾病发病率的关联异质性和长期生存。可以忽略的偏差、小的标准误差和低MSE在各种真实参数组合下保持稳定，从而可以对模型的真实值进行可靠的推断。这种方法确保了结果在参数组合上的一致性，表明它可以有效地推广到各种情境中。第二个提出的模型允许在混合脆弱性模型中使用逻辑治愈状态。为了缓解计算挑战，将EM算法应用于观察到的数据似然。复发时间的边际密度以及在EM算法中所需的条件期望是使用超几何函数得出的，因为直接积分在分析上是不可行的。用于验证所提出模型的模拟和观察到的医院再入院数据产生了在合理误差范围内的准确估计，表明模型在两种情况下都适当捕捉了数据生成过程。逻辑模型相对简单，估计过程耗时较少，尽管需要进一步研究以验证其在广泛治愈率范围内的性能。此外，在这种模型设置中，假设脆弱性的相关性是固定的（相关性0.707）。鉴于这一限制，逻辑混合模型的灵活性不如补充log-log混合治愈模型，后者在效率上表现更优，因此可能被认为是建模潜在复发事件过程的合适方法。可以尝试进一步扩展逻辑模型，使用分别控制两种脆弱性的不同参数，从而成为未来研究的主题。在模拟研究中，基线危险被建模为Weibull分布，这也适用于不同的形状和尺度组合。相关脆弱性被建模为双变量gamma，其中边际是均值为1的gamma。目前处理右删失的提出的联合脆弱性混合治愈模型可以进一步扩展以适应区间删失。另一个潜在的扩展是使用copula函数来建模暴露的随机效应与治愈概率和未治愈失败危险之间的联系，以放宽关于脆弱性分布的强分布假设。

作者贡献
Nasrin Sultana：模型推导、分析、撰写手稿。
Moudud Alam：概念化、监督、审阅和编辑手稿。
Md Hasinur Rahaman Khan：概念化（提供支持）、监督、审阅和编辑手稿。

本研究报告得到了孟加拉国科技部下属的Bangabandhu科学技术奖学金信托基金的支持。

利益冲突
作者声明没有利益冲突。

附录A
补充log-log治愈模型的密度和期望值复发事件的边缘密度

给定危险模型和每次发作时的脆弱性，与其相关的互补对数-对数分量的脆弱性密度和期望值可以通过以下方式获得：

的相关联合密度可以通过以下公式得到：

的边缘密度可以通过以下公式得到：

给定数据的治愈期望值

实现EM算法所需的对数分量的期望值

逻辑治愈模型的密度和期望值

复发时间和脆弱性的联合密度可以以以下形式找到

比较方程（13）和（14），我们看到的边缘密度（在某个比例常数范围内）可以通过以下方式获得：

为了使上述公式成为一个概率密度函数，我们需要找到

设，则有

或者，

或者，

设，则有，和。这给出

表示，令，则有

然而，上述积分的形式是超几何函数，即。这给出了积分的解为

将各项重新代入后，得到的边缘密度函数为

给定和的条件密度函数

给定和的条件密度可以从以下公式获得：

的期望值

所需期望值

现在

相同脆弱性

数据可用性声明

支持本研究发现的数据可在The Comprehensive R Archive Network上公开获取，网址为：https://10.32614/CRAN.package.frailtypack。

联系信箱：

粤ICP备09063491号

热点排行