《Statistics in Medicine》:Sample Size Determination for Response-Adaptive Randomization With Recurrent Event Responses and Unequal Follow-Up Time
编辑推荐:
在临床试验中,常遇到具有复发事件响应的试验。既往研究表明,采用双偏币设计(DBCD)进行试验具有优势,但关于样本量确定的讨论尚缺乏。本文中,研究人员提供了在使用DBCD时,给定检验效能下计算所需样本量的方法。更重要的是,研究人员提出的样本量确定程序还允许由于可
在临床试验中,常遇到具有复发事件响应的试验。既往研究表明,采用双偏币设计(DBCD)进行试验具有优势,但关于样本量确定的讨论尚缺乏。本文中,研究人员提供了在使用DBCD时,给定检验效能下计算所需样本量的方法。更重要的是,研究人员提出的样本量确定程序还允许由于可能的患者脱落而导致的不等随访时间。若不考虑患者脱落,则表明达到预设检验效能所需的样本量会被低估。研究人员推导了衡量脱落对所需样本量和治疗分配比例影响的理论结果。通过模拟研究说明了提出程序的有用性。最后,用一个临床实例展示了提出程序在实践中的优势。
#### 论文解读:复发事件响应及不等随访时间下响应自适应随机化的样本量确定
**研究背景与问题**
在临床试验中,复发事件(recurrent event)响应常作为评价不同治疗有效性的重要终点,例如慢性肾病患者住院次数、哮喘患者急性发作率等。负二项模型(negative binomial model)因能处理个体间事件率的异质性且估计结果可解释性强,被广泛用于建模复发事件。当缺乏不同治疗的先验疗效信息时,传统做法采用平衡设计(balanced design)随机分配患者。然而,响应自适应随机化(response-adaptive randomization)方案旨在根据累积响应调整分配概率,使更多患者接受更优治疗。双偏币设计(DBCD)是一种基于目标驱动的响应自适应随机化方法,可结合最优分配准则。已有研究(Gao et al., 2019, 2020)将DBCD应用于复发事件响应试验,但存在两个关键不足:一是未讨论如何确定达到预设检验效能(test power)所需的样本量,二是未考虑患者脱落(dropout)导致的不等随访时间。在临床试验设计阶段,样本量确定对资源评估、患者招募和预算至关重要;而脱落在实际中普遍存在,忽略它会低估所需样本量,使实际检验效能达不到预设水平。因此,研究人员的主要目标是开发一种考虑脱落率的DBCD程序,用于复发事件响应试验的样本量确定。
**研究内容与结论**
研究人员在原有负二项模型框架下,引入随机暴露时间(exposure time)以反映由入组时间和脱落引起的变异,推导了考虑脱落后对数相对风险估计量的方差公式,并基于此构建了三种DBCD分配规则:规则1为平衡分配(permuted block randomization),规则2旨在最大化检验效能,规则3旨在最小化总复发事件数(TRE)。研究人员给出了连接样本量与检验效能的公式,并从理论上证明了脱落率对样本量和分配比例的影响(Remark 1和Lemma 1–3),例如:对于任何分配规则,无脱落时所需样本量最小;当更优治疗脱落率更高时,规则2和规则3仍能将更多患者分配至更优治疗,除非劣势治疗脱落率极高。通过模拟研究(有限样本)和敏感性分析,验证了提出方法能保持预设检验效能,且对脱落率的小幅误设定不敏感。最后,以一个复发性多发性硬化症临床试验(teriflunomide vs. evobrutinib)为例,展示了使用不同分配规则时所需样本量、分配比例和总复发事件数,结果表明规则3能持续实现最低TRE并分配更多患者接受更优治疗。
**主要关键技术方法**
研究人员采用了以下关键技术方法:
1. **负二项模型**:用于描述复发事件响应,通过共享治疗效应和服从伽马分布(均值为1、方差为φ)的随机效应项刻画个体异质性。
2. **双偏币设计(DBCD)**:一种非贝叶斯响应自适应随机化程序,通过分配函数$g(\cdot)$将当前分配比例与目标分配比例结合,实现向最优分配目标的收敛。
3. **患者入模时间模型**:采用Lachin和Foulked (1986) 提出的密度函数,以参数γ刻画入组率随时间递增(γ>0)、递减(γ<0)或均匀(γ=0)的灵活模式。
4. **脱落模型**:假设暴露时间服从指数分布(速率参数λ),分别针对截尾随访(CFU)和固定结束日期可变随访(FED)两类试验,推导了平均暴露时间、方差$\nu_{k}(\mu_k,\phi,\omega_k)$与脱落率的解析表达式。
5. **样本量计算公式**:基于检验统计量$Z$的渐近正态性,建立连接样本量、检验效能与分配规则、脱落率的方程(公式13),并利用理论结果(Lemma 3)分析脱落率对样本量的单调性影响。
6. **模拟研究**:采用蒙特卡洛方法(10,000次重复),在CFU场景下比较三种分配规则在不同疗效差异($\theta$=0.5和1.0)和脱落率组合下的表现,评估实际检验效能(EP)、分配比例、TRE等指标。
**研究结果**
**4.1 样本量评估**
给出了样本量与检验效能的关系式(公式12–13),并证明对于任意分配规则$r$,当脱落率增加时平均暴露时间、$\mu_k$和$\nu_k$均严格递减(Remark 1),导致所需样本量增大。
**4.2 理论结果**
- **Lemma 1**:当更优治疗(如治疗2)的平均事件数更小时($\mu_2/\omega_2 < \mu_1/\omega_1$),规则3比规则2分配更多患者至治疗2;若同时满足$\mu_2/\omega_2 < \mu_1/\omega_1$且脱落率相等或满足一定条件,规则2比规则1分配更多患者至更优治疗。
- **Lemma 2**:若更优治疗脱落率更高($\lambda_2 > \lambda_1$),规则2和规则3仍可分配更多患者至更优治疗;若劣势治疗脱落率显著更高,则规则2可能失效,但规则3仍保持优势。
- **Lemma 3**:对规则1和规则2,样本量随任一治疗脱落率增加而增加;对规则3,仅在两治疗脱落率相等时成立。
**4.3 模拟研究**
(CFU场景,$\theta$=0.5,预设检验效能0.9)
- **模拟检验效能(EP)**:所有设置下EP接近0.9,验证了方法有效性;若设计时忽略脱落,样本量被低估(如规则3无脱落需179例,脱落率均为0.3时需205例,若仍用179例则检验效能降低)。
- **分配比例与TRE**:规则3始终实现最低TRE和最小分配比例(分配更多患者至更优治疗)。例如,无脱落时三种规则的$p_1$分别为0.500、0.453、0.378,TRE分别为197、190、184。当更优治疗脱落率高时(如$\lambda$=(0.3,0.6)),规则3的TRE比规则1低12.6%($\theta$=0.5)甚至47%($\theta$=0.2)。当两治疗疗效相等($\theta$=1.0)时,所有规则维持名义I型错误率0.05。
**4.4 敏感性分析**
($\theta$=0.5和1.0,预设脱落率(0.3,0.2))
模拟显示实际脱落率小幅偏离(如(0.4,0.2)或(0.3,0.3))对分配比例、TRE和检验效能影响很小。若缺乏脱落率先验信息,可先通过第一阶段(平衡随机化)估计脱落率,但建议使用先验信息以避免极端估计。
**5 临床实例**
以teriflunomide与evobrutinib治疗复发性多发性硬化症试验(CFU,两年随访,脱落率20%)为例,计算三种规则下达到90%检验效能的样本量。结果表明:规则3的TRE最低(如无脱落时规则3 TRE=175,规则1=186);规则3分配更多患者至更优治疗(如脱落率(0.2,0.2)时$p_1$=0.378 vs. 规则1的0.500);脱落率越高,所需样本量越大(如规则2,无脱落需512例,脱落率(0.0,0.2)需542例)。
**讨论与结论**
研究结论部分指出:由于DBCD在临床试验中的优势(使更多患者接受更优治疗),Gao等(2019, 2020)开发了用于复发事件响应的DBCD随机化方案,但未解决样本量确定和脱落问题。本文推导了考虑脱落时的DBCD程序,并提供了给定检验效能下确定样本量的统计工具。研究表明,忽略脱落会导致样本量低估;所提方法在无脱落时退化为Gao等人的结果。重要发现是,规则2(最大化检验效能)在绝大多数临床场景中仍能将多数患者分配至更优治疗,仅在两治疗脱落率极端差异时可能失效。因此,可根据研究目标选择规则2或规则3:若偏好稍高检验效能选规则2;若希望更多患者接受更优治疗选规则3。此外,该程序可推广至包含早期停止策略或多治疗比较的试验场景。本研究受厦门市自然科学基金、教育部人文社科项目、福建省自然科学基金、国家自然科学基金等资助,作者声明无利益冲突。