限制性平均生存时间（Restricted Mean Survival Time, RMST）两阶段双臂试验的最优设计：基于塑形临界域的方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Statistics in Medicine》：Two-Stage Double-Arm Trial Optimal Design of Restricted Mean Survival Time With Sculpted Critical Region

【字体：大中小】 时间：2026年05月20日 来源：Statistics in Medicine 1.8

编辑推荐：

　　研究人员提出了一种用于双组两阶段临床试验的II期最优设计，采用限制性平均生存时间（RMST）衡量组间差异。在该设计的优效性检验中，当实验组与对照组的RMST差值R^E?R^C>m且实验组RMST值R^E>q时，拒绝原假设，其中临界值m和q由随各阶段

研究人员提出了一种用于双组两阶段临床试验的II期最优设计，采用限制性平均生存时间（RMST）衡量组间差异。在该设计的优效性检验中，当实验组与对照组的RMST差值R^E?R^C>m且实验组RMST值R^E>q时，拒绝原假设，其中临界值m和q由随各阶段累计样本量变化的适应性概率截断函数结合RMST估计量的渐近正态性确定。与传统仅基于RMST差值的拒绝规则相比，在相同I类错误和功效水平下，塑形临界域所需的样本量更小。在两阶段极小极大（Minimax）和最优设计中，模拟结果显示：与对数秩检验（log-rank test）及简单RMST差值检验相比，塑形RMST（Sculpted RMST）方法的总样本量更低、期中分析时间更早（恒定入组速率下期中样本量更小）、期望样本量也更小。此外，该方法可基于适应性概率截断函数轻松扩展至多阶段序贯设计。研究人员还讨论了生存参数偏离预设假设时I类错误的全局稳健性，并提供了该设计在真实世界试验数据中的应用实例。实现该设计的R包ScuRMST现已发布于GitHub平台。

本研究发表于生物统计领域权威期刊《Statistics in Medicine》，针对II期临床试验资源优化与疗效评估需求，聚焦限制性平均生存时间（RMST）在两阶段双臂设计中的应用瓶颈展开创新研究。当前，生存终点临床试验长期依赖对数秩检验（log-rank test），但其要求严格的比例风险（PH）假设，在非比例风险（NPH）场景下检验效能显著下降；传统RMST差值检验虽无需PH假设，但存在因对照组RMST异常偏低导致“假阳性”的风险，且两阶段RMST设计的临界值求解与样本量优化研究仍较匮乏。为此，研究人员开发了基于塑形临界域的两阶段RMST最优设计，旨在平衡I类错误控制、检验效能与样本量效率，为II期临床试验提供更稳健的设计框架。

研究核心技术方法包括：1. 塑形临界域构建：在传统RMST差值拒绝规则基础上，新增实验组RMST单臂阈值约束，剔除对照组生存表现异常偏低导致的无效拒绝区域；2. 适应性概率截断函数：引入随期中样本量单调变化的控制函数，调节各阶段临界值严格程度，实现从期中宽松到终期严格的平滑过渡；3. 蒙特卡洛模拟与网格搜索：通过大规模生存数据模拟估计RMST的渐近分布特征，结合网格搜索遍历临界值组合，满足I类错误（α）与检验效能（1?β）约束；4. 极小极大与最优设计搜索算法：以最小化总样本量（极小极大）或最小化零假设下期望样本量为目标，系统搜索最优样本量配置与决策边界。研究采用Fox Chase癌症中心的真实非小细胞肺癌（NSCLC）II期试验数据作为验证队列。

研究结果按章节总结如下：

1.
研究背景：明确II期试验承上启下的定位，指出现有两阶段设计（如Simon设计、Jung两阶段双组设计）多针对二分类终点，生存终点设计存在假设限制与效率不足的问题。
2.
双臂RMST检验基础：定义RMST为生存曲线下面积至预设截断时间τ，给出组间差值估计量与方差计算公式，确立其渐近正态性理论基础。
3.
塑形临界域两阶段设计：
- •
  临界域塑形原理：通过附加实验组RMST阈值条件，避免对照组低生存驱动的假阳性拒绝，提升结果临床可解释性。
- •
  期中分析与早期终止：仅允许因无效期中终止，定义早期终止概率（PET）公式，采用数据驱动截断时间确保期中RMST估计一致性。
- •
  第二阶段决策与控制函数：引入单参数适应性截断函数，建立期中与终期的决策关联，解决多临界值组合的约束求解难题。
- •
  临界值计算：基于RMST的渐近二元正态性，通过蒙特卡洛模拟生成生存数据，采用条件分位数法求解满足功效要求的临界值。
- •
  极小极大与最优设计：提出系统化搜索流程，输出满足α与1?β的最小总样本量、期中样本量及对应临界值。
4.
比较实验：
- •
  比例风险场景：在多种α、功效与HR设置下，塑形RMST的极小极大设计与最优设计均比对数秩检验和传统RMST检验减少10%-30%的总样本量与期望样本量，期中样本量降低幅度更为显著。
- •
  早期差异非比例风险场景：塑形RMST的样本量优势进一步扩大，总样本量仅为对数秩检验的50%-60%，且早期终止概率（PET0）与检验效能保持竞争力。
- •
  晚期差异非比例风险场景：虽样本量差距缩小，塑形RMST仍比对数秩检验节省约10%总样本量与20%期望样本量。
- •
  单阶段与两阶段设计对比：晚期差异场景下两阶段设计的期望样本量可能高于单阶段设计，提示需合理选择期中分析时机。
- •
  期中样本量对功效的影响：固定总样本量时，塑形RMST的功效随期中样本量增加略有上升，且在小样本量期中即可保持高PET0，资源节约优势明显。
- •
  临界域可视化：散点图显示塑形临界域剔除了大量“对照组低RMST但组间差值达标”的无效拒绝点，是其效能提升的核心机制。
- •
  稳健性分析：当对照组风险参数偏离预设时，塑形RMST的I类错误波动略大于传统方法，可通过预设保守风险参数或敏感性分析加以控制。
- •
  试验实例：应用于阿替利珠单抗对比多西他赛的NSCLC II期试验数据，塑形RMST设计仅需传统方法60%左右的样本量即可达到相同检验效能。
5.
讨论与结论：塑形RMST设计突破了传统对数秩检验的PH假设限制，通过临界域优化实现了样本量效率与临床可解释性的双重提升，尤其适用于非比例风险场景的II期临床试验。尽管存在对照组风险参数漂移时的稳健性权衡，但通过敏感性分析可有效管理。该研究为生存终点临床试验设计提供了新的实用工具，配套R包ScuRMST已开源，可直接支持研究者开展设计实践。研究结论证实：在控制相同I类错误与功效的前提下，塑形RMST两阶段设计的总样本量、期中样本量与期望样本量均显著低于现有主流方法，具有重要的临床应用价值。

联系信箱：

粤ICP备09063491号

热点排行