综述:罕见病临床试验中的安慰剂效应:测量方法、影响及以患者自身为对照组的统计分析方法
《Clinical and Translational Science》:The Placebo Effect in Rare Disease Clinical Trials: Measurement, Impact, and Statistical Approaches for Patient-as-Own-Control Designs
【字体:
大
中
小
】
时间:2026年05月02日
来源:Clinical and Translational Science 2.8
编辑推荐:
**摘要**
在罕见病患者的自我对照试验设计中,一个经常被提及的担忧是安慰剂及相关效应可能会夸大治疗的有效性。这一担忧是否足以使设计无效,或者是否可以通过某种方式加以管理,目前尚未进行系统的评估。我们回顾了按终点类型、报告方式以及试验持续时间来量化安慰剂效应大小的元分析,并评估
**摘要**
在罕见病患者的自我对照试验设计中,一个经常被提及的担忧是安慰剂及相关效应可能会夸大治疗的有效性。这一担忧是否足以使设计无效,或者是否可以通过某种方式加以管理,目前尚未进行系统的评估。我们回顾了按终点类型、报告方式以及试验持续时间来量化安慰剂效应大小的元分析,并评估了在自我对照设计中进行试验后安慰剂调整的可用统计方法。安慰剂效应在很大程度上取决于终点类型。对于客观终点(如酶活性、血清生物标志物、影像学体积),这些是已批准罕见病疗法中的主要终点,安慰剂效应通常很小,在大多数元分析中统计上无法与零区分开来(标准化平均差异 [SMD] < 0.10)。对于主观终点(如患者报告的疼痛、护理者评估的功能),效应较大(SMD 0.20–0.50),但其特征明确且可以纠正。安慰剂效应在早期达到峰值,随后在几周内逐渐减弱,这种时间特征与持续的药理效应不同。有多种互补的分析方法可用于量化和管理安慰剂的贡献,包括时间轨迹建模、客观-主观一致性分析、贝叶斯信息先验、扩展的导入期观察设计和盲法结果评估。重要的是,在小样本量下,随机对照试验在消除安慰剂效应方面的结构优势会减弱,因为安慰剂反应者的不对称分配可能会扭曲组间比较。因此,对自我对照设计的安慰剂反对意见是可以管理的,而不是使其无效的。对于客观终点,校正效果很小;对于主观终点,丰富的分析工具包支持对药物和安慰剂成分进行可信的分解。这些发现支持在罕见病临床试验中更广泛地采用自我对照设计。
**1 引言**
传统的双盲安慰剂对照随机对照试验(DBPCRCTs)所需的患者数量超过了95%的罕见病总可用人口[1]。替代设计——特别是患者自我对照和自然史对照模型——可以在保持统计严谨性的同时,将所需样本量减少5到20倍,我们在本综述的配套文章中详细说明了这一点[1]。具体来说,一个患者自我对照设计,其中受试者内相关性 ρ = 0.90,与平行组RCT相比,所需总患者数量大约减少了19倍,功率为80%(α = 0.05,双尾),对于具有相同方差的连续终点;Summar和Woodcock[1]的表3提供了不同效应大小下的这些数字。这一挑战因RCTs中目标差异往往缺乏充分依据[2],以及与临床试验失败最相关的因素(如招募困难、样本量不足和终点选择)在罕见病设置中都会被放大[3]而变得更加复杂。对开放标签和患者自我对照设计的常见反对意见是它们容易受到安慰剂效应及相关偏见的影响,这些因素可能会夸大治疗的有效性。这种担忧是合理的:自我对照设计缺乏在RCT中结构性消除安慰剂的对照组,它们假设基线稳定性在所有疾病中都成立,并且需要额外的分析步骤来分离真正的药物效应。这种担忧频繁出现,因此值得系统地进行研究。在本文中,我们直接讨论了安慰剂效应:它是什么,有多大,最重要的是在自我对照研究的试验后分析中如何量化和管理它。我们的整个分析围绕一个重要区别展开:客观和主观结果测量之间的区别。客观终点——酶活性水平、血清生物标志物浓度、影像学体积、血液学参数、生存期——由实验室仪器、成像技术或明确的临床事件决定。患者的期望无法有意义地改变他们的酸性α-葡萄糖苷酶活性或低密度脂蛋白(LDL)胆固醇水平。主观终点——患者报告的疼痛、疲劳、生活质量、护理者评估的功能量表——取决于人类的感知和判断,这些容易受到期望和情境的影响。正如我们将展示的,安慰剂文献一致表明,安慰剂效应主要影响主观终点,而无论试验设计如何,客观终点受到的影响都很小。一个核心观点是:安慰剂效应存在于每种临床试验设计中,包括DBPCRCTs。在盲法RCT中,两个组的患者都会经历真实的安慰剂反应——这种改善是由期望、条件作用和治疗关系驱动的[4, 5]。RCT通过其结构优雅地处理了这个问题:因为两个组都经历了相同的安慰剂效应,所以在计算组间差异时,这种效应被消除了。结果直接揭示了药物效应,无需进一步校正——尽管这假设活性治疗本身不会改变安慰剂反应的幅度,这一假设很难直接验证。这种对称性假设在治疗产生可感知副作用的治疗领域可能会受到特别挑战,这些副作用部分掩盖了治疗组的期望驱动反应;或者相反,当不良反应减弱了积极期望时,相对于对照组,安慰剂的贡献会减少。在开放标签的患者自我对照试验中,没有同时的对照组来进行这种消除。研究者观察到的是患者内的总变化——dtotal = ddrug + δp——必须在分析阶段减去估计的安慰剂贡献来确定ddrug。这种试验后的减法是RCT通过其结构自动执行的解释步骤。重要的是,安慰剂效应不会进入任何设计的功效计算;RCT和自我对照设计都有足够的功效来检测ddrug,它们之间的样本量比率仅取决于受试者内相关性(ρ)[1]。问题不在于自我对照设计是否需要更多的患者来处理安慰剂效应——它不需要——而在于试验后的安慰剂减法在科学上是否可信。这就是本文要探讨的问题。数十年的元分析研究产生了跨疾病类别、终点类型和报告方式的可靠安慰剂效应大小估计。除了简单的减法之外,现在有丰富的统计方法学文献提供了将观察到的治疗效果分解为药物和安慰剂成分的复杂工具。这些方法——包括时间轨迹建模、一致性分析、贝叶斯方法、混合建模、机器学习预测和因果推断框架——提供了超出简单从元分析中减去估计值的分析严谨性。这些工具的可用性和可信度是本文的核心焦点。
**2 定义安慰剂效应及相关偏见**
对于可能在监管讨论或试验设计咨询中遇到这些术语的读者,我们定义了安慰剂效应及其可能影响临床试验结果的相关偏见家族。“安慰剂效应”一词通常涵盖了具有不同幅度、机制和试验设计影响的多种现象。
**2.1 安慰剂效应**
安慰剂效应指的是患者的状况出现真正的生理或心理改善,这种改善并非来自治疗的药理作用,而是来自患者的期望、信念和治疗环境的背景[4, 5]。神经影像学和神经化学研究表明,安慰剂反应涉及大脑活动的可测量变化、内源性阿片类物质的释放、多巴胺信号传导和免疫功能[6]。安慰剂效应并非虚构的——它在某些领域产生了真实的、可测量的生物学变化。然而,这些变化是由接受治疗的体验驱动的,而不是由治疗的具体作用机制驱动的。正如引言中所讨论的,DBPCRCT通过结构上的消除来处理安慰剂效应:两个组都经历了类似的安慰剂反应,组间差异隔离了真正的药物效应。在开放标签的自我对照试验中,必须通过分析来估计和去除安慰剂的贡献。因此,理解每个偏见成分的幅度和特征对于设计可信的试验后校正至关重要。
**2.2 临床测量中的相关偏见**
几种其他现象经常与安慰剂效应混淆,但在机制上是不同的:
**2.3 回归到均值**
患者通常在症状发作或病情最严重时被纳入试验。随后的测量结果平均而言会趋向于人群均值,无论是否有任何干预。同样,研究者可能会无意识地夸大主观评估(例如,即使是手动血压袖带上的确切测量值),以符合入组标准,从而在研究开始时微妙地夸大了病情的严重程度。这些统计伪像在任何缺乏同时对照组的试验中都可能模仿治疗反应[7]。
**2.4 霍桑效应**
知道自己正在被观察的患者(通过频繁的诊所访问、实验室监测和研究者的关注)可能会改变他们的行为或报告症状有所改善。这在具有主观终点的试验中尤其相关,并可能影响开放标签和盲法研究[8]。
**2.5 努力依赖性**
知道自己正在接受实验性治疗的患者可能会在需要努力的测量中“更加努力”,例如用力肺活量(FVC)、用力呼气容积(FEV1)、6分钟步行测试(6MWT)距离或定时行走评估。这种担忧不仅仅是理论上的:美国食品药品监督管理局(FDA)曾以努力依赖性作为质疑罕见病药物疗效发现的基础,特别是当主要终点依赖于自愿的身体表现测量时。在杜兴氏肌营养不良和脊髓性肌萎缩等神经肌肉疾病中,如North Star Ambulatory Assessment(NSAA)和肺功能测试这样的努力依赖性终点通常是临床上最相关的结果,这在监管对努力依赖性测量的怀疑与临床需求之间造成了紧张。努力依赖性与霍桑效应和期望偏见都有重叠,但其机制不同,因为它反映了患者行为的真实变化——即动机和努力的增加——而不是症状感知的改变。对于患者自我对照设计,可以通过设计层面的策略来管理努力依赖性,包括盲法评估者协议、标准化的鼓励脚本和客观的锚定测量(例如,在行走测试期间的呼吸气体交换),以区分真正的生理改善和动机努力的增加。
**2.6 期望偏见**
在开放标签试验中,患者知道他们正在接受活性治疗。这种知识可能导致他们对主观症状(如疼痛量表、疲劳量表和生活质量问卷等患者报告的结果)的乐观报告[9]。
**2.7 观察者(评估者)偏见**
当临床医生或护理者知道治疗分配时,他们的结果评估可能会无意识地偏向于报告改善。这与患者自身的体验不同,可能会影响临床医生评估的量表、体检结果,甚至对边界结果的解读[10]。
**2.8 自然疾病波动**
许多疾病,包括一些罕见疾病,都有病情的波动。在治疗期间观察到的改善可能反映了自然疾病周期,而不是治疗效果或安慰剂反应。实际上,在开放标签试验中松散称为“安慰剂效应”的现象包括了所有这些现象。对于试验设计而言,关键问题不是哪种机制占主导,而是:非药理改善的总幅度是多少,以及如何定量地解释它?
**3 测量安慰剂效应:来自元分析的证据**
估计安慰剂效应大小的最严格方法来自将接受安慰剂治疗的患者与未接受治疗的对照组进行比较的元分析——这些研究包括一个真正的“无治疗”组。这种设计将安慰剂反应与自然疾病进程和回归到均值区分开来。安慰剂组与无治疗组之间的标准化平均差异(SMD,或Cohen's d)[11]提供了可以用于试验后解释的安慰剂效应大小的定量估计。
**3.1 安慰剂效应的里程碑式元分析**
Hróbjartsson和G?tzsche的基础工作首次发表于2001年,并在2010年进行了更新,他们分析了包括安慰剂组和无治疗组的202项试验[4, 5]。他们的发现确立了几项关键原则。在所有结果类型中,总体安慰剂效应都是适度的,SMD为?0.23(95%置信区间[CI]:?0.28至?0.17)。然而,这个总体数字掩盖了按终点类型的重要异质性。对于连续的主观终点,如疼痛、疲劳和生活质量(QoL),SMD为?0.36(95% CI:?0.47至?0.25)——这是一个小到中等的效应。对于客观的连续终点,如生物标志物水平和生理测量,SMD仅为?0.12(95% CI:?0.27至0.03),没有达到统计学显著性。对于二元结果,如生存或事件发生,没有显著的安慰剂效应(相对风险[RR] 0.95,95% CI:0.88–1.02)。Fendel等人[12]进行了迄今为止最大的开放标签安慰剂试验元分析,涵盖了63项试验和4554名参与者。他们报告的总体SMD为0.35(95% CI:0.26–0.44),自我报告的结果(SMD = 0.39)比客观测量(SMD = 0.09)的效应更大。临床人群显示的效应(SMD = 0.47)比非临床样本更大。在神经性疾病方面,Mestre等人对帕金森病中安慰剂效应的全面回顾发现,临床评分的运动得分(统一帕金森病评分量表[UPDRS])显示出轻微到中等的安慰剂反应,而多巴胺转运体(DAT)成像等客观生物标志物则显示出极小的安慰剂反应,这与上述客观终点结果一致[13]。在罕见的代谢性疾病中,由于客观生物标志物终点占主导地位,现有证据表明安慰剂对生化指标的影响始终较小(标准平均差SMD 0.02–0.09),这与上述大型荟萃分析的客观终点结果一致,尽管来自罕见疾病安慰剂组的直接荟萃分析数据仍然有限[5, 12]。Brooks等人[14]进一步认为,可以通过将具有共同分子病因的疾病分组来扩展罕见疾病试验,这种方法本质上强调客观分子终点,在这些终点中安慰剂效应很小。两项最近的研究进一步明确了客观与主观终点之间的区别。Bschor等人[15]在对精神障碍的安慰剂效果进行的最大规模荟萃分析中发现,九种疾病中临床和自我评定的结果都显示出显著的安慰剂效应(SMD 0.30–0.72),这加强了主观和心理终点脆弱性的观点。Botvinik-Nezer等人[16]利用神经成像技术证明,安慰剂治疗影响了与情感和认知处理相关的大脑系统(SMD ≈ 0.30),但对客观的痛觉通路没有显著影响(d = 0.08),为本文贯穿始终的终点类型区分提供了神经生物学基础。
3.2 荟荟萃分析中安慰剂效应大小的总结
表1总结了来自关键荟萃分析的安慰剂效应估计值,按人群和终点类型进行了分类。表1. 来自主要荟萃分析的安慰剂效应大小(标准化平均差异)。研究
人群
结果类型
主观SMD
客观SMD
时间说明
Hróbjartsson和G?tzsche(2010)[4, 5]
混合临床(202项试验)
疼痛、疲劳、生活质量
?0.36(?0.47至?0.25)
?0.12(无显著性)
早期效果较强;随时间减弱
Fendel等人(2025)[12]
临床和非临床(63项试验)
自我报告的症状
0.39(0.30–0.49)
12周以上的试验中效果减弱
Von Wernsdorff等人(2021)[17]
临床(肠易激综合症、抑郁症;11项试验)
自我报告的症状
0.72(0.39–1.05)
第一个月达到峰值;异质性较高
Mestre等人(2018)[13];Lidstone等人(2010)[18]
帕金森病(多项试验)
运动得分(临床评分)
~0.23–0.39(UPDRS;每项回顾)
0.05(无显著性)
在开放标签扩展期减弱
Hróbjartsson(2010);Fendel(2025)[5, 12]
代谢性罕见疾病(应用)
生物标志物、分子终点
≤0.30(患者报告的结果)
0.02–0.09
将一般荟萃分析的客观数据应用于罕见疾病的生物标志物终点
Ahmadzad-Asl等人(2022)[19]
精神疾病(抑郁症)
临床评分量表
0.27(0.14–0.41)
未评估
临床评分早期高于自我报告
Bschor等人(2024)[15]
精神疾病(9种疾病)
临床和自我评分
0.30–0.72
不同疾病间存在差异
Botvinik-Nezer等人(2024)[16]
疼痛(神经成像)
情感/认知与痛觉
0.30(情感)
0.08(痛觉)
客观痛觉通路未受影响
Vase等人(2009)[20]
疼痛(198项试验)
疼痛强度(VAS)
0.15–0.57
<0.20
在开放标签扩展期减弱
Chen等人(2017)[21]
纤维肌痛(229项试验)
疼痛、疲劳
0.53(盲法);约0.25(开放法)
未评估
在开放标签设置中效果减半
注:SMD符号在不同荟萃分析中的约定不同;负值表示某些量表(例如疼痛)的改善,正值表示其他量表(例如功能)的改善。此处报告的绝对值是为了便于比较;读者应参考原始出版物以了解方向性。这些SMD估计主要来自常见疾病人群。罕见疾病特定数据(例如Ghadessi等人[22])表明客观终点的模式相似,尽管来自罕见疾病安慰剂组的直接荟萃分析数据仍然有限。所有SMD估计代表异质试验的平均值;某些单元格的置信区间较宽(例如Von Wernsdorff等人:95% CI 0.39–1.05;Hróbjartsson和G?tzsche的客观指标:95% CI ?0.27至0.03),这些数字应被视为近似总结而非精确的先验值。缩写:CI,置信区间;IBS,肠易激综合症;NS,无统计学意义;OLP,开放标签安慰剂;PD,帕金森病;PRO,患者报告的结果;QoL,生活质量;SMD,标准化平均差异;VAS,视觉模拟量表。
4 主观与客观终点:一个关键的区分
最一致的荟萃分析发现是,安慰剂效应强烈依赖于终点类型——这一区分对罕见疾病试验设计有直接影响,因为在这些试验中,终点选择往往是赞助商最重要的决定。
4.1 客观终点
对于客观的、基于生物学的终点,安慰剂效应始终较小(SMD < 0.10),并且经常无法与零区分[4, 5, 12]。这是可以预期的:期望和信念无法有意义地改变苯丙氨酸浓度、 dystrophin 表达或血红蛋白水平。大约72%的罕见疾病有已知的遗传起源[23],并且大多数获批的罕见疾病疗法使用客观的初级终点。对于使用这些终点的试验,试验后的安慰剂校正非常小,任何估计的不精确性都是无关紧要的。
4.2 主观终点
对于主观终点——患者报告的疼痛、疲劳、生活质量以及症状严重程度——安慰剂效应是有意义的,SMD通常在0.20到0.50之间[4, 5, 12]。这并不意味着应该避免使用这些终点;许多罕见疾病产生的症状最好通过主观测量来捕捉,监管机构也适当重视患者报告的结果。相反,当在开放标签设计中使用主观终点时,应预先量化预期的安慰剂贡献并将其纳入分析计划。
4.3 混合终点策略
在罕见疾病试验中,越来越常见且被推荐的方法是将客观的初级终点与主观的次要终点配对,或者反之亦然。当客观和主观测量在同一方向和幅度上变化时,一致的证据加强了真实治疗效果的论据。当只有主观测量改善而客观测量没有改善时,应考虑安慰剂或偏倚效应。这种一致性分析提供了单一点端设计所没有的内部验证。
5 根据终点类型和报告者的敏感性:一个排名框架
为了指导终点选择和统计规划,表2根据它们对安慰剂效应的估计敏感性对常见终点类别进行了排名,从最低(客观的、由仪器确定的)到最高(主观的、患者报告的心理)。这个排名综合了荟萃分析的证据,并为可能需要的试验后校正程度提供了一个先验框架。表2. 开放标签试验中终点对安慰剂效应的敏感性排名。排名
终点类别 例子 估计的安慰剂SMD 理由/证据
1 生存/事件发生时间 整体生存、无事件生存 0.00–0.01 任何荟萃分析中都没有发现安慰剂对硬生存终点有显著影响(Hróbjartsson 2001, 2010 [4, 5]:RR 0.95,无显著性)
2 实验室生物标志物(直接) 酶活性、血清蛋白、代谢物水平 0.02–0.05 生化测量不受期望影响(Hróbjartsson和G?tzsche 2010 [5]:客观SMD ?0.12,无显著性;Fendel等人2025 [12]:客观SMD 0.09)
3 分子/遗传标志物 dystrophin表达、基因表达面板 0.00–0.03 基因表达不受心理状态影响;测量完全自动化
4 基于成像的体积/定量 MRI体积测量、CT骨密度、DEXA 0.03–0.08 定量成像不受偏倚影响;Mestre等人2018 [13]:PD中的DAT成像安慰剂反应极小;Botvinik-Nezer等人2024 [16]:痛觉d = 0.08
5 生理/功能(客观) FVC、6MWT距离、心输出量 0.05–0.12 有些依赖于努力的成分;部分安慰剂敏感性,但基于生理学
6 临床评分的综合量表 UPDRS、NSAA、ALSFRS-R 0.15–0.30 开放标签设置中的观察者偏倚(Ahmadzad-Asl等人2022 [19]:临床SMD 0.27);可以通过盲法评估者减轻
7 照护者/家长报告的结果 PedsQL(家长代理)、Vineland 0.20–0.40 照护者的希望和投资会夸大报告;Eiser和Varni 2011 [24]:家长与孩子在生活质量上的不一致
8 患者报告的结果(物理) 疼痛VAS、疲劳量表、症状日记 0.25–0.50 安慰剂反应的核心领域;Vase等人2009 [20]:疼痛SMD 0.15–0.57;Chen等人2017 [21]:纤维肌痛疼痛ES 0.53;Botvinik-Nezer等人2024 [16]:情感SMD 0.30
9 患者报告的结果(心理) 抑郁症量表、焦虑量表、整体印象 0.30–0.72 最高的安慰剂敏感性;Von Wernsdorff等人2021 [17]:OLP SMD 0.72;Bschor等人2024 [15]:9种精神疾病中的SMD 0.30–0.72
注:绿色阴影 = 客观终点(安慰剂效应最小)。黄色 = 混合。橙色 = 主观(需要分析处理)。SMD范围是从表1中引用的荟萃分析中得出的近似总结;它们反映了异质试验中的中心估计值,不应被视为精确的先验值。某些终点类别的置信区间较宽,特别是主观领域的那些。赞助商应从最匹配的可用文献中得出特定于疾病和终点的估计值。缩写:6MWT,6分钟步行测试;ALSFRS-R,肌萎缩侧索硬化症功能评分量表-修订版;CT,计算机断层扫描;DAT,多巴胺转运体;DEXA,双能X射线吸收测定法;FVC,强制肺活量;MRI,磁共振成像;NSAA,北星门诊评估;OLP,开放标签安慰剂;PD,帕金森病;PedsQL,儿童生活质量量表;QoL,生活质量;RR,相对风险;UPDRS,统一帕金森病评分量表;VAS,视觉模拟量表。
5.1 报告者特定的考虑
报告者的身份增加了额外的变异性。在儿科罕见疾病中——这些疾病占遗传性罕见疾病的大部分——结果通常由父母或照护者而不是患者报告。Eiser和Varni [24]以及Upton等人[25]发现,家长报告的生活质量始终高于孩子报告的测量结果,主观领域的不一致性更大。在孩子无法自我报告的情况下,这种效应很难与真正的治疗效果区分开来,除非有客观的参照终点。临床评估也并非不受偏倚的影响。Ahmadzad-Asl等人[19]发现,在精神疾病试验中,临床评分的改善超过了自我报告的改善,这表明观察者偏倚可能会放大而不是缓和明显的改善。在开放标签的罕见疾病试验中,倡导并实施新疗法的临床医生可能会受到确认偏倚的影响。在盲法结果评估中——即进行评估的临床医生不知道治疗的时间线——可以减轻这种担忧。
6 时间动态:安慰剂效应是否会消退?对于试验设计来说,一个关键问题是安慰剂效应是持续的还是短暂的。如果安慰剂反应随时间减弱而真正的治疗效果持续存在,那么具有多个评估点的试验设计可以利用这种差异来帮助区分信号和噪声。
6.1 安慰剂效应衰减的证据
安慰剂效应在早期达到峰值,随后随时间减弱。Fendel等人[12]发现,持续时间超过12周的试验显示的安慰剂效应比持续时间较短的试验小。在重度抑郁症(MDD)试验中,Meister等人[26]报告说,安慰剂效应在治疗的最初几周最大,随后随着随访的继续而减弱。Mestre等人[13]观察到,在帕金森病试验中,运动得分的安慰剂反应在开放标签扩展阶段减弱。在疼痛研究中,Vase等人[20]记录了开放标签扩展中的安慰剂效应衰减。安慰剂衰减的时间曲线可以用指数函数近似表示:
其中δp0是初始的安慰剂效应大小,λ是衰减常数(t是以周为单位的时间)。t = 0时的非零值反映了众所周知的预期安慰剂反应:登记和接受治疗的期望在首次给药前就产生了即时的改善[6]。λ = 0.05–0.15/周的范围对应于大约5–14周的安慰剂半衰期,这一结论来自Fendel等人[12]发现持续时间超过12周的试验显示的安慰剂效应显著较小,以及Meister等人[26]和Vase等人[20]记录的开放标签随访的前4–8周内衰减最快。其他时间模型——例如使用单独的起始和偏移率常数的Bateman函数——可能更好地描述安慰剂反应逐渐增强然后减弱的疾病;这里使用单参数指数函数是为了简洁。对于典型的δp0 = 0.35和λ = 0.10,安慰剂效应在第5周减弱到大约0.21,第10周减弱到0.13,第20周减弱到0.06。
6.2 对试验设计的影响
在多个时间点收集结果数据的试验在管理安慰剂效应方面具有显著优势。当结果被反复评估时——例如,在基线、第4周、第8周、第12周和第24周——可以检查改善的时间过程。真正的药理效应预计会在与药物机制一致的时间出现,并随时间持续或增加。相比之下,由安慰剂驱动的反应通常立即出现然后减弱。这种时间差异是一个强大的分析工具,我们在下面的高级分析方法部分描述了利用它的统计方法。图1示意性地展示了这些对比轨迹。
图1 在患者作为自己对照的试验中,安慰剂和药理反应的时间分离。安慰剂反应(橙色)被建模为δp(t) = δp0 e^(-λt),其中δp0 = 0.35(平均主观终点SMD;Hróbjartsson和G?tzsche [5],Fendel等人[12])和λ = 0.10/周(半衰期约为7周;来自Fendel等人[12],Meister等人[26],Vase等人[20])。t = 0时的非零截距反映了由登记和治疗期望产生的预期安慰剂反应[6]。药理效应(蓝色曲线)被建模为 ddrug(t) = dmax(1 – e – t/τ),其中 dmax = 0.65,τ = 4 周(这些参数仅用于说明,并非源自特定试验)。虚线绿色曲线表示观察到的患者内部总变化 dtotal(t) = ddrug(t) + δp(t)。阴影区域将总变化分解为药理效应(蓝色)和安慰剂效应(橙色)两部分。早期峰值迅速下降的安慰剂反应与持续上升的药理效应之间的时间差异,为将时间轨迹建模作为安慰剂管理策略提供了分析基础。第 18 周的垂直括号展示了在较晚时间点对 dtotal 的分解。
7 小样本中的安慰剂效应
对于罕见病试验来说,一个相关的问题是安慰剂效应在小样本中是否表现不同。Hróbjartsson 和 G?tzsche [5] 发现,较小的试验倾向于报告较大的安慰剂效应,但他们主要将此归因于发表偏倚和方法学限制,而不是真正的小样本放大效应。特别是在罕见病研究中,Ghadessi 等人 [22] 分析了 45 项 FDA 批准的试验中的历史对照数据,发现无论样本大小如何,客观终点上的安慰剂样效应都非常微小(SMD < 0.10)。然而,小样本更容易受到安慰剂效应变异性的影响。在 200 名患者的试验中,个体安慰剂反应会相互抵消;而在 15 名患者的试验中,少数强烈的安慰剂反应者可以显著改变组均值。这种变异性——而不是平均安慰剂效应——是小规模罕见病试验中的主要统计问题。以患者自身为对照的设计部分解决了这一问题。因为每个患者都成为了自己的基线,所以相关的比较是患者内部的变化。如果患者在早期显示出由安慰剂驱动的显著改善,但随后又恢复到基线水平,就会表现出上述的时间模式,这可以通过建模来解释和考虑。相比之下,在小规模的平行组随机对照试验(RCT)中,对照组中的相同安慰剂反应者会抬高对照组均值,从而降低检测治疗效果的能力——这是一个在没有额外分析的情况下难以发现和纠正的问题。
8 两种设计如何处理安慰剂:概念性比较
在回顾了关于安慰剂效应大小的证据后,直接比较 DBPCRCT 和以患者自身为对照的设计在试验后分析中如何处理安慰剂效应是值得的。样本量计算的数学细节已在其他地方介绍 [1];这里我们关注解释逻辑。
8.1 随机对照试验(RCT):自动抵消
在 RCT 中,治疗组和安慰剂组都经历了相同的安慰剂反应。组间差异直接抵消了安慰剂效应,从而得到 ddrug。因此不需要进行试验后的安慰剂效应估计。这是 RCT 的主要解释优势。然而,这种优雅的抵消机制假设两个组中的安慰剂效应大小相同——这一假设仅在大样本中才可靠成立。在罕见病试验通常的小样本量(通常 N = 15–50)下,安慰剂反应受到相当大的抽样变异性的影响。少数强烈的安慰剂反应者随机分配到对照组中,可能会抬高对照组均值,从而缩小观察到的组间差异,减少实际的治疗效果。相反,治疗组中的强烈安慰剂反应者可能会抬高治疗组均值,造成药物效果看起来比实际更大的假象。无论哪种情况,假设的安慰剂效应抵消对称性都会被打破。在标准 RCT 框架内,这种不对称性很难检测和纠正,因为试验没有内置机制来识别个体安慰剂反应者或估计不平衡的程度。此外,FDA 在审查罕见病申请时提出的努力依赖性问题可能会加剧这一问题:在小型盲法 RCT 中,患者可能会根据感知到的副作用或缺乏副作用来怀疑自己的治疗分配,这会进一步扭曲组间比较。结果是,RCT 在处理安慰剂方面的结构优势虽然原理上是正确的,但在最需要它的罕见病人群中却大大降低了。其代价也是患者数量的增加。根据伴随文章 [1] 中的表 3 计算,在 ρ = 0.90、方差相等、功效为 80%、α = 0.05(双尾)的情况下,RCT 需要的患者数量大约是自身对照设计的 19 倍。对于大多数罕见病来说,这一要求超出了可用的患者数量,使得 RCT 的解释优势变得无关紧要。
8.2 以患者自身为对照的设计:估计与减法
在以患者自身为对照的设计中,观察到的患者内部变化包括药物效应和安慰剂效应的贡献。研究者从观察到的 dtotal 中减去估计的 δp 来得到 ddrug。这引入了对外部估计的依赖。Gupta 等人 [27] 为罕见病中的临床试验设计提供了正式建议,包括管理这一估计需求的策略。有两个观察结果可以缓解这一担忧。首先,对于客观终点(罕见病中的大多数主要终点),安慰剂效应始终很小(SMD < 0.10),并且在大多数荟萃分析中统计上无法与零区分开来。对一个始终很小的量进行不精确的估计影响可以忽略不计。其次,对于安慰剂效应较大的主观终点,可以通过下一节描述的一系列高级统计方法来管理不确定性。这些方法远远超出了简单的减法,提供了多种互补的证据来将 dtotal 分解为药物效应和安慰剂效应两部分。第三个常被忽视但值得强调的观察结果是:对于患者数量太少而无法支持足够功效的 RCT,以患者自身为对照的设计可能不仅仅是一个方便的替代方案,而且是评估治疗效果的科学上最严谨的方法。功效不足的 RCT——例如需要招募 125 名患者却只招募了 30 名患者——提供的答案在统计上不可靠,容易出现假阴性(遗漏真实效果)和上述的小样本安慰剂效应扭曲。通过本文描述的分析方法——时间轨迹建模、一致性分析、贝叶斯调整和盲法结果评估——可以管理与开放标签自身对照设计相关的安慰剂问题,前提是在设计阶段就仔细考虑了这些策略。相比之下,功效不足的 RCT 强迫的方法在事后是无法纠正的。对于大多数罕见病和超罕见病来说,一个设计良好的自身对照研究比表面上类似于金标准的功效不足的 RCT 提供了更可信的证据。
8.3 权衡
两种设计最终估计的都是同一个量:ddrug。RCT 在不需要安慰剂估计的情况下就能得出这个量;而以患者自身为对照的设计在 ρ = 0.90 时需要的患者数量大约减少了 19 倍(表 3,Summar 和 Woodcock [1])。对于全球仅有 50 名患者的罕见病,选择是在无法招募患者的 RCT 和可以招募患者但需要可信的试验后安慰剂校正的自身对照试验之间。问题不是哪种设计在理论上更优,而是在罕见病的实际情况下哪种设计更可行。本文的其余部分将展示可用的试验后校正工具是否足够严谨,以支持以患者自身为对照的设计。图 2 并列展示了两种设计的结构逻辑。
图 2:双盲安慰剂对照 RCT 与以患者自身为对照的设计的比较。两种设计都旨在确定真实的药物效应 ddrug,但通过不同的机制实现这一目标。在 RCT(左)中,随机分配到治疗组和安慰剂组使得在计算组间差异时可以结构性抵消安慰剂效应,无需外部安慰剂估计;然而,总样本量 N ≈ 31.36/d2 通常超过了可用的罕见病患者数量,而且由于反应者分配不对称,在小样本量下安慰剂效应的抵消效果会降低。在以患者自身为对照的设计(右)中,所有患者在基线观察期后都接受治疗;观察到的总变化 dtotal = ddrug + δp 可以通过时间轨迹建模、贝叶斯先验或一致性分析在试验后进行解析分解。在组内相关性 ρ = 0.90 的情况下,以患者自身为对照的设计所需的患者数量大约是 RCT 的 1/19(表 3,Summar 和 Woodcock [1])。一个简单的数值示例说明了小样本 RCT 中安慰剂反应者不平衡的实际后果。考虑一个平行组 RCT,共有 N = 36 名患者,1:1 随机分配(每组 n = 18),测试药物的真实效果 ddrug = 0.5。假设安慰剂反应者的比例为 20%(反应者中 δp = 0.5 标准差,非反应者为 0)。在平衡分配下,每组大约有 3–4 名安慰剂反应者,组间差异反映了预期的 ddrug ≈ 0.5。在不对称分配下——在 N = 36–6 且 7 名安慰剂反应者中有 6 人在对照组的情况下,这种情况是可能的——对照组均值上升了大约 0.17 标准差(6 × 0.5/18),而治疗组均值没有变化。观察到的组间差异缩小到大约 0.33,低于临床意义的阈值,在 α = 0.05 的显著性水平下无法达到统计显著性。尽管药物产生了真实效果,但仍被宣布无效。相比之下,在以患者自身为对照的设计中,每个患者都作为自己的基线。安慰剂驱动的改善在每个患者的轨迹中早期出现并随后减弱,而持续的药理反应则保持不变;时间轨迹分析可以区分这两个成分。由于没有对照组,因此不可能在组间出现不对称分配。
9 加法性假设及其局限性
上述框架——dtotal = ddrug + δp——基于药物效应和安慰剂效应是可加的假设:观察到的总变化等于两个独立成分之和。这种加法性假设在临床试验分析中是标准的,但它受到了质疑。Enck 等人 [28] 提出了药物效应和安慰剂效应是否相互作用而不是简单相加的问题。如果药物确实产生了生理上的改善,患者可能会体验到这种改善,并产生额外的积极预期,从而产生比仅使用安慰剂时更大的安慰剂反应。相反,活性药物的副作用(如疲劳、恶心)可能会削弱驱动安慰剂反应的积极预期。在这两种情况下,接受药物治疗的患者的安慰剂效应可能与仅使用安慰剂的组中的安慰剂效应不同。Curkovi? 等人 [29] 在抗抑郁药试验的背景下探讨了这个问题,指出一些分析将观察到的临床改善主要归因于安慰剂相关机制而非药物作用,并且药物和安慰剂成分之间的相互作用可能无法清晰分离。提出了“活性安慰剂”对照的概念——这些物质模仿副作用但没有治疗效果——来测试这种相互作用,使用活性安慰剂的试验有时显示出比使用惰性安慰剂的试验更小的药物-安慰剂差异。对于罕见病试验,加法性问题的实际影响取决于终点类型。对于客观终点,安慰剂贡献始终很小(SMD < 0.10),并且通常在统计上无法与零区分,因此与药物效应的任何相互作用都很小——少量和任何乘法因子的影响都很小。因此,对于罕见病中最常用的终点类型,加法性假设是稳健的。对于主观终点,加法性假设需要更加谨慎。最近的荟萃分析证据表明,在主观领域,药物-安慰剂相互作用可能更为明显:Bschor 等人 [15] 报告说,安慰剂效应的大小在不同精神疾病条件下差异很大(SMD 0.30–0.72),并且受到试验设计特征(如接受活性治疗的概率)的影响,表明相互作用可能是情境依赖的,而不仅仅是简单的加法。我们建议研究者将后端减法视为一种近似方法,并使用敏感性分析来探索一系列 δp 值,包括高于和低于荟萃分析估计的值。下面描述的高级方法——特别是增长混合模型和贝叶斯方法——可以适应非加法性相互作用模型,在明确质疑加法性假设时提供更细致的分解。
10 试验后安慰剂调整的先进统计方法
关于开放标签试验中安慰剂的讨论有时被简化为只有简单的减法:观察 dtotal,减去 δp 的估计值,然后报告 ddrug。实际上,几十年来在安慰剂科学、临床试验方法和因果推断方面的研究产生了一套丰富的统计方法工具,远远超出了简单的减法。这些方法提供了多种互补的证据线,用于区分药物效果和安慰剂效果,它们的综合应用可以达到一定的分析严谨性,从而显著解决与开放标签设计相关的解释问题。我们在这里按照复杂程度的递增顺序对这些方法进行介绍。
10.1 预先指定的敏感性分析结合安慰剂效应的减法
最简单的方法是在预先指定的敏感性分析中,从观察到的治疗效果中减去一系列估计的安慰剂效应。如果观察到的患者内改善度为dobs=0.60,统计分析计划规定针对δp值0.10、0.20、0.30和0.40进行检验。如果在这个范围内,经过安慰剂调整后的效果仍然具有统计显著性和临床意义,那么治疗效果就是稳健的。这种方法透明且易于向监管审查人员解释,但其局限性在于依赖于总体估计。
10.1.1 当δp<0.10时
对于客观终点,简单的减法已经足够。校正量很小,估计的不精确性无关紧要。
10.2 时间轨迹建模
当在多个时间点评估结果时,药物和安慰剂效果的不同时间进程为区分两者提供了有力的证据。如上所述,安慰剂效果通常在最初4-8周内达到峰值,然后随着驱动它们的新奇性和期望的减弱而衰减。相比之下,真正的药理效果则在与药物作用机制一致的时间尺度上出现,并且通常会随着治疗的持续而持续或增强。这种时间上的差异可以使用线性混合效应模型(LMMs)进行正式建模,该模型包括治疗时间交互作用和估计的安慰剂衰减项。该模型的形式如下:
方程中的每个变量都有特定的作用。Yij是患者i在时间点j的观察结果——每次预定评估时的主要终点测量值。下标i表示个别患者(i=1, 2, …, N),j表示顺序测量时间点(例如,基线、第4周、第8周、第12周)。
β0是截距,代表所有患者在时间零点(即在任何治疗或安慰剂效果发生之前)的平均基线结果。β1捕捉了治疗组和对照组在基线时的平均差异;在一个设计良好的研究中,这个差异应该接近零。在以患者自身为对照的应用中,Treatment~i~表示同一患者的治疗后阶段(编码为1)与治疗前阶段(编码为0),而不是组间分配——“对照组”是每个患者自己的治疗前时期。β2代表所有患者共有的随时间变化的平均速率——这考虑了自然疾病进展、重复测试的练习效应或其他时间相关趋势。主要关注的项是β3,即治疗与时间的交互作用。这个系数捕捉了超出背景时间趋势的药物带来的额外变化速率。统计上显著的β3表明,接受治疗的患者改善(或恶化得更慢)的速率与仅由时间效应预期的速率不同,这种差异速率是药理效果的核心证据。δp(tj)项是估计的安慰剂衰减函数,用于模拟与安慰剂相关的改善的时变贡献。该项结合了前一节中描述的指数衰减(例如,δp(t) = δp,max × e?λt,其中δp,max是安慰剂效果的峰值,λ是衰减率)。通过明确包含这一项,模型区分了早期消退的改善(这是安慰剂反应的特征)和持续存在的改善,后者更可能是由药理因素引起的。随机效应bi考虑了患者在基线严重程度、进展速率和反应性方面的差异。包括bi允许每个患者的轨迹偏离人群平均值,这在罕见疾病人群中尤为重要,因为患者间的异质性往往很大。最后,εij是残差误差项,代表模型中任何系统项都无法解释的每次测量中的随机、未解释的变化。实际解释很简单:如果接受治疗患者的改善在安慰剂效果通常消退的8-12周窗口之后仍然持续,并且如果在考虑了安慰剂衰减项之后β3仍然显著,这种模式构成了观察到的益处是药理性的而非安慰剂介导的强有力证据。因此,该模型利用药物和安慰剂效果的不同时间特征来区分它们,即使在没有可供直接比较的安慰剂组的单臂设计中也是如此。
10.3 客观终点和主观终点之间的一致性
当试验中同时包含客观和主观终点时,它们之间的一致性提供了强有力的内部验证。客观终点受安慰剂的影响最小(表2)。如果客观终点有所改善,那么治疗确实产生了真正的生物学变化,同时出现的主观改善也更可能是真实的。如果只有主观测量结果改善而客观测量结果没有改善,那么安慰剂或偏差效应就成了主要解释。
10.4 用于安慰剂调整的贝叶斯先验信息
贝叶斯统计方法提供了一种将关于安慰剂效果的先验知识直接纳入统计模型的正式机制[30]。简而言之,贝叶斯分析将观察到的试验数据与“先验分布”结合起来——即从先前研究中已知的信息的数学表示——产生一个“后验分布”,代表治疗效果的更新估计。这种方法特别适用于样本量小且外部信息有价值的罕见疾病试验。Hampson等人[31]证明,在罕见疾病设置中,贝叶斯设计可以将所需的样本量减少20%-40%,同时保持适当的误差控制。值得注意的是,FDA关于在临床试验中使用贝叶斯方法的草案指南支持使用信息性先验来结合外部数据和亚组分析,为这种方法在罕见疾病设置中提供了直接的监管支持[32]。在安慰剂调整的背景下,该方法的具体步骤如下:从已发表的荟萃分析(表1)中构建安慰剂效果的先验分布——例如,对于患者报告的疼痛,δp~Normal(0.35, 0.102)。根据临床前数据指定药物效果的单独先验。观察到的患者内变化被建模为总和:dobs=δdrug+δp+ε。贝叶斯框架使用试验数据同时更新这两个先验,产生药物效果和安慰剂贡献的后验分布。关键的是,这种方法不需要知道确切的安慰剂效果——它通过先验分布的宽度来考虑对安慰剂效果的不确定性。更宽的先验(反映更大的不确定性)会导致对药物效果更保守的后验估计。这种内置的保守性使得贝叶斯方法在特定于疾病的安慰剂数据有限时特别适用。
10.5 高级分解方法:混合模型、机器学习和因果推断
除了上述方法之外,还有一系列计算密集型方法可以更细致地将观察到的治疗效果分解为药物和安慰剂成分。这些方法特别适用于具有足够纵向数据的试验中的主观终点,我们在这里对它们进行总结:寻求实施细节的读者可以参考引用的原始来源。生长混合建模(GMM)使用纵向结果数据识别具有不同反应模式的潜在患者亚群——仅对药物有反应的患者、仅对安慰剂有反应的患者、始终有反应的患者和从未有反应的患者[33]。通过估计每个患者所属类别的概率,GMM可以在不假设加性的情况下分离出药理效果。该方法适应了罕见疾病人群中的患者间异质性,但每个类别至少需要大约20-30名患者才能进行可靠估计,并且在小样本中应保守地解释模型选择标准(贝叶斯信息准则、熵)。潜在类别和潜在回归模型通过结合基线协变量(疾病严重程度、生物标志物水平、人口统计特征)来扩展这一框架,以预测类别成员身份并估计患者间的安慰剂敏感性连续谱[34, 35]。推荐使用带有BCH(Bolck–Croon–Hagenaars)校正方法的三步估计方法进行无偏协变量估计[36]。基于机器学习的安慰剂预测算法使用历史试验数据训练算法来生成个体级别的预测安慰剂反应分数,然后从观察结果中减去这些分数[37]。已发表的验证数据显示,这种方法提高了大约40%的检测灵敏度和大约14%的功效,成本仅为每位患者总试验成本的1%-3%。对于罕见疾病,主要限制是训练数据的可用性;对于没有先前试验历史的超罕见疾病,跨疾病模型是一个活跃的开发领域。因果推断方法,包括倾向得分匹配、逆概率治疗加权(IPTW)、增强逆概率加权(AIPW)和目标最大似然估计(TMLE)和G计算,为在使用历史或自然史对照数据的自身对照试验中估计治疗效果提供了严谨的工具[38-42]。这些方法估计了反事实情况——如果没有治疗,接受治疗的患者会发生什么——这包括了自然疾病进程和安慰剂效果。所有这些方法都需要“无未测量混杂因素”的假设,在外部对照设置中这个假设比在随机化设置中更为严格,但当通过标准化注册表和自然史研究获得匹配良好的外部对照时,这些方法提供了一个原则性的分析框架。对于罕见疾病试验,这些高级方法最有可能用于具有先前临床试验或自然史数据的疾病的主观终点。对于客观终点,第1-4节中描述的简单方法通常就足够了,且校正量很小。在实施这些方法时,建议咨询有经验的生物统计团队。
10.6 设计层面的方法:丰富化、顺序平行比较和延长导入观察
尽管本文的重点是试验后的分析方法,但有几种设计层面的策略值得一提,因为它们直接解决了安慰剂效应的问题。
10.6.1 安慰剂导入丰富化
在随机化前阶段给患者提供安慰剂,那些显示出显著安慰剂反应的患者被排除在活性试验之外。这减少了治疗阶段的安慰剂“噪声”。虽然这种方法需要盲法处理,因此不适用于所有开放标签设计,但在交叉设计和盲法自身对照研究中是可行的[43]。
10.6.2 顺序平行比较设计(SPCD)
Raman[42]将SPCD描述为一个两阶段设计,在第二阶段将第一阶段的安慰剂无反应者重新随机化,从而丰富样本中更可能反映药物效果的患者。SPCD在安慰剂反应率高的精神病学和神经学试验中显示出特别的前景。准确的患者报告训练(APRT),即训练患者更一致和准确地报告症状,在减少测量噪声方面显示出适度的改善,但在减少安慰剂反应本身方面效果有限[43]。
10.6.3 带有前瞻性症状特征的延长导入观察
一个特别有前景的设计层面策略是延长的治疗前观察期。这种方法主要适用于不会急性进展的疾病,在治疗开始前建立一个长时间的导入期,在此期间仔细描述每个患者的主要症状和轨迹。研究人员前瞻性地定义测量方法和临床意义上的变化标准——无论是稳定性、相对于基线的改善还是功能丧失的减缓。观察到的个体轨迹与同一疾病的自然史数据进行比较,从而加强了对随后治疗后变化的解释。关键的是,因为导入期在任何治疗之前,所以治疗前的轨迹不受药物相关安慰剂的影响。然后可以将治疗后的变化与这个个体校准的基线进行比较:在安慰剂的时间特征之后出现的早期改善(快速开始、随后衰减)可以与持续的药理效果区分开来。这种设计通过在没有治疗相关动机偏差的时期建立基于努力的表现,直接解决了努力依赖性的问题。这种方法的一个局限性值得注意:治疗前时期并非完全不受行为影响。已经报名参加试验并且知道即将接受治疗的患者可能在导入期间表现不佳——无论是出于策略性原因还是由于焦虑——或者可能夸大症状的严重程度,从而在治疗后评估中夸大了明显的治疗效果。标准化的评估协议、视频录制的评估和客观生理锚点(例如,步行测试期间的呼吸气体交换)有助于减轻这些影响,但无法完全消除它们;这种残余不确定性应在试验报告中予以承认。
10.7 盲法结果评估
即使在其他方面是开放标签试验,结果评估也可以由对治疗时间线不知情的评估者进行。这消除了观察者的偏见,而不需要完全的双盲。对于临床评估量表和影像学解读,实施盲法评估非常直接。例如,运动评估的视频记录可以由不知道该记录是在治疗开始之前还是之后制作的评估者进行评分。这种方法已经在几项神经肌肉疾病试验中成为标准做法,应该在开放标签的罕见疾病研究中常规使用。
10.7.1 综合多种方法
上述方法并不是互相排斥的;它们的结合应用提供的证据比任何单一方法都要有说服力。一个设计良好的自身对照试验可能会采用:(a) 连续评估以建立时间轨迹模型;(b) 客观和主观终点以验证一致性;(c) 贝叶斯先验进行正式的安慰剂调整;(d) 在不同的δp值范围内进行敏感性分析;以及(e) 对临床评估终点进行盲法结果评估。当多种独立的分析方法得出的ddrug估计值一致时,安慰剂校正的可信度会大大增强。对于客观终点,方法1-3(简单减法、时间建模、一致性)通常就足够了,且校正量很小。对于主观终点,则可以使用全部的方法1-7,分析计划应事先指定将使用哪些方法。表3总结了每种方法适用于哪种类型的终点。表4总结了自身对照设计中的偏倚机制及其缓解策略。
表3. 术后安慰剂调整方法在不同终点类型中的适用性。
分析方法
客观终点
主观终点
数据要求
复杂性
罕见疾病应用示例
敏感性分析(减法)
单独使用即可
作为基线有用
元分析δp
低
溶酶体贮积病的酶替代治疗
时间轨迹建模
辅助性
强有力的证据
连续评估(≥3个时间点)
中等
有连续6MWT的神经肌肉疾病
一致性验证
参考标准
强有力的验证
成对客观+主观终点
低
庞佩病(酶水平+功能测量)
贝叶斯信息先验
可选
推荐
从文献中获取的先验分布
中等
试验数据有限的超罕见代谢疾病
生长混合模型
很少需要
强大
纵向数据,N≥20–30
高
进展不均匀的神经退行性疾病
潜在类别/回归
很少需要
强大
基线协变量,纵向数据
高
表型多变的遗传性癫痫
机器学习安慰剂预测
很少需要
有前景
历史试验训练数据
高
有先前试验数据库的疾病(例如DMD)
因果推断(PSM, IPTW等)
有外部对照时有用
外部对照数据集
中等-高
有成熟登记系统的疾病(例如囊性纤维化)
SPCD/富集
不适用
设计级别的解决方案
盲法导入期
中等
罕见疾病中的慢性疲劳或疼痛终点
延长导入期观察
强有力的基线校准
设计级别的解决方案;解决努力依赖性
稳定或缓慢进展的疾病;连续评估
低-中等
缓慢进展的神经肌肉疾病(SMA, DMD)
盲法结果评估
标准做法
对临床量表至关重要
盲法评估者
低
任何有临床评估功能量表的罕见疾病
缩写:AIPW,增强逆概率加权;Ext.,外部;GMM,生长混合模型;IPTW,逆概率治疗加权;LCA,潜在类别分析;ML,机器学习;PSM,倾向得分匹配;SPCD,顺序平行比较设计;TMLE,目标最大似然估计。
表4. 自身对照设计中的偏倚机制及其缓解策略。
偏倚机制
描述
关键设计因素
分析缓解措施
安慰剂效应(期望驱动)
由于预期和治疗背景带来的真实生理或心理改善;早期达到峰值后逐渐减弱
连续评估;盲法结果评估;延长导入期基线
时间轨迹建模;预先指定的δp减法敏感性分析;贝叶斯信息先验
回归到均值
在症状高峰期招募患者;随后的测量值趋向于人群平均值,无论治疗如何
延长导入期以建立稳定的基线;多次治疗前评估
使用轨迹斜率(而非单一基线值)作为比较基准;自然史校准
霍桑效应
由于意识到被观察而产生的行为变化;更频繁的监测可能会改变结果
治疗前观察期与治疗后评估频率相匹配
客观终点锚定;客观和主观测量之间的一致性分析
努力依赖性
在已知治疗开始后,患者对自愿表现指标(6MWT, FVC, NSAA)的积极性增加
在努力依赖性指标上延长导入期基线;标准化鼓励脚本;盲法评估者
客观生理锚点(气体交换);时间轨迹建模以区分短暂的动机提升和持续的改善
期望偏差(患者)
在治疗分配已知时,患者对主观症状的乐观自我报告
客观主要终点;PRO基于客观测量;盲法导入期
一致性分析;生长混合模型以识别仅对安慰剂有反应的受试者
观察者/评估者偏差
临床医生或护理者在知道治疗情况时无意识地倾向于高估改善
盲法结果评估(评估者不知道治疗时间线);视频记录的评估由中央评分
预先指定的评分者培训;与客观生物标志物终点的一致性
自然疾病波动
疾病进程的起伏;治疗期间的改善可能反映了自然周期
延长导入期以描述个体轨迹;偏好选择稳定或进展性的疾病
自然史校准;带有个体随机斜率的LMM;在MNAR缺失情况下的敏感性分析
注:盲法结果评估和延长导入期基线被强调为适用于多种偏倚机制的关键设计因素。
11 讨论
安慰剂效应一直被认为是反对开放标签和以患者为自身对照的罕见疾病试验设计的基本理由。这里回顾的证据和方法允许更精确地评估这一担忧。首先,安慰剂效应并不改变RCT或自身对照设计所需的样本量。这两种设计都对ddrug有足够的统计功效,它们之间的比率(在ρ=0.90时约为1:19,如Summar和Woodcock [1]的表3所示)与δp无关[1]。其次,这两种设计在试验后确认ddrug的方式不同。RCT的并行对照组在结构上取消了安慰剂效应,因此不需要事后校正。自身对照设计观察到dtotal,必须减去估计的δp以分离ddrug。这种事后校正是自身对照设计所需的真正额外步骤。第三,这种校正对于客观终点有很好的支持。安慰剂对酶活性、生物标志物浓度、分子表达、影像学、血液学参数和生存期的影响通常很小,在大多数元分析中统计上与零没有区别(SMD<0.10)。对于大多数使用客观主要终点的已批准罕见疾病疗法,校正量很小。第四,对于安慰剂效应较大的主观终点(SMD 0.20–0.50),事后校正需要更加小心。然而,可用的分析工具包远比简单的减法丰富。时间轨迹建模利用了安慰剂效应的衰减特征。客观和主观测量之间的一致性提供了内部验证。贝叶斯方法正式纳入了对δp的不确定性。生长混合模型和潜在类别分析能够在不假设加性的情况下识别仅对药物有反应和仅对安慰剂有反应的亚群体。基于机器学习的预测生成个性化的安慰剂估计。当有外部对照时,因果推断方法提供了原则性的调整。这些方法的结合应用提供了分析上的严谨性,大大解决了两种设计之间的解释差异。始终建议咨询熟悉使用这些模型的经验丰富的生物统计学团队。第五,努力依赖性值得特别关注。FDA在审查罕见疾病应用时提到了努力依赖性,特别是对于神经肌肉和肺部终点,患者的努力直接影响测量结果。在自身对照设计中,延长的导入期观察可以在治疗相关的动机偏差发挥作用之前建立基于努力的表现。治疗后的改善可以针对这个单独校准的基线进行评估,时间轨迹分析可以区分持续的功能改善和短暂的动机效应。相比之下,在小样本RCT中,努力依赖性与治疗组分配混淆在一起——这在罕见疾病试验中很常见,因为不同组的副作用或给药途径可能有明显差异。第六,需要强调的是,RCT在处理安慰剂方面的结构优势在小样本中也会受到影响。如前一节所述,小样本RCT容易在组间出现安慰剂反应者的不对称分配,这种不平衡在没有额外分析的情况下难以检测和纠正。当结合其他文献中记录的招募困难——超过95%的罕见疾病无法提供足够样本量的RCT——实际选择不是在完美的RCT和不完美的自身对照设计之间,而是在功效不足的RCT和设计良好的自身对照研究之间,后者具有明确的、预先指定的安慰剂管理。对于绝大多数罕见疾病,后者是更科学严谨的选择。第七,当RCT对罕见疾病的功效不足时,会出现两个概念上不同的问题。第一个是第二类错误:试验缺乏足够的统计功效来检测真实的治疗效果,因此真实的好处未被发现,试验被宣布为阴性。第二个是偏差问题:小样本允许安慰剂反应者在组间的不对称分配,即使获得了显著结果,也会扭曲药物效果的点估计。这两个问题在机制上是分开的,但在实践中会相互叠加。功效不足的RCT不仅有可能错过真实效果(第二类错误),还会产生一个有偏差且不精确的效果估计,事后无法纠正。自身对照设计通过患者级别的效率在小样本量下也能达到足够的功效,并通过预先指定的分析调整来处理安慰剂贡献,为罕见疾病设置提供了更完整的方法学解决方案。我们承认存在局限性。表1中的安慰剂效应估计主要来自常见疾病;针对个别罕见疾病的特定估计很少有。虽然加性假设是标准的,但可能并不适用于所有情况。一些高级方法(GMM, ML预测)可能需要样本量或历史数据,这些可能无法用于超罕见疾病。在所有情况下,使用一系列δp值的敏感性分析应该是标准做法。此外,在疾病进程高度变异的情况下,区分安慰剂效应和自然波动需要稳健的自然史数据——这突显了特征明确的疾病登记系统的重要性[1]。
12 结论和建议
安慰剂效应是一个真实但可量化的现象。其大小可预测地因终点类型、报告方式和试验持续时间而异。它不影响任一设计的功效计算或样本量;相反,它决定了自身对照设计中确认ddrug所需的事后分析的复杂性。我们提出以下建议:
赞助者应在统计分析计划中预先指定安慰剂效应估计和安慰剂调整的分析方法,这些方法应基于元分析数据,并与试验中使用的终点类型和报告方式相匹配。对于客观终点,简单的敏感性分析加上安慰剂减法就足够了。校正量很小(δp<0.10),任何不精确性都是无关紧要的。对于主观终点,赞助者应采用多种互补方法——时间轨迹建模、与客观测量的一致性、贝叶斯先验,以及在可行的情况下,生长混合模型或潜在类别分析——以提供关于药物效果估计的收敛证据。试验应包括连续评估,以捕捉改善的时间动态,从而区分持续的药理效应和衰减的安慰剂反应。应尽可能同时包括客观终点和主观测量,以提供内部一致性验证。即使在其他方面是开放标签设计,也应实施盲法结果评估。监管机构应制定关于开放标签罕见疾病试验中可接受的安慰剂调整方法的明确指导,包括这里描述的高级方法,为赞助者提供清晰的框架。FDA现有的关于临床试验中贝叶斯方法的草案已经支持使用包含外部数据的信息先验[32],本文描述的几种因果推断和轨迹建模方法也与FDA愿意考虑罕见疾病设置中的复杂创新设计一致。虽然个别NDA提交的细节没有公开记录,但赞助者应通过Type B或Type C会议与卫生当局提前讨论这些方法,以便在试验进行前就可接受的分析方法达成一致。CONSORT 2025指南现在强调在所有试验报告中详细报告安慰剂特征和危害评估,为安慰剂处理的更大透明度建立了先例[44]。应进行一系列敏感性分析,以探讨不同的安慰剂估计值,并透明地报告结果,以证明治疗效果结论的稳健性。对于使用与努力程度相关的终点的试验,应纳入一个延长的治疗前观察期(如方法6中所述),以确定每位患者在未受到治疗相关动机偏见影响下的基线表现,这直接回应了FDA在神经肌肉和肺部罕见疾病应用中提出的担忧。监管审查人员和申办者应认识到,在罕见疾病情况下,随机对照试验(RCT)在消除安慰剂效应方面的结构优势会因样本量小而减弱,其中安慰剂反应者的非对称分配可能会以难以检测和纠正的方式扭曲组间比较。一个样本量不足的RCT并不比设计合理的自身对照试验更安全或更严谨;它只是信息量较少。在罕见疾病研究中,试验设计的选择受到患者可用性的限制。RCT能够自动处理安慰剂效应——这是一个真正的结构优势——但代价是患者数量大约增加了19倍(当ρ=0.90时)[1]。患者作为自身对照的设计需要一个试验后的安慰剂校正步骤——这是一个额外的分析步骤——但通过受试者内部的相关性获得了巨大的效率优势。用于这种校正的分析方法并非临时拼凑;它们代表了统计方法和安慰剂科学数十年的严谨发展。对于大多数罕见疾病而言,带有严格试验后校正的自身对照设计是最佳选择,因为RCT所需的患者数量超出了现有可获取的人群范围。
致谢
作者感谢那些为这项分析提供经验的罕见疾病患者群体。
人工智能的使用:根据临床和转化科学指南,作者承认在准备本手稿时使用了人工智能辅助工具(Claude、Anthropic)。人工智能的帮助仅限于编辑支持功能,包括参考文献格式化、语法审查、各部分内容的一致性检查以及表格格式化。本手稿中提出的所有科学概念、理论论点、分析框架、数据展示、统计推导、临床解释和政策建议均完全来自作者本人。作者对提交的所有工作的准确性、完整性和内容负全责。
资金情况
作者无需报告任何资金来源。
利益冲突
作者声明没有利益冲突。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号