设计和评估具有非劣效性目标的主动对照试验的通用框架

《Statistics in Medicine》：A General Framework for Designing and Evaluating Active-Controlled Trials with Non-Inferiority Objectives

【字体：大中小】 时间：2026年05月28日 来源：Statistics in Medicine 1.8

编辑推荐：

　　主动对照试验与非劣效性目标常在有效干预措施可用、但新方案可能提供优势或满足公共卫生需求时使用。在这些试验中，参与者被随机分配接受试验性干预或主动对照。传统的非劣效性标准要求新干预措施保留主动对照效应的相当一部分。一个关键挑战是缺乏安慰剂组，这不得不依赖历史数据

主动对照试验与非劣效性目标常在有效干预措施可用、但新方案可能提供优势或满足公共卫生需求时使用。在这些试验中，参与者被随机分配接受试验性干预或主动对照。传统的非劣效性标准要求新干预措施保留主动对照效应的相当一部分。一个关键挑战是缺乏安慰剂组，这不得不依赖历史数据来估计主动对照效应及其适用于目标人群的假设。另一个挑战是当主动对照高度有效时，即使新干预不满足传统标准，其仍可能有价值。这促使了基于相对于假设安慰剂的足够疗效的替代标准的提出。本文提出一个用于设计和评估非劣效性试验的通用框架，该框架整合了所有现有的分析方法，并容纳了传统与替代的成功标准。该框架能够根据I类错误、功效以及对主动对照效应误设的稳健性，对不同方法进行系统比较。研究人员在一个具有高效主动对照的未来HIV预防试验设计中展示了其适用性。在此应用中，该框架识别出比常用方法具有更高效率和稳健性的方法，并展示了替代非劣效性标准的实际优势。总体而言，该框架为严谨的非劣效性试验设计提供了一个全面的工具包，支持方法选择和对新干预的评估。

主动对照试验是当前干预措施已知有效并可用、但仍需新干预时最常用的2b/3期试验设计。新干预可能具有卓越或临床相关的疗效以及成本或毒性降低、耐受性、依从性或实施便利性提高等优势；或者需要额外产品以满足公共卫生需求。在此类背景下，安慰剂对照设计可能不合理。在主动对照试验中，参与者被随机分配接受一种或多种试验性干预或主动对照，不设安慰剂组。其设计可能用于评估新干预是否优于或非劣效于主动对照，其中非劣效通常定义为主动对照效应的保留部分，通常为50%，这一标准被称为效应保持标准。用于评估非劣效性的主动对照试验通常被称为非劣效性试验。
从主动对照试验进行推断的一个重大挑战是缺乏安慰剂组。传统评估非劣效性涉及基于历史数据（最好是来自随机试验）估计主动对照相对于安慰剂的效应，这需要假设历史估计的主动对照效应适用于目标人群的程度。这些假设必须考虑已测量和未测量修饰因子的可能效应修饰作用，以及诸如伴随护理的进步、疾病病因或诊断标准的转变、试验终点的演变以及随着临床使用而变化的主动对照剂量或方案等因素。此场景中一个常被援引的假设是恒定性，它实质上假定在历史试验中估计的主动对照效应在目标人群中保持不变。遗憾的是，任何偏离此假设的情况都可能破坏从非劣效性试验得出的结论的有效性。
评估主动对照试验非劣效性的主要方法是固定界值法和合成法。固定界值法使用预定的界值来评估试验性干预相对于主动对照的疗效，而合成法则整合了来自主动对照试验和历史试验的数据以评估非劣效性。这两种方法在恒定性和非恒定性条件下都已得到广泛评估。虽然传统合成法仅在恒定性下控制I类错误，但固定界值法被证明对某些偏离恒定性的情况是稳健的。合成法的一种泛化改进了对非恒定性的稳健性。
非劣效性设计在主动对照高度有效时出现的另一个挑战。在此背景下，即使试验性干预不满足常用的效应保持非劣效性标准，其仍可能产生公共卫生影响。例如，如果主动对照具有95%的预防疗效，典型的50%效应保持标准将规定新干预的预防疗效需大于77.6%，这对应于对数风险比的50%保持。如果新干预在个体偏好、成本或实施可行性方面具有优势，那么如此高的门槛可能不合适。一个引人注目的成功标准可能是新干预满足如果安慰剂对照设计可行时本应使用的成功标准。这就是为支持COVID-19疫苗非劣效性试验设计而提出的推断有效性标准的精神。目前缺乏统一的方法来比较不同非劣效性标准的各种分析方法的运行特性。
鉴于上述挑战，研究人员提出一个评估试验性干预相对于主动对照的非劣效性的通用框架。该框架容纳了传统与新的非劣效性标准以及所有现有的非劣效性分析方法，并促进了基于条件或无条件定义的运行特性对不同方法的系统评估与比较。它还能量化每种方法可容纳的非恒定性程度，并提供一种正式考虑基于历史数据的主动对照效应不确定性的设计方法。研究人员通过设计一个具有高效主动对照的未来HIV预防试验来展示其框架的适用性。
近年来在HIV的生物医学预防方面取得了很大成功，口服和如今注射型抗逆转录病毒药物被证明对预防有效，称为暴露前预防。长效卡博特韦已证明高度有效，并且在女性和男性性行为者中均优于口服暴露前预防。然而，推广、接受度和依从性仍然是重大挑战，显然需要额外的干预措施来实现联合国艾滋病规划署设定的HIV发病率目标，包括有效的HIV疫苗。HIV单克隆抗体、按需产品以及替代抗逆转录病毒药物和给药设备正在研究中。在卡博特韦已获批并可供使用的背景下，评估新型抗逆转录病毒药物作为暴露前预防的潜在试验设计可以是以卡博特韦为主动对照的主动对照试验，旨在确立该新型抗逆转录病毒药物非劣效于卡博特韦。
此类试验的一个关键目标人群是撒哈拉以南非洲的女性，尽管HIV预防取得了进展，她们仍面临HIV高风险。在此人群中，卡博特韦的预防疗效（PE，定义为1减去风险比）最近估计为92.8%，95%置信区间为76.1%-97.8%。应用传统的50%效应保持标准将要求新干预的预防疗效超过73.2%，这一门槛可能会排除有前景的干预。详细计算见第3节。这促使使用替代标准，即评估成功相对于既往安慰剂对照暴露前预防试验适用的门槛，这对应于至少30%的预防疗效。一种新的抗逆转录病毒药物如果能达到至少30%的预防疗效，并具有诸如成本更低、依从性改善、毒性降低或实施更方便等优势，则可能产生重大的公共卫生影响。此例突显了需要一个灵活的框架来容纳此类替代非劣效性标准，同时保持严格的统计评估。
我们首先介绍符号并在统计框架内构建零假设。对于关注的干预，令表征在人群中接受干预的结果分布的函数。我们将干预相对于干预的效应定义为。此表述容纳了多种结果类型，包括二分类、连续、计数和删失的事件时间结果。
例如，在HIV预防试验中，关注的结果通常是HIV感染时间，这是一个删失的事件时间结果。在此类背景下，干预相对于的效应通常使用对数风险比来总结，该比值被假定随时间恒定或在固定时间点评估。令和分别表示在干预和下的风险函数，其中表示在时间接受干预的个体HIV感染的瞬时风险。在固定时间，例如两年，效应对比，即对数风险比，可以写成，其中和。在HIV预防中，预防疗效是另一个常用的效应度量，通常定义为。虽然预防疗效本身不是我们目标的加法形式，但它是的对数风险比的单调变换，因此隐含地被基于此对比的分析所容纳。
我们分别将安慰剂、主动对照和试验性干预记为，，和。那么，，和是它们在目标人群中的相对效应，即在主动对照试验抽样人群中。试验性干预相对于安慰剂的效应可分解为。当效应的负值表示获益时，科学零假设为：
(1)
其中必须排除的零疗效。对于传统的效应保持非劣效性标准，，其中表示要保持的主动对照效应的比例。对于新的推断有效性标准，，其中是固定的最低可接受疗效水平。它将相对于假设安慰剂证明优越性的概念概括化，这已在先前文献中被考虑，在此情况下设为。在公共卫生背景下，通常要求最低预防疗效——例如在我们的HIV预防示例中——阈值设为低于零（回忆负值表示获益）以反映此最低可接受疗效水平，而不仅仅是简单的优越性。
科学零假设(1)依赖于，这是一个仅从主动对照试验无法识别的参数。然而，历史安慰剂对照试验提供了关于历史环境中主动对照效应的证据。令表示主动对照在历史环境中的效应，反映其在历史试验所抽取人群中的表现，并按照那些试验的方案（包括依从性和相关修饰因子）施用。传统合成法假设，这一前提被称为恒定性假设。固定界值法假设，其中反映基于历史估计精度的保守调整，并且随着该估计变得更加精确而趋向于零。重要的是，此调整是在依赖于观察到的历史数据的条件零假设的背景下定义的，而本文考虑的零假设是无条件的并考虑了历史估计的不确定性。的具体形式及其区别将在第4.1节详述。一个标准假设还存在通常分布且一致的估计量用于和，方差分别为和，且和独立。虽然关于估计量的假设是合理的，基于来自大规模试验的独立数据，但恒定性假设的有效性值得商榷，需要仔细审查。
在HIV预防的背景下，相关的效应修饰因子可能包括参与者的年龄、性别和性行为，这些因素可能影响主动对照干预的疗效。在我们的示例中，Donnell等人提供了卡博特韦在撒哈拉以南非洲女性中效应的合理估计，他们使用了在五个国家（博茨瓦纳、肯尼亚、马拉维、南非和津巴布韦）进行的三项当代研究的数据。他们的分析调整了潜在的效应修饰因子，如年龄和基线性传播感染诊断，特别是淋病或衣原体感染，以考虑性行为的差异。他们估计的对数风险比为，对应92.8%的预防疗效。如果假设恒定性，即假设，并使用50%的效应保持定义来定义非劣效性，则干预的预防疗效需超过73.2%才能非劣效于卡博特韦。另一方面，如果使用30%的推断有效性标准定义非劣效性（），这意味着干预必须具有至少30%的预防疗效才能非劣效于卡博特韦，这对应于至少保持13.6%的卡博特韦效应。
本节介绍评估非劣效性方法的通用框架。研究人员首先定义关键参数，以便将一系列现有方法转化为此统一结构。这些参数的解释相对于本框架中考虑的科学零假设。
为了量化给定方法可容纳的非恒定性程度，研究人员对偏离恒定性进行参数化。令表示真实的相对效应偏差。这里，对应于恒定性。假设负效应值表示获益，意味着主动对照在目标人群中的有效性低于历史人群，而则表示更高的有效性。此参数化产生，使得科学零假设(1)可以写成
其中用于效应保持标准，用于推断有效性标准。
这种零假设的表述用替换了。和都是不可识别的。这种表述的科学零假设的效用在于它展示其如何与我们所称的操作零假设相关联，该假设实际上使用常用非劣效性方法进行检验。具体而言，假设一个的值，记为。例如，可以假设，对应于恒定性，或分配另一个值，该值可基于历史数据选择。使用，我们定义操作零假设为：
(2)
这是使用来自主动对照试验和历史试验的数据实际检验的假设，而不是依赖于不可识别参数的科学零假设(1)。区分科学零假设和操作零假设对于比较非恒定性下不同方法的I类错误率很重要，因为这些错误率是在科学零假设的边界评估的。
尽管可能有人认为我们只是用替换了，但使用具有实际优势。它提供了一种可解释的方式来表征不同背景下对恒定性的偏离，并阐明方法如何整合历史数据。我们的框架使这些假设明确化并将它们置于共同的尺度上。这将在下一小节中变得更加清晰。
在这个通用框架内，研究人员使用以下检验统计量检验操作零假设(2)：
(3)
这里，是统一参数，决定了在结合历史估计时如何纳入其不确定性。设恢复固定界值法，该方法将历史效应视为固定值并排除其变异性，而则恢复合成法，该方法传播历史估计的完整方差。进一步增加的值会放大对的贡献，产生更保守的检验。因此，提供了单一的调节机制来控制不同方法如何加权历史不确定性。因为(3)的分母随而增长，增加会减小在零假设和备择假设下检验统计量的量级。这增强了在历史主动对照效应误设下I类错误控制的稳健性，但代价是功效降低。这些权衡将在第5节量化。如前所述，编码了我们对相对效应偏差的假设，而和则指定了成功标准。特别地，和产生效应保持标准，而和对应新的推断有效性标准。
在附录公式中，研究人员表明在操作零假设的边界，即当，时，检验统计量服从均值为零、方差为的正态分布
其中
(4)
量以统一的方式表示了不同方法的历史变异性：它在固定界值法下减为，在其他情况下减为；详见附录。当低于时拒绝操作零假设，其中表示标准正态分布的分位数。
我们现在展示通用框架容纳了大多数评估非劣效性的现有方法。
传统合成法假设相对效应偏差，并直接结合和来构建的估计量，方差为。操作零假设(2)在该量的置信区间上界低于时被拒绝。具体而言，当
此方法拒绝(2)时
这等价于以下检验统计量
小于。这对应于参数的通用检验统计量(3)。当假设恒定性时——即当——我们称之为传统合成法。
鉴于合成法缺乏对超出假设相对效应偏差的偏离的稳健性（特别是在其I类错误控制方面），Odem-Davis和Fleming提出了一种修改方案，避免通过因子缩小的方差。该变体使用相同的点估计，但假设更大的方差。由此产生的检验统计量为
它对应于参数的通用形式(3)。值得注意的是，此方法仅在时适用且有意义。我们称之为Odem-Davis法。
固定界值法是整合历史信息进行非劣效性检验最广泛使用的方法。与合成法不同，固定界值法将历史数据视为固定和已知的，并假设可以通过其中和，通常进行保守近似。项表示用于构建置信区间上界的绝对偏差。这作为一种保守调整来解释历史估计的不确定性。然后定义固定的成功界值。该方法检验以下操作零假设：
(5)
假设并设，操作零假设(5)等价于(2)。如果的置信区间上界低于，即如果，则固定界值法拒绝(5)。这等价于检验统计量
小于。在我们的框架内，这对应于在通用统计量(3)中设。当，这产生著名的95-95法。当且，它对应于0-95法，该方法假设没有偏离历史估计。
在通用框架内表示固定界值法时出现了一个微妙但重要的问题。为了使(2)和(5)中的操作零假设匹配，我们假设，当历史数据被视为固定和已知时，这是自然的。此外，保守近似是确定性的，不会增加检验统计量的不确定性，这反映在(3)中设。这种情况下，设为，明确表明固定界值法假设与主动对照效应历史估计的变异性成比例的相对效应偏差。
Snapinn提出了另一种统一非劣效性程序的概念性尝试，他将固定界值法和效应保持标准解释为历史证据的折现形式。在此视角下，历史信息被降权或方差膨胀，以防范主动对照设计的不可检验假设，例如恒定性。重要的是，从这个观点看，效应保持标准是折现的一种形式——用于加强相对于假设安慰剂的优越性证据——而不是独立的监管或科学目标。这种折现的概念化也在美国食品药品监督管理局和欧洲药品管理局关于评估非劣效性的临床试验指南中得到呼应，其中讨论了类似的策略作为防范历史主动对照效应假设潜在偏离的方法。
Snapinn和Jiang使用双参数检验统计量类形式化了这一想法
(6)
其中是应用于历史效应的权重因子，而膨胀方差以解释潜在的偏离恒定性。在此类中，95-95固定界值法对应于，而合成法对应于。改变可再现许多常见程序，便于在偏离恒定性时评估其运行特性。
在通用框架内，此类通过映射代数嵌套为特例
从而从通用检验统计量(3)中恢复。
重要的是，尽管此映射代数上恢复了(6)中的检验统计量，但框架中的参数值无需与SJ表示中的的概念解释一致。特别地，对于（合成法），映射产生在两个框架中具有类似解释的参数值。相反，对于（95-95法），映射未提供有意义的对应关系。具体而言，当用我们的参数化表示时，评估相对于假设安慰剂的优越性的固定界值法对应于选择和，其中和。我们的参数化阐明固定界值法不会任意“折现”：它们对应于特定的、可量化的选择。
值得注意的是，我们的表述区分了真正的效应保持目标与折现：通过允许和，我们的框架可以表示存在独立的监管或科学利益来保持主动对照效应的一部分，而不仅仅是旨在相对于假设安慰剂的优越性。
虽然Snapinn将效应保持标准解释为折现，但在实践中，监管指南通过它们在Snapinn-Jiang类中的代数表示来比较95-95法与传统合成法。在此表示下，用于保持主动对照效应分数的95-95法对应于在处评估的，而传统合成法对应于。因为前者在(6)中产生更大的分母，95-95法被视为更保守。然而，这种解释是特定比较所特有的。尽管95-95法比传统合成法更保守，但它不一定比其他偏差调整合成程序更保守。因此，感知到的保守性取决于所进行的比较。
本节在规划非劣效性试验时，为选择和解释通用框架的设计阶段参数提供了实用指导。理解它们的作用和潜在值可以阐明不同非劣效性方法的潜在假设，以及这些选择如何影响最终结论。
在许多应用中，投入大量精力确保历史估计可信地针对一个值，该值在目标人群中与主动对照效应一致，即，建议。然而，设对应于在操作假设中假设精确恒定性，因此意味着完全相信。如此确定性很少有根据。选择提供了对违反假设的保护，并防止高估目标人群中的主动对照效应。即使历史估计是仔细获得的，通常也明智地选择；确切的量级应根据历史估计的可信度和所需的保守程度在具体情境中选择。从这个意义上说，作为设计阶段的调节参数，编码了科学知识和明确的保守程度。第6.4节说明了选择如何影响在哪些真实偏差范围内操作检验控制I类错误。
参数决定了如何处理来自历史估计的变异性。具体而言，对应于将历史估计视为固定和已知的量，而则将视为随机变量。选择应与用于指导试验设计的运行特性类型保持一致，这些将在第5节介绍。如果希望额外的保守性超过编码的调整，值可能是合适的。
值代数上是可能的，但不对应于任何常用或提出的方法。它们可以解释为缩小历史方差的贡献，例如如果认为历史变异性被高估。然而，这种方法很少合理，从监管角度可能不可接受。
参数和共同决定了非劣效性标准。在实践中，一个设为零，而另一个定义标准。代数上，然而，两个参数都可以非零，产生组合标准，即干预必须在保持主动对照效应的一部分之外实现最低绝对疗效。在这种情况下，无需与最低可接受疗效水平一致，可以选择低于传统值（例如小于50%），允许在绝对和相对基准之间灵活平衡。虽然此类组合标准在实践中未使用，也未在监管指南中特别推荐，但该框架容纳了它们并阐明了其解释。
在主动对照试验中评估非劣效性时，两类运行特性相关：条件和无条件。两者都考虑了主动对照试验的随机性，但条件特性假定历史人群中主动对照效应固定且已知，而无条件特性则将视为具有已知方差的随机变量。由于无条件运行特性包含了估计主动对照效应的不确定性，对恒定性假设违反的稳健性最自然地在无条件I类错误方面进行评估。研究人员评估无条件运行特性，并便于设计主动对照试验以在控制无条件I类错误的同时实现足够的无条件功效。
在前面章节概述的假设下，统计量(3)拒绝科学零假设(1)的无条件功效为
(7)
其中是标准正态分布的累积分布函数，如(4)所定义。其在科学零假设(1)边界的无条件I类错误为
(8)
类似地，条件功效和I类错误为
(9)
和
(10)
为完整起见，研究人员在附录中提供了公式(7-10)的推导。
为探索这些表达式在实际情境中的含义，研究人员关注参数空间的一个特定区域，其中功效至少为50%，I类错误低于50%。在附录中，研究人员表明感兴趣的参数空间满足
(11)
和
(12)
并进一步假设主动对照在历史人群中有效，即。
在这些条件下，条件功效总是超过无条件功效，条件I类错误总是低于无条件I类错误。这是因为条件特性忽略了从历史数据估计主动对照效应的不确定性。数学上，这源于两个关键观察：首先，当和时，表达式(7)和(8)简化为(9)和(10)；其次，在约束(11)和(12)下，标准正态参数内的分子分别为严格正和严格负。
此外，功效和I类错误都随增加而降低。数学上，这种逆关系源于标准正态参数内的分子与成反比，因为假定为负。临床上，这很有意义：从增加到意味着要么(i)如果则偏离恒定性更小，要么(ii)主动对照在目标人群中比历史人群更有效。在第一种情况下，历史估计变得更准确；在第二种情况下，它成为主动对照在目标人群中效应的更保守近似。在这两种情况下，这都会导致I类错误降低。然而，功效也降低，因为当主动对照在目标人群中更有效时，零假设更难拒绝。
在下一节中，研究人员从公式(7-10)得出更多见解，并引入与试验设计相关的进一步运行特性——既通过概念，也通过将提出的框架应用于设计一个HIV预防试验。
如第2节所述，研究人员的目标是使用卡博特韦作为主动对照，在撒哈拉以南非洲女性中设计一项HIV预防试验。关注的结果是HIV感染时间，对数风险比是效应度量，将其转换为预防疗效尺度进行解释。
研究人员评估五种分析方法，每种方法对应于控制历史方差传播和假设主动对照相对效应偏差的框架参数和的特定选择。
鉴于卡博特韦的历史高效力（预防疗效92.8%，95% CI：76.1%-97.8%），研究人员考虑两类非劣效性成功标准：(i) 50%效应保持标准，在框架中参数化为，和 (ii) 推断30%预防疗效标准，在对数风险比尺度上参数化为。
研究人员评估五种分析方法：传统合成法、偏差调整合成法（）、Odem-Davis法（）、95-95法和0-95法。偏差调整合成和Odem-Davis法中使用的值对应于86.8%的卡博特韦预防疗效，这比估计的主动对照效应在对数风险比尺度上低一个标准差。使用Donnell等人报告的历史估计（和），95-95法隐含假设的相对效应偏差为。回忆在框架内，合成法（传统和偏差调整）使用，Odem-Davis法使用，而固定界值法（95-95和0-95）使用。
当主动对照高度有效时，设计试验面临挑战。例如，具有90%预防疗效的干预无法用90%的无条件功效检测到，而具有95%预防疗效的干预可以检测到。这突显了非劣效性设计在主动对照高度有效时的挑战。
主动对照试验通常设计为实现目标条件功效。然而，如前所述，条件功效系统地低于无条件功效。这种差异可能导致试验功效不足，导致未能批准实际上非劣效的干预。研究人员称这种常规实践为临床试验设计的传统方法。
为缓解当主动对照在目标人群中比预期更有效时（即）的潜在功效损失，一种常见的临时策略是在设计阶段假设更大的值。通过假设比历史数据表明的更强的主动对照效应，该方法在规划模型下同时提高了条件和无条件功效。研究人员称此策略为临时方法。
虽然计算样本量以达到所需条件功效水平是既定程序，但框架也支持设计控制无条件功效的试验——即当历史数据和试验数据都被视为随机、假设固定偏离恒定性（即固定值）时，拒绝科学零假设的概率。研究人员称此为新方法。
将非劣效性试验设计为确保目标水平的无条件功效以检测给定设计备择假设是一个多步骤方法。首先，确定通过第5和6.1节概述的条件是否可以实现设计备择假设所需的功效。其次，如果可实现，通过求解公式(7)等式于所需功效来计算的数值。第三，根据主动对照试验中与样本量的关系确定样本量。第四，使用第6.4节所述的表达式(14)评估可容纳的非恒定性水平。
无论试验是设计为目标条件功效还是无条件功效，使用参数化以及公式(7)和(9)都可以推导出某些所需的样本量对排序。特别是，0-95法所需的样本量少于传统合成法和95-95法，而偏差调整合成法所需的样本量少于Odem-Davis法。
研究人员将此程序应用于评估三种试验设计策略：(1) 传统方法，以90%条件功效为目标；(2) 新方法，确保90%无条件功效；(3) 临时方法，在卡博特韦预防疗效为94.7%的假设下保证90%条件功效——该效应在对数尺度上比估计的主动对照效应高半个标准差。研究人员的设计备择假设是一个具有95%预防疗效的试验性干预，这在前面的小节中已确认可行。所需事件数在恒定性下计算，即，且1:1分配。然后假设固定的两年随访期、安慰剂组3%的基线发病率、每年7.5%的失访率以及两组恒定的发病率和预防疗效，确定总样本量。
研究人员对各种方法和成功标准的试验设计规格和运行特性进行了总结。为便于解释，研究人员首先在通用框架内介绍两个额外的运行特性：成功界值和可容忍的非恒定性水平。他们还提供了比较不同成功标准的指南，这在审查表格结果之前很重要。
结果表明，与新方法（控制无条件功效）相比，传统方法（控制条件功效）通常需要更小的样本量，但无条件功效较低。临时方法通常需要最大的样本量，但能确保高无条件功效。在所有方法中，Odem-Davis法始终容纳最大的非恒定性。95-95法在稳健性方面并不总是优于其他方法。推断有效性标准因其可解释性和实用性而具有吸引力。
通过框架，可以推导出成功界值的一般公式。研究人员展示了对于给定方法，成功界值可以预先确定。研究人员还定义了可容忍的非恒定性水平，以量化每种方法在控制I类错误的同时可容纳的最大非恒定性程度。对于偏差调整合成和Odem-Davis法，可容忍的非恒定性水平低于假设的偏差。对于固定界值法，95-95法具有正的可容忍非恒定性水平，而0-95法具有负的可容忍非恒定性水平，意味着它在恒定性下是非保守的。
最后，研究人员强调在直接比较效应保持和推断有效性标准时要谨慎，因为它们通常对应于不同的科学零假设。这种区别很重要，因为先前研究表明效应保持标准可能对非恒定性违反的稳健性高于推断有效性标准。然而，研究表明这并非普遍成立。此外，即使试图对齐科学零假设，这种对齐也仅在主动对照效应的特定值下有效。这强调了在设计试验和解释其结果时仔细考虑每个标准及其相关科学细微差别的必要性。
本文介绍了一个用于设计评估试验性干预非劣效性的主动对照试验的通用框架，该框架涵盖广泛的方法和成功标准，并容纳二分类、连续、计数和删失的事件时间结果。框架的一个关键贡献是促进理性决策：它允许研究人员根据I类错误和功效之间的权衡选择最合适的设计，并评估设计可容纳的非恒定性水平。框架将新的推断有效性非劣效性标准作为特例包含在内。此外，它引入了一种新的试验设计方法，优先控制无条件功效以确保对非恒定性的稳健性。
开发用于设计评估推断有效性标准的非劣效性试验的框架将推进未来的试验设计。特别是，当主动对照高度有效且试验性干预在可接受性或可行性方面具有优势时，传统的效应保持界值可能过于严格。推断有效性标准也具有高度可解释性。
该框架还阐明并泛化了先前对非劣效性程序的概念性统一，例如Snapinn的折现观点。Snapinn将效应保持标准和固定界值法解释为降低历史证据权重以防范不可检验假设（如恒定性）的方法，最终目标是证明相对于假设安慰剂的优越性。相反，该框架显式地参数化了假设的非恒定性程度以及历史数据的不确定性如何纳入分析，使潜在假设显式化。这使研究人员能够区分真正的效应保持或推断有效性目标与仅仅折现历史数据的方法。框架还强调，常用的95-95法假设了不同程度的非恒定性，这取决于历史主动对照效应估计的精度。这在历史估计精确但不太可能因相关效应修饰因子的变异而桥接到目标人群的情况下可能不具吸引力。因此，该框架为比较现有方法和设计稳健的非劣效性试验提供了更清晰、定量的基础。
除了方法论贡献外，该框架对监管科学也有直接影响。美国食品药品监督管理局和欧洲药品管理局的当前指南强调非劣效性界值的合理性、分析灵敏度的评估以及对恒定性假设的仔细考虑。分析灵敏度是试验区分有效治疗与效果较差或无效治疗的能力。在主动对照试验中，这要求目标人群中的主动对照效应不低于历史人群中的效应，在框架中这对应于真实相对效应偏差非负。一旦证明了分析灵敏度，试验设计通常在恒定性假设下进行，即。在框架内，可以在设计阶段的敏感性分析中改变以量化偏离恒定性如何影响试验性能，为提交监管审查和批准的方案中的试验设计提供透明和定量的基础。
当前指南文件的一个关键局限性是它们以固定界值表述非劣效性目标，并将零假设条件化于主动对照效应的历史估计。这种条件化表述阻碍了对违反恒定性假设的稳健性进行系统评估，因为稳健性是在考虑历史和当前试验变异性的无条件运行特性方面评估的。该框架通过分离科学零假设与用于检验的操作零假设，并参数化假设的非恒定性程度和历史不确定性的纳入，明确地解决了这一局限性。因此，它支持在无条件假设下直接比较不同方法，为评估潜在违反的影响提供了透明和定量的基础。特别是，可容忍的非恒定性水平提供了在调节历史数据时无法获得的稳健性度量。
固定界值法在实践中仍然广泛使用，部分原因是它们产生预先指定的界值，便于临床医生和监管审查员沟通、论证和可视化。它们的条件化表述——假设固定、已知且可能保守的主动对照效应——自然地与基于界值的假设陈述一致，并促进透明报告。该框架阐明固定界值法和合成法都有可以写下来的界值，但后者的界值依赖于试验数据，因此无法在研究开始前进行数值计算。
虽然该框架同时包含传统的效应保持标准和创新的推断有效性标准，但在直接比较这些标准时需要谨慎，因为它们通常对应于不同的科学零假设。这种区别很重要，因为先前研究表明效应保持标准可能对非恒定性违反的稳健性高于推断有效性标准。然而，研究表明这并非普遍成立。此外，即使试图对齐科学零假设，如第6.5节所讨论的，这种对齐也仅在主动对照效应的特定值下有效。这强调了在设计试验和解释其结果时仔细考虑每个标准及其相关科学细微差别的必要性。
重要的是，研究人员考虑了主动对照有效并可用于目标人群的背景。然而，在主动对照不可用或对人群不可接受的情况下，安慰剂对照设计仍然是生成关于试验性干预疗效证据的黄金标准。
总体而言，该框架推进了对非劣效性评估统计方法的理解和应用，为研究人员提供了一个强大的工具包，用于严格的非劣效性研究设计。

热点排行