一种创新的临床试验方法,用于在欧洲快速通道监管框架下评估数字医疗设备

《Statistics in Medicine》:Innovative Clinical Trial Approach for Evaluating Digital Medical Devices Under European Fast-Track Regulatory Frameworks

【字体: 时间:2026年05月07日 来源:Statistics in Medicine 1.8

编辑推荐:

  摘要 为了满足患者对快速获取创新数字医疗设备(DMDs)的需求,欧洲联盟国家的多个健康技术评估(HTA)机构提供了过渡性或临时性的准入和报销途径。当只有不完整的临床试验数据可用时,这些途径是可以使用的,即使在获得CE(欧洲一致性)标志后,关于临床效益的不确定性仍然很大。一旦制造

  摘要

为了满足患者对快速获取创新数字医疗设备(DMDs)的需求,欧洲联盟国家的多个健康技术评估(HTA)机构提供了过渡性或临时性的准入和报销途径。当只有不完整的临床试验数据可用时,这些途径是可以使用的,即使在获得CE(欧洲一致性)标志后,关于临床效益的不确定性仍然很大。一旦制造商完成了临床研究,由于设备在目标人群中的使用,额外的真实世界数据(RWD)可能会变得可用。因此,监管机构可以利用这两种信息来源来支持他们的最终决策过程。为了对这种情况进行统计上原则性的评估,我们提出了一个适合在欧洲HTA快速通道要求下评估DMD的统计框架,该框架整合了临床试验数据和RWD。该框架包括三个关键步骤:(1)临床试验的中间分析,这可以支持临时监管授权并促进RWD的收集;(2)临床试验的最终分析;(3)元分析,结合临床试验数据和RWD,前提是获得了临时授权。为了优化中间分析和申请临时授权的时间,我们引入了几种指标。通过广泛的模拟研究评估了所提出的框架。一旦DMD得到广泛采用,还应对其进行上市后评估,以符合第四阶段研究的原则。

缩写

CE
欧洲一致性

CP
条件功效

DMD
数字医疗设备

EU
欧洲联盟

FDA
美国食品药品监督管理局

HTA
健康技术评估

NNHM
正态-正态层次模型

PECAN
数字提前治疗

PP
预测功效

RCT
随机临床试验

RWD
真实世界数据

SaMD
软件作为医疗设备

SiMD
医疗设备中的软件

1 引言

数字医疗设备(DMDs)有可能重塑健康预防和护理。根据欧盟(EU)法规2017/745的定义,DMDs可以设计用于预防、诊断、监测、治疗或缓解疾病的影响。DMDs不仅可以为个别患者提供好处,也可以为更广泛的医疗系统带来益处。这类设备包括智能手机应用程序、独立软件、在线工具以及使用来自医疗设备(如医疗成像设备、传感器或监视器)的数据的任何算法。DMD的例子包括医疗专业人员使用的临床决策支持系统、与软件结合的物理设备(例如闭环胰岛素泵[1])以及用于监测慢性疾病的应用程序。美国食品药品监督管理局(FDA)将这些健康技术分为两类:软件作为医疗设备(SaMD),即用于一个或多个医疗目的的软件,且不作为物理医疗设备的一部分运行;以及医疗设备中的软件(SiMD),即对设备的功能和性能至关重要的嵌入式软件。SiMD不能独立工作,取决于相关设备来实现其目的。为了简单起见,本文使用了更广泛的术语DMDs来包括SaMD和SiMD。人工智能算法的快速发展通过(1)从日常医疗保健过程中生成的大量数据中得出新的重要见解,(2)实现患者治疗的个性化,(3)通过改变患者的监测和随访方式来增强患者的权力等方式,改变了DMD的格局。它们有潜力提高质量、安全性和医疗路径[2-5]。DMDs是根据基于风险的系统进行分类的,该系统考虑了人体的脆弱性和每种设备的潜在风险[6]。对于中等和高风险DMD,在获得CE标志后,必须在申请健康技术评估(HTA)之前,在真实生活环境中进行干预性或观察性的临床研究。然而,进行这样的临床研究需要时间,而DMD所基于的技术,特别是机器学习或深度学习算法,发展迅速。这突出了两个相互矛盾的优先事项:确保DMD的安全性和有效性的严格临床评估需求,以及用户(如患者或医疗人员)对快速获取创新解决方案的合法期望。与其他健康产品一样,医疗设备的评估也是通过关注以患者为中心的临床终点的临床试验来进行的。然而,干预性试验的设计和执行非常耗时,通常从最初的规划阶段持续到最终的患者纳入和数据分析,有时甚至需要超过一年或几年的时间。虽然随机临床试验(RCTs)被认为是黄金标准,但观察性研究虽然成本较低,却常常受到偏见的影响,并不被视为同样程度的决定性证据。

1.1 动机——欧洲HTA快速通道框架用于DMDs报销

对DMDs快速报销决策的期望日益增长,正在重塑HTA流程:欧盟国家的多个HTA机构已经整合了,或者正在整合快速准入程序[7]。尽管基于证据的医学仍是报销决策的标准,但引入条件快速通道——与早期准入和报销相关——为患者、医疗专业人员和医疗设备行业提供了一个有吸引力的解决方案。例如,法国的快速通道称为PECAN(prise en charge anticipée numérique,即DMDs的早期报销访问[8]),提供了一年的临时报销期,以便患者能够快速获取数字健康解决方案。DMDs根据潜在利益的初步证据,由国家医疗系统报销一年。HTA机构评估正在进行的研究(不一定是随机的)的可用数据的初步分析,并在一年期结束前的最终HTA评估之前预期结果。因此,这一过程鼓励向HTA机构提交部分研究结果,同时承认这种方法对决策者带来的固有不确定性。尽管如此,即使尚未获得完整的临床证据,当局也必须有足够的数据来证明临时报销和用户访问的合理性。一旦这个过渡期结束,制造商应该已经完成了临床研究,并且可能还收集了来自DMD在人群中的使用的真实世界数据(RWD)。因此,监管机构可以从两个信息来源中受益,用于他们的最终决策,而之前他们的分析仅基于临床试验数据。在本文中,我们提出了一个用于在这些快速通道要求下评估DMD的统计框架(见图1)。该框架基于一个初步的计划有两个臂的RCT设计来比较优效性的背景,包括一个中间分析。与传统的顺序分析不同,这个中间分析将决定是寻求临时监管授权还是决定无效。因此,I类错误(考虑整个临床分析)不受多重性问题影响。如果在中间阶段寻求临时监管授权,那么在试验结束时可能会有关于同一人群的额外前瞻性观察数据(或RWD)。因此,除了在试验结束时报告的临床试验的完整分析外,框架的最后一步将涉及使用临时授权期间从一般人群中获得的额外观察数据,通过增强分析来考虑数据来源内的异质性。因此,该框架满足了不同的需求:中间分析结合了安全性和快速接入,而最终分析确保了严格的疗效评估。图1展示了在欧洲快速通道要求下促进更严格评估DMDs的提议方法。这种方法分为三个步骤:(1)在临床试验期间进行的中间分析,其结果可能支持临时监管授权并促进真实世界数据的收集;(2)临床试验的最终分析;(3)如果获得了临时授权,则结合临床试验数据和真实世界数据的元分析。这里以条件功效为例,但也可以应用其他类似的指标,如预测功效。本文的组织结构如下。第2节介绍了方法。第3节描述了用于评估我们方法的模拟设置,并在第4节提供了两个模拟数据集的示例。由于用户只能在临床试验程序完成之前不久才能访问某些新干预措施,因此与临床试验同时获得的RWD目前特别有限。因此,新框架仅通过广泛的模拟研究进行了评估。模拟结果在第5节给出。我们的结论在第6节提供。

2 方法

我们提出了一个分为三个步骤的框架:(1)在临床试验期间的中间分析,其结果可能支持临时监管授权并促进RWD的收集;(2)临床试验的最终分析;(3)如果获得了临时授权,则结合RWD的增强分析。如前一节所述,中间分析将决定是否寻求临时监管授权。我们提出了几个指标来决定中间分析的时间。如果请求并获得了临时授权,则DMD可以在试验人群之外使用,从而能够在观察性设置中收集同一人群和终点的数据。在试验结束时,将对试验数据进行最终分析。如果获得了临时授权,可以进行元分析,将外部RWD与试验结果结合起来,以进一步强化试验结果。然后必须对RWD进行适当的调整分析,使用倾向分数和/或匹配技术[9, 10]。此外,由于招募的人群不同(患者特征、治疗设置或数据收集过程的变化)[11],临床试验和RWD可能无法直接比较[11]。可以使用普遍性或可转移性来使RWD人群与试验人群更加匹配,通过对个体进行加权、分层或匹配[12, 13]。在以下章节中,我们概述了将在框架内使用的提议指标和方法。

2.1 带有中间分析的临床评估

考虑一个有两个臂的优效性随机对照临床试验,涉及一个带有DMD的新干预措施和一个对照组,总样本量为参与者,以测试零假设与,其中代表效应大小指标,例如干预组和对照组之间主要终点的平均差异。在中间分析时给定样本大小为,其中是“信息时间”,定义作为的估计量,其相应的方差表示为,其中是最终分析中的估计量的方差()。这里我们有意只考虑估计量的非常一般的属性:该框架适用于许多不同的估计量。表1显示了一些连续和二元终点的估计量和定义的示例。在这些条件下,检验统计量(1)通常遵循正态分布,在下简化为。为了简单起见,我们只在时间考虑一次中间分析,但该框架可以轻松扩展为多次中间分析。这种测试程序的操作特性(如I类错误,和功效,)由在零假设下和备选假设下的向量联合分布决定,在预先指定的值上。条件功效(CP)定义为在研究结束时达到预设水平统计显著性的概率,鉴于迄今为止获得的结果,并假设未来的数据将遵循某种分布,通常与研究的原始假设相关。数学上,它可以表示为:

(2)

其中是标准正态变量的累积分布函数,是中间时期之后的的估计值,是的观察值,是标准正态分布的分位数。在方程(2)中可以使用几种的选择,例如与备选假设相关或在分析时的估计量的值[14-17]。表1。在双臂试验中,针对不同终点的示例(干预组(I)与对照组(C))。连续性终点:

总体均值分别为 和 。检验: ,计算功效为 。在中期分析时,总样本量为:

其中 和 分别为中期时的样本均值。

其中 为中期分析时合并标准差的估计值。

二元终点:

总体比例分别为 和 。检验: ,计算功效为 。在中期分析时,总样本量为:

其中 和 分别为中期时的估计比例。

其中 为中期分析时合并标准差的估计值。

注意:在特殊情况下,使用符号 和 分别代替 和 ,此时使用差值作为估计量。另一方面,预测功效(PP)是在考虑观察数据和先验信息的情况下,通过对效应大小的不确定性进行积分后,试验成功的概率。它也与一种贝叶斯度量方法相关[14],并提供了试验可能结果的概率分布。其正式定义为:

(3)
Lan等人[14]中提供了CP(方程(2))和PP(方程(3)的推导。本文与他们的参考文献在符号上的一些小差异在支持信息的第一节中有说明。这里的核心概念是利用引入的两种度量方法(方程(2)中的CP和方程(3)中的PP)来在临床试验的中期分析中做出关键决策。鉴于在监管提交中需要稳健的数据,我们建议只有在招募了相当比例的参与者后才进行中期分析。这种方法与通常在招募过程早期就评估CP或PP的做法不同[18]。相反,我们建议将中期分析安排在招募期的后半段,并设定一个较高的阈值,介于60%到80%之间。需要提醒的是,中期分析的唯一目的是决定是否申请监管机构的临时授权,并无停止试验的计划。因此,可以选择时间 来达到所需的条件功效,例如 或0.8。在这种情况下,我们可以通过在替代假设下的 范围内,使用 来计算预期的条件功效,即对达到统计显著性的概率进行先验期望。

图2展示了具有二元终点、第一类错误率为0.025、功效为0.8的双臂临床试验中,方程(4)、(5)、(6)和(7)的趋势,以及干预组和对照组各自的真实反应率。虽然可能没有解析解,但前面的公式中的积分可以通过数值近似方法或蒙特卡洛技术来近似。相应的函数在支持信息中的R脚本中提供。

根据中期分析的时间(),功效情况如下:左侧显示了具有二元终点、第一类错误率为0.025、功效为0.8的双臂临床试验中的 和 ,以及干预组和对照组各自的真实反应率。右侧显示了条件功效高于阈值的概率。

2.2 临床试验的增强分析和真实世界数据(RWD)

正如本节引言中解释的,如果获得了条件性批准,也可以在试验的第二阶段收集RWD。RWD需要使用专门的技术进行仔细分析[19, 20],这超出了本文的范围。包括正确的混杂变量和适当的研究设计至关重要[21]。分析RWD以增强临床试验自然而然地适合于目标试验框架[22],这有助于在观察性研究中得出有效的结论。特别是,观察性研究的设计应与临床试验的设计相匹配,收集的RWD应与临床试验数据具有相同的格式。然而,对RWD分析的完整描述超出了本文的范围,我们将读者推荐到相应的参考文献[19, 20]。在可能的情况下进行最终增强分析时,我们使用R?ver和Friede[23]提出的非对称元分析方法,通过变体正常的-正态层次模型(NNHM)来实现。

2.2.1 正常-正态层次模型

NNHM是一种用于连续结果的元分析的标准贝叶斯框架,用于解释研究内和研究间的变异性。用 表示来自研究 的估计量的观测值,其对应的已知方差为 。该模型假设

其中 表示研究中的真实潜在效应。这些真实效应又被假设遵循一个共同的分布,

其中 是总体效应, 是研究间的方差,反映了研究间的异质性。这种两级层次结构允许部分合并,在原则性基础上跨研究借用优势。该模型通常通过为超参数 和 指定先验分布来完成,从而实现完全的贝叶斯推断。

2.2.2 参考模型

在我们的情况下,我们旨在使用观察数据RWD来获得特定研究效应的收缩估计,即我们案例中的随机化效应。尽管假设这两种数据指的是相同的均值参数或具有相同的方差可能看起来违反直觉,但通过将一个估计量指定为“参考”估计量,另一个指定为带有不确定偏差的“次要”可观测量可能更为合适。遵循R?ver和Friede[23]建议的参数化,我们得到

对于 ,其中 表示临床试验结果, 表示RWD结果。在层次结构的下一层,我们指定

其中“效应”参数 被赋予一个不适当的均匀先验,方差组分 被赋予一个先验密度,表示为

其中 表示在常规NNHM中为异质性参数 选择的先验分布(见R?ver和Friede [24],有关常规NNHM参数化和 的更多信息)。第一个可观测量 直接测量参数 (参考值),而第二个可观测量 则包含了带有方差的额外偏差。方差组分 再次解释了第一个和第二个可观测量之间的异质性,但其方式与原始NNHM略有不同。最终得到的(或在此特定情况下的)表示了临床试验的收缩估计,即受RWD影响的临床试验效应的更新估计。这种最终的增强分析易于实施,相应的函数在支持信息中的R脚本中提供,基于原始文章[23]。

3 模拟设置

我们进行了一个模拟研究来评估所提出的框架,以二元终点研究设计作为示例。表2总结了模拟研究中使用的符号。对于临床试验人群,与干预组相关的真实概率值 在不同的范围内变化,与对照组相关的真实概率值 在不同的范围内变化。临床试验的总样本量 根据 和 计算得出,以便获得单侧双样本比例检验的显著性水平 等于 和功效 等于 。然后,使用 来计算方程(4)和(5),其中 为信息时间 的值。最后,只保留E[CP]和E[PP]最接近目标值的情景。表2. 模拟研究中使用的符号总结。符号含义:

对于临床试验人群,

对于干预组和对照组相关的真实反应率,

试验结束时的真实反应率差异,

第一类错误概率,

第二类错误概率,

干预组和对照组中的个体数量,

总个体数量,

干预组和对照组中观察到的二元反应,

干预组和对照组中观察到的反应率,

观察到的反应率差异,

在中期时间,

干预组和对照组中的个体数量,

总个体数量,

干预组和对照组中观察到的二元反应,

干预组和对照组中观察到的反应率,

观察到的反应率差异,

对于RWD人群,

对于干预组和对照组相关的真实反应率,

RWD中的真实反应率差异,

干预组和对照组中的个体数量,

总样本量,

观察到的反应率差异,

干预组和对照组中观察到的二元反应,

干预组和对照组中观察到的反应率,

为了简化,我们假设分配比率(干预组与对照组)为1:1,并且没有退出。我们还假设在试验结束时干预组和对照组中的个体数量分别为 ,在中期分析的时间 的数量也为 。RWD的总样本量(由于监管机构的临时授权,在试验的第二阶段获得)等于在中进入临床试验的个体数量,即干预组和对照组中的个体数量相等。对于RWD人群,与干预组相关的真实概率值 在不同的范围内变化,与对照组相关的真实概率值 被选择为 。对于临床试验(以及RWD),使用Bernoulli分布模拟二元干预和对照组反应 和 (分别为 和 ),其参数分别为 和 (分别为 和 ,RWD人群中干预组和对照组的反应率)。模拟研究中使用的参数值在支持信息的第2节中总结。对于每个情景,模拟了5000个数据集。在增强分析步骤中,主要关注的是临床试验人群中研究特定效应的收缩估计。通过将95%的收缩区间宽度与原始置信区间宽度进行比较,并考虑相对宽度来研究所得到的精度。假设标准误差与 成比例缩放,可以估计出有效样本量的近似增益为 。我们对 使用不适当的均匀先验,对于异质性 使用半正态先验,其尺度为0.5。然后根据第2.2.2节中的规定,推导出 和 的诱导先验。所有分析均使用R软件版本4.3.0、LongCart版本3.2和bayesmeta版本3.4进行。

4 两个模拟数据集的示例

为了说明我们方法的步骤,让我们首先关注两个模拟数据集的结果,这两个数据集在RWD中干预组的真实反应率上有所不同。在本节中,我们使用 和 作为临床试验的真实反应率,使用 作为条件功效的阈值。在第一个模拟数据集中,与真实情况相比,随机对照试验(RWD)中干预组的真实反应率与临床试验的反应率有很大差异。相比之下,在第二个数据集中,RWD和临床试验群体中干预组的真实反应率是相等的。在这两种情况下,RWD和临床试验群体中对照组的真实反应率也是相等的。使用这些真实反应率作为基准,临床试验所需的总样本量为112,以达到0.9的效力水平,干预组和对照组各包含相同数量的个体。然后,根据计算出的值,我们可以从方程(4)中得出在备择假设下,基于经验趋势的平均值条件效力的大致值。接下来,选择最接近条件效力阈值的值(即0.81),从而确定中期分析的时间点以及相应的干预组和对照组的样本量。在这个例子中,试验结束时两组观察到的反应率大致相等。在中期分析时,两组观察到的反应率也相等。此时,条件效力约为0.99。由于达到了这一标准,我们可以申请监管机构的临时授权。在临床试验结束时,检验零假设(即两组中的成功概率相同),置信水平为XX%。与该检验相关的p值大约为0.004,由于它小于0.025,因此检验具有显著性,零假设被拒绝。与临床试验的第二部分同时进行,并且由于在中期分析后获得了监管机构的临时授权,我们有了相当于临床试验结束后进入的个体数量的RWD总样本量。这两个模拟数据集中两组相应的观察反应率分别约为XX和XX。为了进行最终的增强分析,我们使用了RWD数据,对于每个数据集,分别得到了相应的值。最后,对于两个模拟数据集,临床试验群体中研究特定效应的收缩估计值非常相似,有效样本量的增益大约分别为-2%(即损失)和12%。这意味着样本量从原始的XX个个体减少到了大约XX个和XX个。总之,当RWD干预组的真实反应率与临床试验的反应率大不同时,有效样本量的损失较小,估计的偏差也不如两种反应率相等时那么大。在第二种情况下,有效样本量有所增加,因此精度更高。

图3:展示两个模拟数据集(风险差异结果)的森林图。上方:当RWD和临床试验群体中干预组的真实反应率相差很大时;下方:当RWD和临床试验群体中干预组的真实反应率相等时。

5 模拟结果
本节仅提供了使用条件效力(CP)的模拟结果,而处理概率(PP)的结果见支持信息中的第3节。此外,仅考虑了某些特定情况。约束条件确保每个组至少有30名受试者,并且可以在荟萃分析中使用正态分布作为近似。表3总结了中期和最终临床试验的结果。在我们的假设情景中,为了获得接近阈值XX的结果,方程(4)总是给出相同的时间XX。正如预期的那样,对于每个情景,最终临床试验分析的p值低于0.025的频率接近效力值0.9。因此,干预组和对照组之间反应率相等的零假设大多被拒绝。在69%到86%的情况下,条件效力值大于0.8,这取决于临床试验群体中干预组和对照组的真实反应率(以及相关因素)。同样,在66%到85%的情况下,条件效力值大于0.85(分别对应90%到85%的情况)。在所有这些情况下,最终临床试验分析的p值低于0.025的频率接近1。此外,在这些情况下,可以获得临时监管授权,因此可以在临床试验的第二部分同时进行RWD数据收集。

表3:5000次重复实验中的CP条件效力(CP)的中期和最终临床试验结果。

6 结论
欧洲的快速通道要求对罕见疾病(DMDs)的评估流程进行了新的规定。我们提出了一个临床试验框架,以便在这些要求下进行更严格的评估。特别是,提出了几个指标来确定进行中期分析的适当时间,并申请监管机构的临时授权。我们进一步建议遵循常规做法,即在进行零假设下的模拟评估时(参见支持信息第4节),以确定在中期分析的选定时间是否符合临时批准的可接受误差水平,尤其是在最终分析结果为负面的情况下。事实上,在这种情况下且假设为零假设时,该设备可能会影响更多的患者,而这些患者本不应受到其影响,因此会造成一定的危害。在确保患者能够及时从创新中受益的同时,维持安全高效的创新获取途径是必要的。对于临床试验的利益相关者、方法学家和监管机构来说,这两个要求并不总是兼容的。基于这些原因,我们提出了一种设计方案,既考虑了这两种情况,又基于严格的统计特性。虽然本文仅使用了一次中期分析来展示统计框架,但该框架可以与其他更复杂的研究设计相结合,例如组序设计。在组序设计中,计划进行多次中期分析以决定是否继续试验。如有必要,我们的框架可以作为现有试验设计的补充,而不改变试验的核心结构或方法。因此,它不会影响I型错误率或研究的统计功效。这种兼容性提高了试验的灵活性和稳健性,同时不损害统计分析的完整性。然而,中期分析后的快速批准也可能对临床试验产生负面影响。例如,将患者随机分配到对照组而不向他们提供该设备可能会引发伦理问题。此外,如果对照组中的受试者使用了该医疗设备(DMD),还可能出现混杂偏差或退出率差异。纠正这一问题的一个方法是在研究结束时向对照组受试者提供该设备。这被称为等候名单制度。这种方法是在担心对照组参与者由于缺乏动机而减少的情况下采用的。尽管如此,快速批准已经实施,但其影响超出了本文的范围。在我们的框架中,医疗设备的真实世界数据(RWD)由设备制造商在试验的第二阶段期间收集(得益于监管机构的临时批准)。考虑到报销要求,可以合理假设这种数据收集在试验方案中已有规划,并且RWD以与临床试验数据相同的格式收集,以便于分析。因此,RWD具有单一的来源。无论如何,如果DMD获得报销批准,RWD将存储在行政数据库中。例如,在法国,SNDS(国家健康数据系统)是一个包含整个法国人群的匿名医疗行政数据仓库,其中包含了所有用于报销的医疗记录。不过,多个RWD来源的问题超出了本文的范围,但可以在未来的研究中解决。结合RWD和随机对照试验(RCT)可以实现多种目标[13, 25],例如提高普遍性或可转移性[13](将试验结果应用于现实世界),增强对照组[26](利用RWD进行RCT),减少偏差[27](纠正观察数据中的隐藏混杂因素),或整合不同来源的结果。对于后者,大多数方法采用标准的元分析框架,彻底评估观察估计值以检测潜在偏差[28]。替代技术包括收缩估计[29]或先测试后合并的方法[30],后者首先评估RWD和RCT结果之间的相似性,然后再应用稳健的整合方法。我们选择了贝叶斯实现的NNHM方法,因为它具有可解释性和易于实现的特点。尽管如此,上述方法仍然具有价值,尤其是在需要对RWD进行初步因果推断分析时。将RWD纳入我们的方法可以提高最终效果估计的精度,相比标准方法而言。然而,模拟研究表明,在某些情况下,有效样本量的增加相对较小。这些结果依赖于一些假设,例如RWD样本量等于中期时间后进入临床试验的个体数量。在现实中,该设备在人群中可能分布更广泛,从而增加相应的样本量,进而增加收益。无论如何,监管机构要求收集和分析RWD,因为这些数据能够使患者类型和结果的异质性更接近实际情况,从而提高外部有效性。该框架应包括设备上市后的市场评估,这符合IV期研究的宗旨。需要注意的是,最终的扩展分析旨在细化临床试验结果。然而,它也可以反过来用作对试验结果普遍性的初步评估。当临床试验和RWD中的患者特征存在显著差异时,治疗效果可能会出现差异。在这种情况下,可以应用旨在提高普遍性或可转移性的方法,如加权、分层或匹配[12, 13],以评估试验结果是否仍然适用。不过,这个问题超出了我们研究的范围,感兴趣的读者可以参考Efthimiou等人[31]和Dahabreh等人的工作[32]。然而,如果效果估计存在显著差异,最终的元分析通常会通过观察到的异质性揭示这一点。重要的是,原始试验结果将基本不受影响,正如模拟研究所证明的那样。在这些情况下,申办者可以在向监管机构提交结果之前进一步探索争议的来源。在做出最终决策时,卫生技术评估(HTA)机构还必须考虑由于进行了两次分析(最终临床试验分析和带有RWD的扩展分析)而导致的第一类错误增加的问题。如果没有观察到异质性,这表明临床试验结果可能适用于更广泛的人群。然而,可能需要更深入的分析来确认这一点并确保全面理解。实际上,如果临床试验的主要目标是评估临床疗效,那么在实际条件下的有效性非常重要。医疗设备应被视为复杂系统的一部分,因此属于复杂干预评估的范畴。除了工具的临床有效性之外,其在现实世界中的使用、组织影响以及人们对其效力的感知也可能代表新的评估终点。评估这类结果需要更长的时间,还需要其他研究方案。在过去两年中,无论是独立的还是与药物联合使用的医疗设备,都彻底改变了患者的护理方式。例如,癌症患者被推荐使用基于远程监控的移动应用程序,他们通过这些应用程序分享自己的数据,包括生物学信息、不良事件、临床终点和生活质量。有时这些应用程序与其他医疗设备互操作,用于监测心血管或血糖水平。这些数据通过设备与医生和医院共享,经过分析后可以更好地个性化治疗,并避免患者在就诊之间的重大不良事件。这些设备的评估仍然采用基于统计的临床试验设计。然而,这些方法应根据其使用情况进行调整,并在人群中实施。实际上,未来数字设备不应仅作为药物进行评估,而应作为具有多个组成部分的复杂护理干预措施进行评估,这些组成部分通常涉及许多用户的持续互动,以及用户使用设备时所需的特定行为或技能。在评估其有效性之前,必须先进行试点研究以研究其部署和评估的可行性。在评估设备的效果时,必须同时分析设备的使用情况和使用条件。这些信息对于结果的普遍性和数字设备的部署至关重要[33]。Tandon等人[34]指出了评估数字设备效果的关键点:“(1) 除了用户满意度和易用性之外,还要深入评估技术的可用性;(2) 扩大招募范围,包括临床医生和护理合作伙伴等重要用户群体;(3) 说明关键研究设计考虑的依据,包括样本量;(4) 提供关于研究样本的丰富描述性统计信息,以便全面了解其对其他患者群体和使用环境的普遍性。”

这为临床试验设计的发展开辟了新的领域,因为这些医疗设备具有许多特定性,与不随时间发展的药物不同。统计方法学家社区应提出适当的设计方法,以适应这些正在彻底改变患者护理方式和健康轨迹监测的医疗技术创新。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号