体内毒理学研究变异性透视：对新方法毒理学的考量与基准建立

《Frontiers in Toxicology》：Perspectives on variability of in vivo toxicology studies: considerations for next-generation toxicology

【字体：大中小】 时间：2026年03月02日 来源：Frontiers in Toxicology 4.6

编辑推荐：

　　这篇综述系统评述了多种标准动物毒性测试（如OECD TG 405/429等）结果的重复性（replicability）与变异性。文章汇总了眼部刺激、致癌性等终点数据的定量与分类变异性指标，指出传统体内研究存在显著差异，其变异性应作为评估新方法（NAMs）性能的基准。理解并整合这种变异性，对于建立对NAMs“等效或更优”的合理预期、推动其监管应用至关重要。

毒理学领域正经历从传统动物模型向新方法（New Approach Methodologies, NAMs）的范式转变。这一转变的核心要求是，NAMs的性能必须被证明至少与它们旨在替代的传统体内测试“等效或更优”。然而，要确立这一比较基准，首先必须深刻理解现有动物研究本身的性能，特别是其结果的变异性。本文旨在通过系统回顾已发表的关于标准体内毒理学研究变异性的分析，为这一关键问题提供全面的视角。

引言

推动毒理学从动物模型向NAMs发展，需要对动物研究的性能有坚实的理解，以确保NAMs的性能相当或更好。“等效或更优”可以从多个维度定义，包括更具机制洞察力、更具生物学相关性（例如，使用基于人类的测试系统预测人类效应），以及与传统的基于动物的测试相比，在重复数据本身或安全评估结论方面变异性更低。本文的重点是通过回顾具有定量和/或定性终点的重复研究的变异性，来表征体内研究结果的变异性。所回顾的研究涵盖了不同类型的健康效应测试指南，包括眼部刺激、皮肤致敏和刺激、急性致死性、亚慢性和慢性重复剂量毒性、内分泌、致癌性、神经毒性、发育神经毒性（DNT）和遗传毒性测试。表征源自指南动物研究（或类似指南的研究，指与指南操作仅有微小差异）的数据变异性，可以为NAMs在变异性和重复性方面的性能提供基准。

评估毒理学研究变异性的概念是多方面的，其理解和定义取决于“变异性”概念的应用场景和方式。变异性的评估可以考虑重复研究数据的差异、整体解释以及对相关毒理学结果的预测。美国国家科学院以程序化的方式定义了相关术语“可重复性（Reproducibility）”，即当计算评估使用相同的输入数据、分析步骤、方法、代码和分析条件时，应获得一致的结果。相反，美国国家科学院将“可重复性（Replicability）”定义为针对同一科学问题的多个研究所得结果的一致性概念。数据变异性的概念还包括“普遍性（Generalizability）”，即研究结果可应用于其他背景或群体（例如，人类健康评估的物种外推，以及从少数模型物种外推到生态系统中物种的多样性）。为澄清本文使用的定义，我们已在表1中总结了这些术语。必须理解用于评估变异性和判断一项研究是否具有可重复性、可复制性和普遍性的适当数据与方法，才能深入洞察现有方法对于特定目的是否可靠，并应用于为相同或相似终点建立NAMs的基准。我们的分析主要关注可重复性，因为现有数据包括源自相同（或相似）指南的重复研究。

用于监管应用的毒性测试标准方法是使用测试指南。这可以包括经济合作与发展组织（OECD）协调测试指南、美国环境保护局（EPA）健康效应系列870测试指南、国际人用药品注册技术协调会（ICH）指南或国际标准化组织（ISO）测试标准。此类标准化测试指南为国际监管提交提供了可接受的研究设计。OECD协调的TG旨在稳健，强调物种、研究时长、暴露途径和终点的标准化。然而，OECD TG并非标准操作程序；它们刻意允许在动物品系、暴露媒介、分析终点的实验方法以及评估数据的统计方法等方面存在一定的方案灵活性。研究报告仍需包含研究如何进行描述，并提供研究所有方面的记录。此外，所有OECD成员国的监管机构都要求应用良好实验室规范（GLP），以确保研究实施质量和完整性的详细记录。遵守GLP可确保试剂和受试物的妥善储存、实验室设备的维护和准确性、动物饲养、分析方法、受试物表征等。在GLP下使用TG进行的研究，如果提供了充分的测试方法文件记录，并且共享了研究设计参数，则可能为可重复性分析提供便利。一个主要的实际挑战是获取记录良好的研究数据，然后将其协调和整理到支持回顾性分析的数据库中。

尽管遵守TGs和GLP可以支持体内指南研究的方法学一致性，但在研究内部和研究之间仍然经常观察到在有限的可重复性、可复制性和普遍性方面的固有变异性。毒理学正处于一个关键时刻，过去几十年产生的毒理学数据正在被整理，以评估它们为NAMs建立适当基准的能力，而NAMs通常需要证明其性能与传统方法相比“等效或更优”。整理数据的可用性支持了对多种体内研究类型变异性的若干分析，但迄今为止，这些分析尚未被汇总和评述。最终，更好地理解体内变异性对于在监管评估中利用NAMs至关重要，因为这种理解有助于为NAMs检测性能建立更现实的数据驱动预期。因此，我们试图汇总来自体内指南研究类型的现有变异性表征。本文的重点不是试图评估在最优实施并遵循最新科学标准的TGs下可能达到的最低理论变异性，而是整理现有的、已生成并用于毒理学决策的TG数据计算出的可重复性。

材料与方法

我们进行了文献综述，以识别描述体内毒理学研究变异性分析的出版物。最初，使用PubMed（包括MEDLINE）和Causaly数据库进行了文献检索。医学主题词（MeSH）和文本词包括“变异性”、“可重复性”及其变体，与“体内”、“动物研究”、“实验研究”和其他相关替代词组合。文献检索专注于1990年至2023年4月（进行原始检索的日期）期间发表的出版物。这项不限于毒理学、TG或变异性/可重复性分析类型的广泛搜索产生了大约8,500篇出版物，证实了生命科学中变异性的评估是一个广泛探讨的主题。

将范围限制在仅包含变异性分析、系统评价和体内研究荟萃分析的出版物，大大减少了文献集。随后进行了手动筛选，首先通过标题和摘要，然后通过审查优先子集的全文，以排除不相关的文章并遵守定义的范围。这种分层手动筛选识别出大约100篇相关手稿；对这组文献进行了数据提取和纳入审查，依据是定量分析或相关讨论，涉及生物测定中变异性的来源。这提供了大约60篇手稿，其中包括关于哺乳动物体内研究（不一定是毒理学）科学可重复性的最新科学报告和关于潜在变异性来源的背景信息，这些信息用于为我们的讨论提供依据。

从这组文献中，我们选择了与毒理学相关的研究评估，特别是遵循与人类健康相关的TGs（来自OECD和EPA系列870健康效应）的研究总结。这些类似指南的研究符合一套标准，这些标准要么与现有监管指南一致，要么遵循监管评估中使用的标准化方案。我们优先评估了来自哺乳动物研究的数据，包括不特定于毒理学的体内研究的变异性分析。最终，产生用于理解相关毒理学研究（例如，TG或类似指南）可重复性的定量变异性分析的出版物数量为27篇。这个子集是通过排除不直接测量体内结果和终点的研究来确定的，例如Ames试验，以及被认为过于复杂而无法评估可重复性的代谢组学和疫苗评估等终点。

在我们的文献集中，一些报告评估了总体相似但存在微小差异（例如，使用不同的给药媒介）的研究的变异性。对于那些研究，我们评估了所有研究之间的可重复性，而不管微小的研究差异。这样做是为了保持一致性，因为并非所有分析都做了这样的区分来考虑研究设计。在包含多种分析的研究中，我们提取了最具代表性的汇总指标。例如，当分别对雄性、雌性和所有动物进行分析时，我们只考虑了包括所有动物的评估。因此，我们的数据汇编包含了不同的数据格式，无意跨研究类型进行比较；本变异性评述的目的是汇编数据并呈现参考值，作为更好地理解体内毒理学研究的资源。

报告的可重复性总结既包括分类终点，也包括定量终点。考虑分类方案的变异性分析仅限于那些使用EPA和联合国全球化学品统一分类和标签制度（GHS）方案的分析。我们没有将欧洲特定的分类、标签和包装（CLP）标准的可重复性纳入我们的评述。分类可重复性在文献集中通常以条件概率的形式报告。条件概率表示在给定化学物质先前分类的情况下，将其分配到某个类别的概率，同时考虑该化学物质被分类的研究数量。计算如前所述进行。

连续定量终点的可重复性按照主要文献来源的描述报告。我们考虑了传达重复研究方差某些方面或由研究元数据（例如，实验室、物种、品系等）解释的重复研究方差的统计指标（例如，标准差[SD]、变异系数[CV]、决定系数[R²]和均方根误差[RMSE]；见表2）。

结果

我们检索了已发表的关于体内毒理学指南研究可重复性的回顾性评估，涵盖了多种毒理学终点：眼部刺激、皮肤致敏和刺激、急性口服和吸入致死性、亚慢性和慢性毒性、致癌性、神经毒性（包括DNT）、内分泌和遗传毒性（表3，4）。虽然检索到的文献集包括对可被视为“复杂”的研究类型（即致癌性和DNT）的变异性评估，但对于其他复杂终点，例如产前发育毒性研究和多代生殖毒性研究的子代、延迟神经毒性或毒代动力学，没有找到相关的评估。

量化可重复性在大多数检索到的出版物中被指出是一个重大挑战。基于动物的指南研究大多没有经过验证过程，而是基于历史先例被采用，这为比较提供的参考点很少。多年来，一些指南已经更新，并且引入了更严格的GLP要求，但目前没有足够的数据来稳健地评估这些变化对变异性的影响；因此，本文汇总的所有分析都将所有历史结果汇总到一个文集中进行分析。此外，应注意的是，所有测试化学品的测试数据都汇总在一起，因为本文没有进行化学信息学评估来深入研究每个研究的化学类别变异性差异（尽管一些参考研究对某些终点的化学结构对变异性的影响进行了粗略评估），这通常是由于没有足够的数据进行稳健评估。因此，本文汇总的可重复性评估依赖于单个受试物（无配方或混合物）的重复测试。如上所述，我们将分析重点放在两种主要类型的可重复性上：结果的可重复性，即分类可重复性（表3）和连续数据的可重复性（表4）。

分类可重复性

分类可重复性分析侧重于具有分类解释的研究类型，分类解释可以是阳性或阴性的二元结果，也可以是危害分类的指定。我们评述中具有二元分类终点的研究类型包括内分泌测定（Hershberger和子宫增重）、遗传毒性研究、致癌性研究和DNT研究（表3）。Hershberger和子宫增重测定显示出相似的可重复性程度：分别为72%和74%。对于致癌性，两项先前的变异性评估得出了不同的结果：在同一物种不同性别之间比较时，可重复性为65%–86%，或在不同物种（大鼠和小鼠）之间比较时，可重复性为36%–74%。

更复杂的分类分析是针对使用多类别危害分类方案根据定量或定性研究结果对化学品进行分类的研究进行的。如上所述，我们对可重复性这一方面的评估仅限于使用GHS（化学品危害分类最常见的分类系统）和EPA分类方案（针对EPA感兴趣的特定终点）的研究。这些系统具有不同的类别界限和不同数量的类别。

在可能的情况下，使用条件概率评估了多类别可重复性，这些条件概率来自回顾性变异性分析或根据现有的研究信息计算得出。作为参考点，随机分配类别相当于二元分类方案的50%可重复性，或三类别和四类别系统的33%和25%可重复性。具有此类数据的终点包括眼部刺激/腐蚀、皮肤致敏、皮肤刺激/腐蚀、大鼠急性口服致死性和大鼠急性吸入致死性（表3）。可重复性通常在类别较少的分类系统中更高。对于遗传毒性研究，三个类别（阳性、阴性或模糊结果）的可重复性差异很大，介于23%和78%之间，具体取决于TG及其方案变体。在许多研究和终点类型中，很少观察到可重复性高于75%，特别是对于复杂或靶向的终点，例如器官特异性效应。根据重复研究跨研究类型和物种的汇总方式，亚慢性和慢性重复剂量研究的任何靶器官效应的符合率范围在38.5%到90%之间（每个器官），阳性发现的频率也各不相同。

对于皮肤和眼部研究类型，观察到最低和最高毒性类别的可重复性更高，这表明在毒性不存在或明显时结果稳健。这一点在Draize兔眼刺激试验中最为明显，其中GHS未分类类别的重复性高达100%，而代表轻度刺激的GHS类别2B分类，其条件概率可重复性仅为16%。考虑到这些中等类别（例如，代表轻度至中度眼部刺激危害的GHS类别）的低可重复性，后续研究评估了合并这些类别的影响，以确定分组后重复性是否有所改善。当作者将眼部刺激的GHS类别2A和2B合并时，在两个独立进行的分析中，可重复性分别提高到71%或88%。两项对皮肤致敏数据可重复性的评估与类别较少时重复性提高的趋势相矛盾。一项考虑三种GHS分类的研究发现未分类结果的可重复性为52%，而另一项考虑五种分类的研究发现这些结果的可重复性为80%。差异可能基于使用的分析方法解释：发现52%可重复性的研究基于任何有两种或以上研究可用的化学品，并且所有类别都在归一化方法中分配，研究权重相等。相比之下，发现80%可重复性的研究是针对有三种或以上研究且根据多数结果确定单一分类的化学品进行的。这些发现强调了方法、审查假设以及回顾性分析的整理方案的重要性。

定量可重复性

连续数值终点的可重复性使用不同的定量方法报告。回顾性考虑所有这些不同的报告指标尤为重要，因为大多数这些研究在相关TGs被接受之前，并未经过针对一系列化学品的可重复性分析。对眼部刺激、皮肤致敏、急性口服致死性、亚慢性/慢性重复剂量毒性和致癌性研究评估了定量终点之间的变异性（表4）。对于急性致死性，有大鼠和小鼠研究的变异性分析可用。当由同一作者评估时，使用任一种物种的研究显示出相似程度的变异性。在可能的情况下，提供了CV，但由于缺乏报告数据，并非所有研究结果都能提供。其他描述数据离散度的定量指标包括SD和基于中位数绝对偏差（MAD）的不确定性范围。一些变异性分析使用研究元数据构建模型，以量化重复研究的方差；这些研究报告了RMSE，作为预测值与真实值之间离散度的度量，以及R²，作为模型解释数据方差的比例。当模型平均预测值与数据平均值相同时，RMSE等于残差的SD。我们以与数据相同的单位报告了SD、不确定性范围和RMSE，而R²则表示为模型或变量解释的方差比例（表4）。

尽管这些不同的指标衡量的是数据或数据模型的不同统计观察结果，但检查这组统计指标揭示了多个高层次发现。眼部刺激的实验室间和实验室内CV值可用，CV值相当，范围在40%到60%之间。单剂量急性研究显示出效应水平值的离散度较小，这可能是研究设计（例如，在2000 mg/kg下的限度试验）的结果，一项评估中不确定性范围等于0.25 log₁₀-mg/kg，另一项评估中大多数研究的SD低于0.42 log₁₀-mg/kg。重复剂量研究显示出更大的重复值离散度，通常接近±0.5 log₁₀-mg/kg/天，具体取决于离散度的量化方式。来自两个独立来源的致癌性研究的50%致瘤剂量之间的线性相关性显示R²为0.63，表明在研究实施、整理和/或生物学观察方面存在重大差异。总体而言，方差估计表明，重复研究数据在定量终点上存在大量离散。与致癌性相关的值的线性相关性以及通过多元线性回归模型解释的口服重复剂量研究毒性值中方差的比例表明，重复毒性值中可由研究元数据解释的变异性存在一些上限，可能接近60%–70%。

对神经毒性研究一部分的行为终点可重复性的一项评估表明，运动活性研究的可重复性良好，在六个实验室内测试的九种阳性对照化合物中，最低观察效应水平的最大与最小比值范围为一到六。DNT运动活性的可重复性针对阴性对照进行了报告，显示CV范围从20%到140%。尽管变异性很大，但这些都是值得注意的数据，因为阴性对照很少被报告。没有其他研究可以提供此行为学方法或其他行为学方法的可重复性估计。2001年至2005年间在美国毒理学学会年会上发表的几篇摘要（未经同行评审）表明，在惊吓反应数据以及学习和记忆测试的评估中，报告不完整且阳性对照数据不完整，因此无法充分分析这些终点在实验室内和实验室间的相当大的变异性。其中一篇2004年对运动活性测量的评估指出，“需要进一步考虑如何减少变异性……”。DNT研究的定性回顾性分析报告称，很少有实验室（3/16）提供了可用的阳性对照数据，缺乏此类数据的研究因此无法为可重复性估计提供信息。然而，运动活性或惊吓反应参数的阴性对照CV值可能为研究结果的可重复性提供一些指示。通常，此类读数的CV值范围在20%到超过100%之间，具体取决于实验室、测试条件和动物年龄。这些高且可变的CV值表明，在一些实验室和测试条件下可以识别对照组和剂量组之间的显著差异，但在其他条件下则不能。相比之下，正如2001年美国毒理学学会年会报告中所报告的那样，脑重量和脑形态计量学的CV被报道要低得多，分别为4%至12%和5%–30%。

讨论

随着近期生物医学科学中变异性受到关注，以及向NAMs的转变（NAMs在方法开发和验证过程中正在生成全面的性能指标），现在比以往任何时候都更迫切需要汇编现有体内数据的变异性指标。关于科学实验可重复性和变异性的挑战已有很多论述，有多项分析特别量化了生物测定的可重复性。《自然》杂志对多个领域近1600名科学家的调查发现，超过70%的受访者曾尝试复制另一位科学家先前发表的研究但失败了。对心理学研究的最新评估表明，这些研究的可重复性率为40%，而其他评估则表明癌症生物学研究的可重复性率低至10%。这种所谓的“科学可重复性危机”（或根据本文使用的术语为“可复制性危机”）已引起公众关注，并可能影响评估新方法时施加的审查。

我们的评述表明，体内毒理学指南研究的可重复性因研究类型、终点复杂性和分类方法的不同而有很大差异，具体取决于研究设计是采用二元或多类别结果还是连续终点。虽然优化检测方法以实现低变异性是科学研究的基础，但应注意变异性不应等同于缺乏有效性。生物学本身具有变异性，因此体内检测方法的变异性并不一定表明检测方法性能不佳。然而，必须将这些信息作为不确定性正确地整合到对研究数据和相关分析流程的任何解释中。回顾性地量化检测方法变异性可以为不同的使用情境建立可接受的水平，并帮助识别哪些变异性来源缺乏足够的控制，以确保将最可靠的科学应用于毒理学安全评估。本文汇总的变异性评估强调了与检测方法评估相关的一个特别重点：由于用作基准的体内测试并非完全可重复，我们不能期望NAMs比重复的体内研究具有更高的精密度。因此，表征传统指南毒理学研究的变异性有助于为NAMs的使用建立基线预期。

区分变异性的来源

区分量化的变异性、变异性的来源以及关于变异性的不确定性非常重要。对于评估传统的体内毒理学检测方法，我们必须考虑研究实施对推导定量参考点（危害表征）和解释框架（危害识别，例如分类）的可重复性的影响。同样重要的是要注意，研究之间不同的组规模和统计功效可能解释研究结果可重复性有限的原因。先前的调查表明，变异性可能源于与检测方案或研究设计差异相关的众多因素，包括动物品系、饮食和所用媒介等元素。例如，一项专注于遗传毒性研究变异性的评述进行了多变量分析，以确定31种具有重复数据的化学品的OECD TGs 474和475的变异性驱动因素，发现品系和物种对变异性的贡献最大。与口服途径相比，注射给药也已被证明会增加子宫增重测定中阳性反应的可能性，并且在使用相同媒介的研究中观察到较低的变异性。诸如物种、剂量间距和物质纯度等可定制的研究参数被发现占器官水平最低效应水平（LELs）总方差的一半以上。这在物种、品系和性别之间的基本生理和代谢差异方面尤为明显。例如，大鼠生殖道中的肿瘤发生率，或雄性大鼠与雌性大鼠中甲状腺肿瘤的存在。此外，一份报告指出，Draize兔眼刺激试验中的终点选择对变异性程度有显著影响：当GHS类别2分类是基于无角膜损伤的结膜效应时，与基于其他驱动因素（如虹膜炎）的分类相比，观察到更高的变异性。方案时间点，例如动物的年龄、暴露后的时间点或反应测量的时间，也可能显著影响研究结果。我们必须承认TGs不是严格的标准操作程序，认识到研究设计中的一些灵活性是可接受的，并且在“类似指南”的研究实施范围内。然而，即使变异性的来源可以解释，数据变异性可能仍然是一种不确定性，因为很难理解哪种方案变体与人群最相关。

处理固有的生物变异性更为复杂，但可以认为源自四个一般因素：生理、遗传、个体发育和暴露组。这些变异性来源已在某种程度上被量化，但需要进一步表征。例如，关于化学物毒代动力学，研究发现变异性估计通常（但不总是）落在某些化学物和生命阶段的10倍不确定性因子可接受范围内，但仍然存在许多不确定性。在动物研究对人类和生态系统结果的普遍性方面也存在不确定性，这源于物种、暴露和终点等方面的差异。动物模型和体外NAMs在模型输出到人类的普遍性方面都面临挑战，没有一种范式能完全代表人类存在的毒代动力学和毒效动力学过程。基于啮齿类动物的研究必须通过一系列关于剂量测定、毒代动力学以及啮齿类靶点对人类靶点的适用性假设，外推至人体等效剂量。基于人类的NAMs通常是基于分离的细胞或蛋白质的检测方法，需要外推到人体，包括毒代动力学和代谢方面的考虑，例如组织特异性代谢。

解决数据缺口和未来工作的考量

在我们的回顾性分析中，值得注意的数据缺口包括生殖和发育毒性研究类型以及毒代动力学研究，以及这些研究的对照变异性，后者很少被报告。我们还注意到，汇总的不同分析并不都代表独特的数据集，因为一些较大的可重复性评估挖掘了相同的源数据库，导致主要数据表示存在重叠。然而，由于我们的目标不是直接比较每个变异性研究，我们认为在更全面地描述变异性时，一些冗余是可以接受的。更具体地说，即使从相同数据集报告的变异性估计也可能因应用的过滤步骤和统计方法而不同。其中一个例子是所使用的媒介：虽然一些分析为相同媒介提供了单独的变异性估计，但大多数分析并未将媒介作为其分析中的一个因素。

这里汇总的结果可能并非哺乳动物毒理学所独有，预计在生态毒理学研究中也是一致的。

热点排行