连接流行病学证据与膳食健康影响模型：风险-结局配对选择的结构化方法及其在非线性剂量反应曲线提取中的应用

《Critical Reviews in Food Science and Nutrition》：Bridging epidemiological evidence and dietary health impact models: a structured approach for selecting risk-outcome pairs

【字体：大中小】 时间：2026年01月24日 来源：Critical Reviews in Food Science and Nutrition 8.8

编辑推荐：

　　本综述针对膳食健康影响评估中风险-结局对（risk-outcome pairs）选择缺乏标准化方法、非线性剂量反应（dose-response）数据提取困难等核心挑战，提出了一套结构化解决方案。文章通过更新北欧营养建议（NNR2023）证据库、比较不同证据分级系统（如GRADE、NutriGrade、WCRF、GBD）、并利用开源工具（如WebPlotDigitizer）创新性地提取非线性剂量反应曲线，构建了一个包含159对关联（其中51对非线性）的开放数据库。这项工作为膳食健康影响模型（dietary health impact modeling）提供了更透明、标准化的证据选择与数据利用框架，显著提升了评估的稳健性与可比性。

摘要

膳食健康影响建模常常是健康影响评估的基础，而健康影响评估是公共卫生营养学中宝贵的决策支持工具。这些模型依赖于流行病学证据来量化膳食风险因素与健康结局之间的关联。然而，由于缺乏风险-结局对选择的系统方法以及从已发表文献中提取统一剂量反应数据的困难，证据的审查和选择仍然具有挑战性。为了应对这些挑战，本研究旨在：1）更新北欧营养建议2023（NNR2023）的流行病学证据库，并提出一种比较证据分级系统的方法；2）提出一种从meta分析中提取非线性剂量反应曲线的简化方法；3）构建一个综合证据的开放获取数据库。研究复制了NNR2023的检索方法，并使用修改后的NNR2023标准选择风险-结局对。通过使用开源图形阅读器提取数据点并拟合分段常数函数来估计非线性关系。从选定的更新版和原始NNR2023证据中，共纳入159对风险-结局关联，其中51对为非线性关联，约40%达到了至少中等范围的证据确定性水平。所提供的数据库和方法有助于提高透明度，并为膳食健康影响建模中的证据选择和使用提供标准方法。

引言

关于可改变的风险因素（如饮食）如何导致疾病负担的可靠证据，对于指导明智的公共卫生政策决策至关重要。评估膳食风险因素暴露变化后果的健康影响评估是常用工具。尽管存在各种方法学途径，包括比较风险评估和风险-获益评估，但这些类型的建模研究都依赖于已发表的、将膳食暴露与特定疾病结局联系起来的流行病学数据。这一限制引入了一系列复杂的挑战，这些挑战在科学文献中似乎很少被提及，但却阻碍了研究间的一致估计和解释。

风险估计值，包括相对风险（RR）、风险比、比值比和风险率（为简便起见统称为RR），是表明人群中健康结局发生可能性、比率或比数的流行病学指标。在健康影响评估中，这些值通常从meta分析数据中提取。系统评价及其伴随的meta分析位于医学证据等级的顶端，提供了关于暴露与结局之间关联的宝贵定量数据。它们的主要目的是总结现有证据，专家意见和政策建议往往严重依赖其结果。因此，在它们的设计中，数据在建模研究中的二次使用并非优先考虑事项，不幸的是，剂量反应函数很少甚至从未被提供。建模者必须决定是仔细重现meta分析结果，还是将风险-结局对的特征描述限制在所提供的线性或汇总估计值内。这些估计值相对容易提取并纳入膳食模型；然而，它们可能无法准确反映显著非线性关联的性质，而这些关联已在更多当代的meta分析研究中被识别出来。尽管存在这些挑战，meta分析通常是膳食风险-结局关联的最佳可用数据来源，研究人员将受益于一种能够弥合meta分析与建模之间差距的标准方法，使他们能够高效地提取和使用数据。

在膳食模型中选择纳入哪些风险-结局对是另一个常见障碍，这尤其源于底层数据缺乏透明度、数据来源繁多带来的复杂性以及所应用的证据分级系统的多样性。至少存在四种独立的证据分级系统，并且这些系统的尺度无法进行定量比较。GRADE、NutriGrade、世界癌症研究基金（WCRF）分级系统以及全球疾病负担（GBD）星级系统都旨在评估所总结证据的确定性，但具有不同的优先级、重点和方法学。最近的一项范围审查强调了各种类型的膳食评估模型在数据选择上缺乏一致性，44%的建模研究使用GBD数据，而其他研究则使用选定的系统评价或其他来源。在选择膳食风险因素证据时明显缺乏标准化，可能导致“樱桃采摘”或依赖单一证据来源，从而影响最终评估的偏倚。尽管这些数据源的成功汇编已经完成（例如GBD证据强度、WCRF癌症更新计划和北欧营养建议），但在随后使用这些数据的工作中，必须考虑并透明地传达审查方法中的局限性和细微差别。

GBD、WCRF和NNR的工作都包含了由大型专家团队进行的深入膳食证据审查，各自有其优缺点和评估标准。这些来源均未提供非线性曲线的函数或轻松提取和使用数据的方法。GBD和WCRF的倡议都是宝贵的数据来源，其在该领域的努力值得称赞；然而，NNR2023作为证据库似乎覆盖范围最广，其自身范围内包含了GBD和WCRF的输出。

NNR2023由北欧部长理事会委托进行，并为每个感兴趣的食品类别列出了一份“合格系统评价”清单，以为建议提供因果科学证据。与GBD和WCRF不同，NNR2023的最终报告中未包含meta分析的结果，因为其目标是使用数据作为各种膳食指南的理由。NNR2023委托进行了选定的新meta分析，并作为合格系统评价被引用。为每个食物组选择和开发这些所谓的合格系统评价以及进行范围审查的方法是严格、透明且在一系列背景文件中清晰记录的。关于膳食健康风险的数据发表速度和数量，对保持证据的时效性构成了巨大挑战。因此，我们决定通过复制相关的范围审查检索来更新NNR2023证据，不仅是为了识别自上次检索日期以来任何新的相关系统评价，也是为了阐明保持与最新研究同步的挑战，并为该数据源的持续更新和维护提供一个框架。

本文旨在通过以下方式弥合meta分析数据与膳食健康影响建模之间的差距：1）复制NNR2023方法学，进行更新检索以寻找任何新的相关数据，并实现不同确定性分级系统间证据的可比性；2）提出一种从此类证据源中提取非线性剂量反应曲线的新颖且高效的方法；3）以NNR2023为骨干证据库，构建一个膳食风险-结局对及其伴随的剂量反应函数的开放获取数据库。

方法

更新NNR合格系统评价

对NNR2023中食品类别的合格系统评价进行了调查，以寻找由定量剂量反应数据表示的RR估计值。这些评价经过重复筛选，仅包含那些含有剂量反应数据的评价。排除了剂量反应数据不可用或仅提供二分数据（最高与最低摄入量比较）的评价。被排除的研究已被记录。

随后进行了一次更新检索，以纳入2023年4月15日（NNR2023的最后检索日期）之后发表的系统评价。检索针对NNR2023中的每个食物组进行组织，并根据其各自的范围审查方法和NNR2023方法学论文进行。详细的食物组定义可在补充附录B中找到，NNR2023与GBD之间食品项目和组的对应关系见表B1。根据需要修改了范围审查背景文件中的检索策略，并在相应的数据库（最常见的是PubMed）中实施。检索于2024年8月2日进行（咖啡和茶组为2024年9月5日）。

将识别出的来源上传到审查筛选软件Rayyan，由一名评审员根据修改后的NNR合格系统评价选择标准对文章进行筛选。当前评审作者进行了三项修改以确保彻底性：（1）增加了需要剂量反应数据的条件；（2）省略了需要由国家食品或卫生当局或国际食品和卫生组织委托进行的标准；（3）仅考虑食品或食品组，因为我们的范围不包括营养素调查。评审员在开始单篇筛选前，对一部分文章进行了筛选测试以确保一致性。

选择风险-结局对

一旦编制了系统评价清单（包括来自NNR2023合格系统评价和更新检索的结果），就对单个风险-结局对进行筛选并提取剂量反应估计值。对于更新检索中发现的关联，此过程以重复方式进行，并提取了关于暴露、结局、剂量增量、证据确定性、纳入研究数量和最后检索日期的信息。重复筛选产生的冲突通过评审员之间的讨论解决。对来自NNR2023的纳入论文进行了相同的过程，但由一名评审员完成。由一名评审员提取了额外的研究数据（可观察剂量范围、病例和样本量、异质性测量值和研究设计）。纳入和排除的原因在流程图中总结。对所有符合纳入标准的风险-结局对的研究进行了修改版的AMSTAR-2质量评估。

风险-结局对仅在满足以下条件时被纳入：剂量反应计算中包含多于一项研究，并且提供的总体证据确定性等级至少为低（GRADE和NutriGrade）、有限-提示性（WCRF）或两颗星及以上（GBD）。为了对所遇到的证据分级系统进行概述，基于定性描述对四个量表进行了比较映射。

在筛选和选择之后，任何存在冲突的风险-结局对（例如，同一风险-结局对有多个meta分析）都经过并排严格比较，以确定哪个具有更可靠或更新的数据。决策基于修改后的AMSTAR-2评估（优先），如果AMSTAR-2赋予相同的质量评级，则依次考虑纳入研究的数量和meta分析的新近度。在比较中被认为更强有力的研究中的风险-结局对被纳入。

剂量反应关联的提取

线性关联

如果关联是线性的（例如，没有非线性证据或调查），则提取每增加单位暴露量的RR及其相关不确定性（95%置信区间）。在构建数据库时，计算了函数的斜率，假设暴露与RR之间的关系从零到最大观察剂量遵循对数线性关系（此后RR假设为恒定），或者如果可观察范围不可用，则假设为正无穷大。

非线性关联

当关联被识别为非线性的，例如在论文中披露了显著的非线性p值（即p < 0.05）时，应用以下协议：

1.
提取可用曲线：如果meta分析中的基础数据（例如，增量剂量段的RR等）或曲线函数包含在出版物中，则直接提取这些数据。
2.
使用分段方法：如果基础数据不易获得或未提供，则使用在线AI图形阅读器，采用分段常数线性方法来估计非线性曲线。从校准后的曲线视觉副本中提取点，并应用一个为每个数据点应用短分段线性函数的函数。假设曲线从函数的最后一段开始保持平稳。如果数据点不是从零开始，则应用类似的假设，即零和第一个数据点之间的所有值等于第一个数据点的值。该过程的详细说明在补充附录E中解释。

WebPlotDigitizer工具已被先前的研究验证。还对一个测试曲线进行了简短的验证研究，以评估研究者内部可靠性、研究者间可靠性和有效性。

为了比较和完整性，还从VizHub工具中提取了满足最低证据等级截止值（两颗星）且未包含在NNR中的2021年GBD证据强度结局，并在补充附录F的表F1中进行了总结。最后，使用RStudio构建了一个用于所选风险-结局对的提取剂量反应曲线的开放获取数据库。该数据库可在Zenodo上获取。

结果

总共从NNR2023合格系统评价（n = 74）和更新检索结果（n = 85）中选择了159对风险-结局对。其中，51对遵循非线性关联。这些关联按食物组（n = 12）和单个食品项目进行报告。值得注意的是，约四分之一的关联涉及非酒精饮料或酒精，并且没有关于糖果（不包括SSBs）或土豆的研究符合纳入标准。

从NNR2023食品基础膳食指南的原始合格系统评价（n = 28）中，筛选了10项以获取单个风险-结局对。从这些研究中，识别出80对风险-结局关联。更新检索导致15项研究被纳入，从中纳入了85对风险-结局对（来自15项纳入研究中的10项）。有6对被选中的配对存在冲突，即它们具有相同的结局和暴露但来自不同的研究。经过严格比较后，为每个暴露-结局选择了一对。这最终在数据库中总共纳入了159对风险-结局关联。

除了表中发现的简单AMSTAR-2评级外，纳入研究（包括在风险-结局对调查中被排除的研究）的列表可在补充附录A的表A2中找到，同时附有其各自的AMSTAR-2理由和资金来源。在纳入的研究中，有10项评级为低，8项为中等或高。大部分低评级来自委托研究。

图2描述了为比较不同分级系统的描述性特征并确定不同方法间的逻辑分界点而进行的定性映射。总共有64对（共159对）纳入的风险-结局对的证据等级达到或超过中等（GRADE和NutriGrade）、很可能（WCRF）或三颗星（GBD证据强度）。

为了比较和进行一种形式的敏感性分析，我们调查了GBD 2021证据强度证据。在GBD 2021的44对膳食风险-结局对中，有20对被评定为两颗星或以上且涉及基于食物的暴露（基于营养素的膳食风险因素被排除）。另外纳入了3对来自高酒精使用的关联，总共有3对被评定为三颗星。

从视觉图表中提取了非线性曲线，用分段函数进行拟合，并与线性关联一起编译到数据库中。验证研究显示了WebPlotDigitizer工具具有出色的有效性。

讨论

我们在数据库中筛选并汇编了总共159对膳食风险-结局对，其中85对来自更新检索。基于我们对分级系统的定性映射，我们确定了一个纳入对的确定性阈值（高于最低确定性等级一级）。使用一种新颖且高效的方法完成了所选风险-结局对的剂量反应曲线提取，特别是非线性关联（n = 51），该方法已开放获取，供未来应用。从现有流行病学数据中更新、选择和提取膳食风险-结局对及其相关剂量反应曲线的过程，突出并确认了研究人员在将这些数据应用于健康影响评估建模时所面临的许多已知挑战。

数据源的比较

将我们的数据库与GBD 2021证据强度风险-结局对进行比较时，观察到中等程度的一致性。例如，GBD数据中存在的2型糖尿病和缺血性心脏病与加工肉类的关联在我们的数据库中并不存在。事实上，只有大约一半的23对GBD风险-结局对在我们汇编的数据中有所体现（不包括已包含在NNR2023中的GBD对），并且证据的确定性从既定的阈值（低/提示性/两颗星）到高/令人信服/三颗星不等。以全谷物摄入作为暴露因素，缺血性心脏病的风险在两个数据源中被发现；然而，在GBD中证据强度被评为三颗星，而在Reynolds等人的系统评价中，其在GRADE量表上被评为“低”。相反，我们的检索中纳入了许多未出现在GBD 2021数据中的关联，例如乳制品摄入与帕金森病、红肉摄入与肾细胞癌，以及所有与鱼类相关的关联。由于估计制定的特异性水平（例如，GBD为食物组级别，而NNR在某些情况下为食品项目级别），将GBD膳食风险因素与其他数据源进行比较也具有挑战性。这些差异引发了关于在建模项目中纳入研究和数据的选择过程以及该领域缺乏标准化的重大问题。

我们当前的研究产生了有趣的发现，与既定文献存在一些意想不到的对比，超出了GBD的范围。如果只考虑确定性评级至少为“很可能”、“中等”或三颗星关联的对，超过一半的关联将被排除，这突显了当前文献中可用证据的整体强度相对较低，尽管识别出了大量的系统评价和meta分析。基于这个“更高”的阈值，我们的研究结果表明，红肉仅与肾细胞癌和妊娠期糖尿病相关。这与现有研究形成鲜明对比，后者认为某些关联具有“高”质量证据（红肉和加工肉与2型糖尿病），或“中等”质量证据（红肉和加工肉与冠心病、结直肠癌和全因死亡率）。红肉是营养和可持续饮食中一个有争议的话题。虽然其与其他食物来源相比的负面环境影响是明确的，但其负面健康影响的证据似乎不那么有力。WCRF和GBD都报告了红肉与结直肠癌的关联，但证据分级不同（“很可能”和“两颗星”）。对两项meta分析进行了严格比较，最终选择将GBD关联纳入数据库。此外，WCRF确实确定了红肉与结肠癌之间的显著关联，但该估计值在确定性方面未分级，并且仅在系统评价中呈现，未在报告中出现。尽管需要进一步研究来加强红肉与负面健康结局之间关联的证据，但未发现红肉与正面健康结局的记录。

加工肉的情况类似，它被广泛认为是各种疾病的危险因素，但如果应用更保守的证据确定性阈值，则仅会因其与结直肠癌风险发展的关联而被纳入。此外，尽管豆类对多种非传染性疾病的保护作用被广泛认可，但仅发现豆类作为整体食物与健康结局之间存在两种非统计学显著的关联（膀胱癌和肾细胞癌）。这一发现与最近的一项系统评价和meta分析一致，该分析也未能确定豆类与2型糖尿病或心血管疾病之间的强定量关联。文献中指出的一个关键挑战是，西方人群的豆类消费量通常非常低——通常低于在人群水平检测到有意义关联所需的阈值。当前增加豆类摄入的建议是基于它们对饮食中营养素的贡献（例如，作为动物蛋白的替代品）和纤维的保护作用，而不是基于豆类与负面健康结局的直接关联。存在一些与先前证据一致的风险-结局对例子，例如全谷物、蔬菜或红肉与缺血性心脏病的关联，但尤其是在确定性分级方面的一致性相当罕见。这些差异凸显了在膳食风险-结局关联的评估和分类上的显著差异，引发了关于跨研究、分级系统的方法学差异及其对膳食健康影响评估影响的疑问。

应对健康影响评估的挑战

为膳食健康影响评估目的选择和使用数据给研究人员带来了多重挑战。虽然我们根据我们的方案提供了所有可用数据，但建模者仍然需要根据各种因素决定使用数据库中的哪些特定对，包括建模要求和所需的证据确定性水平（即，如先前建模研究中看到的更保守的分界点）。还需要考虑统计显著性、在建模风险结局时避免重复计算食物组或项目（例如，全谷物和膳食纤维），以及可能影响该领域的发表偏倚。我们在确定某些食品项目的剂量大小时也面临挑战，例如，“杯”的测量可能指美国杯（240 mL）、英国杯（250 mL）、WCRF定义的杯（200 mL）或其他完全不同的度量，因为研究中通常未指定剂量度量标准。

评估各种meta分析证据的一个突出挑战是存在的分级系统多样性，这些系统通常难以比较。GRADE是一个广泛使用且公认的评估证据质量的框架；然而，它先前因在对任何潜在升级之前将所有观察性研究归类为低质量而受到批评，这在营养研究中随机对照试验往往不可行的情况下是一个挑战。这促使了NutriGrade的发展，以便为证据分级，特别是对队列研究，提供更细致的方法。经过大量的科学讨论和审查，GRADE得到了进一步发展，现在已成为证据合成的首选。从我们的结果来看，系统评价作者可能并不总是意识到这一发展，因为NutriGrade似乎仍在被使用。WCRF在其分级中非常强调生物学合理性，这不是GRADE或NutriGrade的典型重点，这进一步增加了比较证据的复杂性。GBD使用完全不同的系统，将各种因素组合成风险结局评分，然后转换为证据强度星级评级系统。虽然星级方法易于解释，特别是对于非专业人士，但它与其他系统不可比，因为它对正面和负面关联使用不同的尺度，并将关联幅度作为主要决定因素。不同的尺度在其解释中对统计显著性的考虑和权重也不同。我们纳入了所有符合我们纳入标准的关联，但其中许多并不具有统计学显著性（近三分之一的对）。在汇总估计值具有统计学显著性、非线性检验显著但非线性模型的总体关联不显著，或者反之亦然的情况下，复杂性进一步增加。对于我们的证据合成，我们尝试根据其定性描述对分级系统进行对齐，这在先前未被讨论过，但这样做时，我们承认其局限性，因为知道这些系统在证据判断上并非客观对齐。选择最高质量的数据仍然存在争议，部分归因于确定性评估标准的不同。

进行修改版的AMSTAR-2评估不仅是为了在冲突对之间做出决定，也是为了所有纳入的系统评价。这些评估中超过一半的质量评级为低，即使是来自知名卫生机构和组织的著名meta分析也是如此。AMSTAR-2是一个高度主观的评估，依赖于评审者的评判，不应被解释为分数。这些标准无疑值得考虑，虽然结果令人惊讶，但它们强化了关于膳食风险-结局对数据的确定性和强度的问题。

进行meta分析需要大量的时间、资源和计算投入，而许多以进行健康影响评估为目的的研究人员没有能力承担。在构建我们的数据库时，我们试图克服许多这些已知的挑战，不是通过穷举，而是在限制范围内尽可能全面。重点是确保收集的数据透明、易于访问和可复制，允许其他研究人员以系统且可重复的方式重用和构建该数据库。

局限性

我们的数据库仅选择了来自具有剂量反应数据的meta分析的关联，因为将提取的证据直接用于建模研究是我们的主要目标之一。这种排除可能引入选择偏倚，因为没有考虑不带meta分析的系统评价对风险-结局对知识总结的贡献。尚未在meta分析中记录的证据，特别是来自小型或早期研究的新兴证据，可能被遗漏，这体现了频繁更新和定期维护数据库以保持相关性的好处。

虽然原始NNR2023方法仅将委托评价纳入合格系统评价旨在确保方法学严谨性和独立性，但可能无意中排除了能够提供宝贵见解和数据的高质量科学研究。我们认为，在没有利益冲突和行业资助的情况下，非委托系统评价可能具有显著的质量和价值，可用于我们的膳食风险-结局对数据库。由于我们的重点是构建可用的流行病学数据数据库，而不是国家膳食指南的科学基础，我们省略了这一标准。由于我们以NNR2023合格系统评价作为基线，因此因该标准而被原始NNR2023排除的研究未被代表。因此可能遗漏了关键来源，这种偏倚可能部分导致GBD结果与我们构建的数据库之间的差异。

另一个限制与非线性剂量反应曲线的提取有关。尽管尝试从纳入研究的作者那里直接获取曲线数据，但收到的回复很少，获得的数据更少。因此，我们开发了一种新颖的方法来轻松估计非线性曲线以供建模项目使用。使用在线绘图工具可能存在精度和准确度损失的风险，因为该过程依赖于图形估计而不是直接访问原始数据。在轴校准以及为未显示在零和起点之间或可观察范围之后的数据所做的假设方面也存在人为错误的空间，这些假设可能无法准确描述关系。然而，验证测试的结果表明该工具的可靠性和准确性非常强。虽然不完美，但努力保持估计程序的标准并尽可能接近曲线行为，提供了合理的结果。

在我们构建数据库时，所有

热点排行

新闻专题