《Nutrients》:Mapping the Analytical Landscape of Gene–Diet Interactions in Epidemiology: From Classical Models to Causal and Multi-Omics Frameworks
Andrea Maugeri
编辑推荐:
本文对基因-饮食相互作用(G×D)流行病学研究的方法学前沿进行了全面梳理,围绕八大领域(经典模型、高效设计、膳食评估误差、膳食模式/混合模型、全基因组/多基因方法、因果推断框架、多组学整合、机器学习)展开综述。核心观点是,尽管方法学日益多元,但可靠的G×D证据的产出仍高度依赖于高质量的、可比较的膳食表型(含明确的能量调整)、清晰的交互作用评估量定义、对人群分层和基因-饮食相关性的严格控制,以及透明、可复现的高维数据分析流程。翻译为精准营养(precision nutrition)提供科学依据,需关注结果的跨人群可移植性(portability)与健康公平性(equity)问题。
饮食是心脑血管代谢性疾病、癌症和炎症性疾病风险的一个主要、可改变的决定因素。然而,即使面对相似的膳食暴露,个体在代谢和临床反应上也常常表现出显著的异质性。这种变异在很大程度上可能反映了遗传易感性及其与饮食的相互作用,这也是基因-环境(G×E)流行病学,更具体地说,是基因-饮食(G×D)相互作用研究的核心基础。本综述旨在系统性地描绘当代G×D流行病学的方法学图景,跨越八个关键领域,为设计和分析提供以决策为导向的指南。
2. 流行病学中基因-饮食相互作用的分析图景
G×D研究的核心目标在于阐明饮食与遗传背景如何共同影响疾病风险,从而推动精准营养的实现。然而,相互作用的效应通常较小,且易受膳食测量误差、异质性暴露定义和多重检验校正等因素的干扰。为了应对这些挑战,当前的研究方法已扩展至一个更广阔的领域。
2.1. 经典统计模型
基于回归的交互作用模型仍是检验G×D假设最常用的工具,通常通过在广义线性模型中引入基因与膳食的乘积项来实现。关键决策在于选择频数学派还是贝叶斯学派框架,前者适合高效、标准化的分析流程,后者则在具有先验信息或需处理额外不确定性时更具优势。无论采用何种框架,可靠的估计都依赖于正确的模型设定,包括变量的定义与编码、协变量调整(如控制人群结构的主成分)以及对交互作用尺度的清晰认识。需要强调的是,“交互作用”是一个依赖于尺度(相乘或相加)的评估量,在公共卫生层面,可加性交互作用的度量通常更具信息量。然而,经典的回归模型面临严峻挑战,膳食测量误差会削弱交互作用效应并增加不确定性,而残留混杂和非线性关系也可能导致虚假的效应修正信号。一些大规模研究,如EPIC-InterAct项目,展示了跨队列膳食标准化和生存模型中交互作用检验的实用解决方案。
2.2. 高效研究设计
当对每位参与者进行基因分型、详细膳食评估或组学分析不切实际时,高效的研究设计可提高统计效能和可行性。例如,病例-对照设计、巢式病例-对照设计以及两阶段抽样设计,通过有策略地对信息最丰富的个体或层进行密集测量,同时采用考虑设计的分析方法来保持无偏的总体推断。此外,基于家族和同胞内的设计可以控制许多共同的背景因素,从而增强在存在基因-饮食相关性或人群分层情况下的稳健性。透明报告是这些设计的核心,需详细说明抽样框架、选择概率和分析方法。
2.3. 膳食评估与测量误差
膳食评估的质量是G×D研究有效性和统计功效的关键驱动因素。常用工具包括食物频率问卷、24小时膳食回顾、膳食记录以及客观生物标志物。这些工具各有其误差特征。测量误差通常会使回归系数衰减并降低功效,而对交互作用项的影响可能更具破坏性。概化理论为量化膳食评估的可靠性提供了框架,通过分解变异来源来规划高效的数据收集。减少或校正测量误差的方法包括回归校准、利用重复测量数据的混合效应模型以及敏感性分析。在交互作用分析中,明确报告假定的测量误差模型至关重要。此外,能量调整是营养流行病学的基石,在G×D分析中尤为重要,残差法、营养素密度模型和明确的等热量替代模型有助于获得清晰的生物学解释。
2.4. 膳食模式、混合模型与非线性的方法
由于食物和营养素是共同摄入且在生物学上相互依存,将膳食表征为多维暴露而非孤立的单一成分变得越来越重要。膳食模式方法包括基于指南或先验证据的先验指数,以及主成分分析、因子分析和聚类等数据驱动方法。在G×D研究中,模式评分可以与SNP(单核苷酸多态性)进行交互,以检验更高的膳食质量是否能缓解遗传易感性。降秩回归等方法可以利用中间反应变量(如脂质、炎症标志物)来推导与生物学通路联系更紧密的膳食模式。此外,来自环境流行病学的混合暴露方法,如加权分位数和回归、分位数g-计算和贝叶斯核机器回归,可以处理膳食成分间的共线性和联合效应,并探索非线性关系。无论采用何种方法,透明化的暴露构建、内部验证和外部复制都是确保结果可靠和可推广的关键。
2.5. 全基因组、高维多基因方法
全基因组策略旨在发现与健康结局的关联受饮食影响的遗传位点,通常在全基因组交互作用研究(GEWIS)中,对基因型和膳食的主效应及其交互项进行建模,并严格控制I类错误。为提升效率,许多研究采用两步法或筛选程序。无论采用何种推断范式,GEWIS都需要明确的控制多重检验策略,以及透明的发现-复制研究架构报告。应用研究表明,GEWIS对于复杂的膳食暴露是可行的,但也凸显了对标准化暴露定义和超大样本量的需求。一种相关的、基于聚合的策略是使用多基因风险评分(PRS)。PRS与饮食的交互模型通过将许多变异聚合为一个预测因子,可以检验饮食是否改变了PRS与结局的关联,从而可能提高统计功效。然而,其有效性取决于PRS的构建、校准方式以及跨人群的可移植性,这是一个需要特别关注公平性问题的领域。
2.6. 因果推断框架
因果推断方法旨在通过解决混杂、反向因果和机制通路问题来加强G×D研究的病因学解释。孟德尔随机化是广泛使用的工具,它将遗传变异作为膳食相关性状或生物标志物的工具变量。然而,在营养学应用中,孟德尔随机化面临许多膳食暴露缺乏强而特异的遗传工具,以及水平多效性可能带来偏倚等实际障碍。为提升稳健性,越来越多的研究采用敏感性分析和替代估计量,如MR-Egger、混合模型方法和稳健估计量。除了孟德尔随机化,纵向因果方法如g-方法和靶向最大似然估计可以处理时变混杂和动态暴露,而因果中介分析则可以量化效应通过特定中间变量(包括分子介质)的运作比例,但这需要较强的识别假设。
2.7. 多组学整合
多组学整合通过将遗传和膳食暴露与中间分子表型联系起来,扩展了G×D研究,有助于阐明生物学通路,使交互作用结果更具可解释性。常见的组学层面包括表观基因组学、转录组学、蛋白质组学、代谢组学/脂质组学以及肠道微生物组。一系列整合方法被用于组合跨组学块的信息,包括潜在因子模型、整合聚类、监督多块方法以及网络/模块发现方法。这些工具可以支持假设生成、中介分析和以交互作用为重点的分析。多组学数据集通常是高维的,因此最佳实践将降维和正则化与严格的预处理相结合,并优先考虑在独立队列中进行复制。尽管多组学研究显示出潜力,但许多研究仍受限于相对于特征维度的样本量不足,因此强大的内部验证和独立复制对于结果的普遍性至关重要。
2.8. 机器学习
机器学习为模拟饮食、遗传变异、组学特征和临床结局之间的非线性关系和高阶相互作用提供了灵活的工具,常见方法包括随机森林、梯度提升机和贝叶斯加性回归树。在营养研究中,机器学习还用于从高维摄入数据中推导膳食模式或亚型,并使用整合的饮食-组学特征谱预测结局。然而,这些方法伴随着重要风险,可能无意中学习到混杂结构或技术假象,产生无法泛化的“交互作用”信号。因此,严格的验证、训练与测试数据的严格分离以及透明的流程至关重要。当目标是解释而非预测时,可解释性方法(如特征重要性、部分依赖图)可以支持假设生成,但应谨慎解释。
3. 讨论与结论
G×D流行病学的分析方法已大幅扩展,但从经典方法到现代方法的演进并未改变一个基本现实:大多数交互作用效应是微弱的,且极易受膳食测量误差、残留混杂、人群结构和多重检验校正的影响。因此,复制、三角验证和透明报告是可信度的核心条件。一致的共识是,G×D推断的强度往往更多地取决于膳食表型的质量和可比性,而非复杂的建模。概念清晰性同样重要,需要明确“交互作用”是在何种尺度上定义的评估量,并应更常规地报告可加性和相乘性交互作用。人群结构和基因-饮食相关性是另一个突出问题,需要通过仔细的祖先调整、混合模型方法以及可能的基于家族的设计来应对。在高维领域,全基因组和多基因方法增加了发现潜力,但也凸显了对严谨研究架构、多重检验校正以及关注多基因风险评分跨人群可移植性和公平性影响的需求。因果推断框架为加强病因学解释提供了补充途径,但需要谨慎对待其假设。多组学整合和机器学习扩展了该领域的机制探索和预测视野,但也引入了新的脆弱性,如假阳性发现风险增加和模型可解释性挑战。
总而言之,下一代G×D流行病学需要一个连贯的、基于高质量可比较测量、明确评估量定义和多阶段验证的证据生产流程。将膳食视为结构化的多变量暴露,将分析选择与明确的因果问题对齐,将有助于减少模糊性并改善向可操作指南的转化。结合因果推断和经过验证的多组学/机器学习工作流程,可以将G×D研究从脆弱的关联转向可复现、可解释的发现,从而更可靠地为精准营养和人群健康提供信息。