《Nature Genetics》:Estimation of direct and indirect polygenic effects and gene–environment interactions using polygenic scores in case–parent trio studies
编辑推荐:
研究人员提出了 PGS-TRI,这是一个用于分析病例–父母三联体研究中多基因评分(PGSs)的框架,可估计与指征疾病风险相关的直接 PGS 效应、基因–环境相互作用以及不对称的母源和父源间接效应。模拟结果证实,在复杂群体结构和选择性交配存在的情况下,该方法具有
研究人员提出了 PGS-TRI,这是一个用于分析病例–父母三联体研究中多基因评分(PGSs)的框架,可估计与指征疾病风险相关的直接 PGS 效应、基因–环境相互作用以及不对称的母源和父源间接效应。模拟结果证实,在复杂群体结构和选择性交配存在的情况下,该方法具有稳健性。将该方法应用于多祖源自闭症谱系障碍(ASD)三联体(ntrio?=?18,383)后,PGS-TRI 沿遗传祖源连续体得到了 ASD 及其他神经认知性状 PGS 的基于传递的直接效应,并识别出父母体重指数(BMI)及神经认知性状 PGS 对儿童 ASD 风险的不对称间接效应。在一项欧洲人与亚洲人口腔面裂(OFCs)三联体研究(ntrio?=?1,904)中,PGS-TRI 估计了一个既有 PGS 的直接与间接效应及其与母体风险因素的相互作用。最后,研究人员将 PGS-TRI 应用于大规模转录组范围(transcriptome-wide)和代谢组范围(metabolome-wide)性状,以检验这些性状对 ASD 和 OFC 风险的直接和间接效应。
该论文发表于《Nature Genetics》,核心工作是提出并验证一种适用于病例–父母三联体设计的多基因评分分析框架 PGS-TRI,用于在家庭基础研究中同时估计子代疾病风险所对应的直接遗传效应、基因–环境相互作用以及父母多基因评分介导的间接遗传效应。研究背景在于,既往大规模全基因组关联研究(GWAS)广泛用于构建复杂性状的多基因评分(PGS),但在非亲缘个体样本中,尽管通常使用遗传主成分(PCs)校正群体分层,仍可能因地理结构残余混杂和选择性交配而高估遗传效应。这种偏倚会影响风险预测、孟德尔随机化及跨祖源可迁移性的解释。家庭基础研究由于依赖家系内部比较,天然能够减轻群体分层相关偏倚,并且在具有父母基因型信息时,还能够评估父母遗传变异通过环境或养育路径影响子代结局的间接效应。然而,现有方法多针对定量性状或随机抽样家系,难以直接适用于病例先证者招募的病例–父母三联体设计;已提出的多基因传递不平衡检验(pTDT)虽能检验传递偏离,却不能在合适风险尺度上提供效应量估计,也难以处理基因–环境相互作用与亲代间接效应。因此,发展兼具稳健性、可解释效应量和扩展能力的新方法具有明显必要性。
研究人员围绕这一问题建立了 PGS-TRI 模型。该框架在对数线性(log-linear)风险模型下,将子代结局与子代继承的 PGS 直接效应、PGS×E 相互作用以及父母 PGS 的间接效应联系起来,同时允许不同家庭的疾病基线风险以及 PGS 分布均值、方差灵活变化。理论上,研究人员证明了病例–父母三联体中的回顾性似然可分解为“传递成分”和“亲代成分”:前者基于子代 PGS 相对双亲中点 PGS 的偏离来识别直接效应及基因–环境相互作用;后者则利用父母 PGS 分布中的不对称性估计母源与父源间接效应之差。由于这种建模不依赖严格的群体均质假设,并通过家系内比较进行推断,因此对复杂群体结构和选择性交配具有较强鲁棒性。模拟研究进一步显示,该方法在多种情境下可得到无偏效应估计、良好控制的 I 类错误率与校准置信区间;与常规 logistic 回归相比,在存在群体分层、环境分布与 PGS 共变时,PGS-TRI 更稳健,而 pTDT 虽能有效检验直接效应,却不能直接提供适宜的效应大小估计。
本研究使用的主要关键技术方法包括:基于病例–父母三联体的对数线性风险建模与回顾性似然分解;利用家系内传递不平衡统计量及家系内方差构建直接效应和 PGS×E 相互作用的闭式估计;利用父母 PGS 差值估计母源/父源不对称间接效应;通过大规模模拟、UK Biobank(UKB)匹配父母与模拟子代数据评估稳健性;在 SPARK 联盟 ASD 三联体(n
trio?=?18,383)与 GENEVA OFC 三联体(n
trio?=?1,904)中开展应用;并结合 OMICSPRED 构建的转录组和代谢组预测性 PGS 进行发现性分析。
以下为研究结果解读。
Overview of methods
研究首先给出了 PGS-TRI 的总体框架。研究人员在病例–父母三联体中,将子代指征疾病风险建模为子代 PGS 直接效应、PGS×E 相互作用及父母间接效应的函数,并证明参数可由闭式形式估计。直接效应通过传递不平衡统计量并结合家系内 PGS 方差进行缩放得到;基因–环境相互作用通过家系间传递不平衡统计量与环境因素的协方差估计;母源与父源间接效应之差则利用家庭内父母 PGS 的平均差异并经方差参数缩放获得。这一部分奠定了方法学基础,也解释了为何该框架兼具稳健性与可解释性。
Simulation studies
模拟研究显示,PGS-TRI 在模型正确设定下对不同参数均产生无偏估计,I 类错误率控制良好,置信区间校准准确。对直接效应而言,pTDT 与 PGS-TRI 的检验功效相同,但 pTDT 不能给出可比较的风险尺度效应量。对于非亲缘病例–对照 logistic 回归,在家庭间 PGS 均值与疾病风险相关时,直接效应估计会出现偏倚;在复杂群体亚结构使疾病风险、暴露分布和 PGS 分布共同变化时,logistic 回归和仅病例分析在 PGS×E 相互作用推断上也会明显偏倚。若可获得病例–对照参与者的父母基因型,logistic 回归可估计亲代差异性间接效应,但在无群体分层时其对直接效应更有功效,而 PGS-TRI 对检测不对称间接效应更有功效。进一步基于 UKB 的仿真表明,在地理结构和选择性交配并存时,即便校正遗传 PCs 与地理坐标,logistic 回归仍可能偏倚;PGS-TRI 总体保持无偏。研究还注意到总体样本中母亲与父亲 PGS 均值可能存在微小差异,从而对间接效应差值估计造成轻度偏移;采用外部总体中的性别均值差进行中心化后,该问题得到控制。基于 snipar 的 20 代选择性交配模拟同样支持 PGS-TRI 的稳健性和效率优势。
Polygenic risk for ASD
在 SPARK 多祖源 ASD 三联体中,研究人员首先评估了来源于欧洲祖源 iPSYCH 研究的 ASD–PGS 对 ASD 风险的作用。在欧洲祖源家庭中,PGS-TRI 得到的直接效应相对风险(RR)为 1.28,略低于既往以非亲缘病例–对照为主的 iPSYCH 报道比值比(OR)1.33,但整体量级相近,提示先前人群 GWAS 中未校正群体分层并未造成明显偏倚。在美洲混合祖源和南亚祖源家庭中,也观察到显著直接效应;但在非洲和东亚祖源家庭中未见显著直接效应。研究未发现 ASD–PGS 的显著不对称间接效应。
随后,研究人员针对不同祖源间效应异质性提出假设:PGS 的直接效应会随目标样本与训练人群遗传距离增加而衰减。纳入所有 18,383 个三联体并以遗传主成分定义连续遗传距离后,结果显示 ASD–PGS 对 ASD 风险的对数风险效应随遗传距离线性下降,且 PGS×context 相互作用高度显著。这说明欧洲祖源训练得到的 PGS 在祖源连续体上的可迁移性呈连续衰减,而非简单的“可用/不可用”二分状态。
在环境相互作用方面,研究考察了 ASD–PGS 与若干产前和围产期因素的关系,整体未见强证据支持显著相互作用,提示多基因风险与环境因素总体上在 ASD 风险中更接近相乘作用。仅母亲孕期饮酒在全样本和欧洲祖源样本中显示名义显著的修饰作用。
进一步地,研究分析了多种神经认知和精神相关性状 PGS 及 BMI–PGS 与 ASD 风险的关系。多数神经认知性状 PGS 显示显著直接效应,其模式与既往人群研究一致。作为负对照,BMI–PGS 不显示对子代 ASD 风险的直接效应,符合儿童自身 BMI 遗传倾向不应直接导致发育性疾病风险改变的预期。值得注意的是,研究检测到多种性状 PGS 的母源介导不对称间接效应,其中 ADHD、双相障碍 2 型、重性抑郁和神经质等若干性状的间接效应差值甚至大于其直接效应。同时,BMI–PGS 存在显著母源介导间接效应,与流行病学中母体肥胖影响子代健康结局的观察一致。敏感性分析表明,在使用 UKB 欧洲祖源已婚参与者的男女 PGS 均值差进行中心化后,多数结果仍然稳健。
在发现性分析中,研究人员利用 OMICSPRED 生成的基因表达和代谢物性状 PGS 评估其对 ASD 风险的直接和间接作用。结果显示,遗传预测的 CADM2 表达与 ASD 风险存在显著直接效应,这一发现跨祖源和仅欧洲祖源分析均得到支持。CADM2 已知在脑中高度表达,并参与突触组织和神经元活动,其与精神和行为相关表型已有较多遗传学证据。研究还利用 GTEx v8 脑组织预计算权重进行了补充验证。相反,未观察到基因表达或代谢物评分的显著间接效应;转录组范围分析的 Q–Q 图提示 PGS-TRI 在大规模分子性状筛查中具有良好的校准性。
Polygenic risk of OFCs
在 GENEVA 研究的欧洲与亚洲 OFC 三联体中,研究人员应用 PGS-TRI 分析既有 OFC–PGS 的作用。结果表明,该 24 SNP 构成的 PGS 在不同亚型——包括单纯唇裂(CL alone)、唇裂合并腭裂(CL&P)以及合并分析的 CL/P——中均表现出强而一致的直接效应,且在欧洲和亚洲样本中方向一致、量级接近既往研究。对于解剖学和胚胎学上不同的单纯腭裂(CP alone),则未见显著关联,这与原始 PGS 基于 CL/P 亚型建立的事实相符。总体跨祖源分析未发现亲代 PGS 的不对称间接效应,但在仅欧洲祖源的单纯唇裂分析中,存在母源介导间接效应的名义显著证据。
在 OFC 的基因–环境相互作用方面,研究考察了 OFC–PGS 与母体孕期吸烟、饮酒、复合维生素使用及环境烟草暴露,以及与子代性别的相互作用。在欧洲人群中,研究发现母体孕期吸烟可修饰 OFC–PGS 对单纯唇裂及合并 CL/P 的直接效应,母体环境烟草暴露对 CL&P 也显示较弱相互作用信号。亚洲样本中未见显著结果,但研究指出暴露比例极低导致统计功效有限。此外,研究还在欧洲样本中观察到 PGS 与性别对 CL&P 风险的相互作用,而亚洲样本方向相反,可能在跨祖源汇总时相互抵消。
在转录组范围分析中,研究发现遗传预测的 TRAF3IP3 表达对 CL/P 风险具有强直接效应,且在亚洲人群中的关联似乎强于欧洲人群。由于 TRAF3IP3 区域中的 rs2235370 先前已被报告为 CL/P 相关哨兵位点,研究进一步通过连锁不平衡剔除分析和基因型 TDT 证明,该区域一个单倍型可能对 OFC 风险具有保护作用,而这一效应很可能通过 TRAF3IP3 表达水平介导。与 ASD 结果类似,研究未在 OFC 中发现转录组或代谢组 PGS 的显著不对称间接效应,也未见代谢物 PGS 的显著直接效应。
Discussion
讨论部分强调,PGS-TRI 扩展了病例–父母三联体设计在后 GWAS 时代的用途,使研究者能够在稳健控制群体结构和选择性交配偏倚的前提下,获得 PGS 的直接效应估计、评估 PGS×E 相互作用,并利用父母间 PGS 不对称性推断母源或父源介导的间接效应差值。针对 ASD,研究结果支持既往欧洲祖源 PGS 风险估计总体可靠,同时明确展示了 PGS 效应随遗传祖源偏离训练人群而连续衰减的规律,这对于跨祖源可迁移性评估具有重要意义。针对 OFC,研究建立了多个亚型和不同祖源中的传递基础效应估计,并提示母体吸烟相关环境可能与聚合遗传风险共同作用。整体上,ASD 与 OFC 的分析及功效评估均提示,PGS 与母体风险因素在相对风险尺度上通常更符合乘法作用模式。
研究也审慎指出了局限性。该框架目前只能稳健估计母源与父源间接效应之差,而不能在弱假设下分别估计二者;基因–环境相互作用目前仅针对子代直接 PGS 效应建模;若存在由多效性导致的真实基因–环境相关,解释需谨慎;父母参与选择偏倚或儿童并未同时暴露于双亲环境时,不对称间接效应估计可能受影响;而 OMICSPRED 分子性状评分基于成人样本训练,对儿童和胎儿阶段发育性结局的解释能力可能有限。
研究结论部分可概括为:研究人员提出的 PGS-TRI 为病例–父母三联体中的多基因评分分析提供了一个新框架,可稳健估计直接遗传效应、基因–环境相互作用以及母源/父源不对称间接遗传效应。该方法在模拟、ASD 与 OFC 实证分析中均表现良好,并可拓展到转录组范围和代谢组范围的发现性研究。该框架为在病例先证家系中更稳健地刻画 PGS 相关风险、并将其与罕见突变及非遗传危险因素联合分析,提供了重要方法学基础。