《PLOS Genetics》:The effect of long-range linkage disequilibrium on allele-frequency dynamics under stabilizing selection
编辑推荐:
本文通过分离时间尺度,量化了布默尔效应(Bulmer effect)对稳定化选择下多基因性状等位基因频率动态的显著减缓作用。研究者利用全基因组模拟验证了所推导的表达式的准确性,为理解复杂性状的遗传架构和从基因组数据中更精确地检测、量化稳定化选择提供了新的理论工具。
引言
稳定化选择,即惩罚偏离最优表型值的选择,被认为是作用于人类及其他物种许多复杂性状的一种普遍模式。其表型效应是降低性状的方差。在遗传上,它通过两种方式实现:一是通过选择整个基因组中具有补偿作用的性状增加和性状减少等位基因组合,在它们之间产生相关性(连锁不平衡,LD);二是在各个位点选择对抗稀有变异,从而侵蚀这些位点的杂合度。研究表明,稳定化选择在性状增加和性状减少的等位基因之间迅速产生负相关,即连锁不平衡,这种现象被称为布默尔效应。而后续各个位点的等位基因频率动态,则发生在长得多的时间尺度上。研究者发现,稳定化选择产生的连锁不平衡,会减缓后续个体位点的等位基因频率动态。
模型
研究者考虑了一个加性多基因性状在稳定化选择下的模型。该性状的遗传变异由L个常染色体多态性位点贡献。每个位点i有一个性状增加等位基因,频率为pi,单倍型效应为ai;以及一个性状减少等位基因,频率为qi,效应为-ai。个体的表型值Z是其加性遗传值A与环境扰动E之和。该性状围绕最优值0(任意编码)受到稳定化选择,其相对适合度由高斯适合度函数描述。研究者假设随机交配,且该性状不受稳定化选择之外的其他形式选择影响。
结果
一个简单的单一位点计算
考虑一个分离的焦点位点,忽略与其他位点的LD以及环境和基因组其他部分的表型变异。计算表明,在稳定化选择下,位点上的稀有等位基因(次要等位基因)平均而言会受到选择对抗,因为基因组的其余部分会适应位点上更常见的等位基因,使得稀有等位基因与基因组其余部分不匹配。由此推导出的等位基因频率变化公式(式5)是稳定化选择下常用的公式。然而,模拟显示这个公式高估了等位基因频率变化的速度。这主要有两个原因:一是环境和其他位点贡献的表型变异模糊了选择对每个等位基因平均表型值的信号;二是等位基因会与基因组其他地方的相反效应等位基因形成正的LD,使其携带者的平均表型值更接近零,从而削弱了该位点的选择。
背景表型方差
考虑到表型值呈正态分布,并将焦点等位基因携带者的性状值分布也建模为正态分布,研究者发现,考虑背景方差会简单地将焦点位点的选择强度稀释一个因子VP/(VP+ VS)。由此得到的等位基因频率变化预测(式10)比式5更准确,但模拟显示它仍然高估了变化速率。这是因为等位基因的平均表型值实际上比之前的预测更接近零,因为它们已经与基因组中其他地方的相反效应等位基因形成了LD。
布默尔效应
稳定化选择通过两种方式减少性状的遗传方差。首先是布默尔效应:通过偏好性状增加和减少等位基因的补偿组合,在选择性状上效应方向相同的等位基因之间迅速产生负LD。这导致性状的遗传方差快速下降,达到一个准平衡值,反映了选择产生LD和重组破坏LD之间的平衡。其次是稳定化选择诱导了对影响性状的稀有等位基因的选择,平均而言侵蚀了其位点的杂合度。对于高度多基因的性状,对稀有等位基因的选择很弱,因此它们的平均频率下降缓慢。
研究者首先计算了任何类型的LD对一个等位基因所经历的平均表型值的影响。公式(式13和14)表明,焦点位点与基因组其他因果位点之间的LD会影响该位点上等位基因所经历的平均表型值。在没有LD的情况下,公式简化为之前的简单计算结果。
在假设所有位点不连锁、且具有相同次要等位基因频率和效应大小的对称情况下,研究者推导了稳定化选择产生的LD总量,以及这些LD在特定位点对之间的预期分配。利用LD产生和稀有等位基因频率下降之间的时间尺度分离,研究者将LD的平衡程度代入计算,得到了稳定化选择下LD对等位基因频率动态的预期影响。结果表明,稳定化选择产生的LD对位点等位基因平均表型值的影响,可以通过定义一个“有效”效应大小aeff来纳入忽略LD的经典公式中,这个有效效应大小是原始效应大小的一个衰减版本。由此得到的等位基因频率变化公式(式25)在模拟中能更准确地预测因果位点的等位基因频率动态。
放宽位点间效应大小和次要等位基因频率相同的假设,在无连锁情况下,式25仍然是对单个位点频率轨迹的近似。研究者在强和弱稳定化选择下的模拟中都验证了这一点的准确性。
纳入连锁关系
接下来,研究者考虑了位点间可变的连锁关系。连锁关系会影响稳定化选择产生的LD总量。在高度多基因的极限下,由于布默尔效应导致的性状遗传方差的减少ΔG满足一个与平均重组率相关的方程。与无连锁情况类似,LD的总减少量完全是由于位点间的LD,但这种LD在期望中并不平均分配在位点对之间。相反,位点i和j之间的预期LD与它们之间的重组分数rij成反比。
对于给定的位点i,其与基因组中其他因果位点的LD之和,可以通过一个与位点i到其他位点的调和平均重组分数相关的因子来计算。这将布默尔效应对该位点等位基因所经历平均表型值的影响,再次转化为对该位点“有效”效应大小的衰减,只是这个有效效应大小取决于该位点与其他因果位点的重组关系。具有更紧密重组关系的位点上的等位基因,会与其他位点上的相反效应等位基因形成更强的平均LD,因此其个体效应被布默尔效应掩盖的程度更大,频率动态减缓也更严重。
由此得到的等位基因频率变化公式(式34)在模拟中,无论是使用人类还是果蝇的连锁图,都能很好地预测平均次要等位基因频率的变化轨迹,尤其是在果蝇这种低重组物种中,其预测比忽略布默尔效应的公式有显著改进。研究者进一步验证了在效应大小和频率可变的更一般情况下,式34的预测准确性。
然而,对于平均重组率特别低的位点,基于准平衡LD的式34会低估其等位基因频率变化,因为对于紧密连锁的位点对,LD达到平衡值的过程较慢。为此,研究者计算了每一代每一对位点之间LD的期望值序列,并将其代入公式,从而能更准确地预测特定代数后的累积等位基因频率变化。这个基于非平衡LD序列的预测,对于紧密连锁的位点表现更好。
讨论
理解复杂性状的遗传结构需要根据群体遗传模型解释基因组数据。全基因组关联研究提供了整个基因组数千个位点的等位基因效应大小估计。由于其位点特异性,需要对这些模型下的等位基因频率动态有详细理解。
本文提供的简单计算,比之前用于此目的公式更准确地预测了稳定化选择下的等位基因频率动态。其关键是纳入了稳定化选择在整个基因组中相反效应等位基因之间迅速产生的连锁不平衡。模拟验证了这些计算的准确性,表明它们可能使得基于稳定化选择群体遗传模型对GWAS等基因组数据进行更精确的定量解释成为可能。
对复杂性状遗传结构的启示
已有研究表明,对于许多人类性状,等位基因频率和效应大小的联合分布与稳定化选择下的预期一致。这些研究使用了忽略LD的式5。本文推导的更准确的公式在形式上是相似的,只是用每个等位基因的“有效”效应大小替代了其真实效应大小。因此,先前研究的定性结论不受影响,但对人类性状稳定化选择强度的估计需要向上修正,因为对于给定的选择强度,布默尔效应引起的频率动态减缓会导致位点间的平均次要等位基因频率更高。
等位基因更替与多基因评分跨群体可移植性
多基因评分在不同人群中的预测准确性常常下降,原因之一是人群间因果位点等位基因频率的差异。稳定化选择本身会加速等位基因频率动态,从而加速位点更替,降低评分的可移植性。Yair和Coop认识到布默尔效应会减缓这种动态,但为简化起见,在量化稳定化选择对祖先多态性贡献的性状方差减少的影响时,忽略了布默尔效应LD的贡献。由于布默尔效应的影响可以通过定义因果等位基因的“有效”效应大小来捕捉,因此可以简单地将其纳入相关计算中,只需用有效效应大小替换原始效应大小即可。
假设与稳定化选择下的平衡概念
许多关于稳定化选择下遗传动力学的研究都是在平衡假设下进行的。广义的平衡指表型值分布是平稳的,性状均值处于最优值,性状方差通过选择(减少方差)和突变(补充方差)之间的平衡保持恒定。虽然均值在初始偏离后会迅速达到最优值,但方差随后达到平衡的时间要长得多,因为稳定化选择下的等位基因频率动态非常缓慢。因此,假设稳定化选择下表型值分布(尤其是方差)恒定的研究,隐含着选择强度、人口统计学等的长期恒定性。这种严格的假设使得获得一些强有力的结果成为可能,但考虑到许多性状的选择强度可能随时间变化,理解平衡之外的动态也至关重要。本文采用的时间尺度分离方法,使得在非平衡条件下描述等位基因频率动态成为可能,从而放宽了长期恒定的假设,增强了理论的实用性。