序列背景与甲基化相互作用塑造CpG位点处的种系突变率变异

《PLOS Genetics》:Sequence context and methylation interact to shape germline mutation rate variation at CpG sites

【字体: 时间:2026年06月02日 来源:PLOS Genetics 3.7

编辑推荐:

  序列背景(sequence context)与甲基化(methylation)相互作用塑造CpG位点处种系突变率(germline mutation rate)的变异,这一现象的一个突出例证是CpG位点处升高的转换(transition)率,其主要归因于胞嘧啶

序列背景(sequence context)与甲基化(methylation)相互作用塑造CpG位点处种系突变率(germline mutation rate)的变异,这一现象的一个突出例证是CpG位点处升高的转换(transition)率,其主要归因于胞嘧啶甲基化(cytosine methylation)。具不同侧翼序列的CpG亦表现出突变率差异,但该差异仅与context特异性甲基化水平呈部分相关。本研究量化了各序列背景下CpG的突变率及甲基化的致突变效应(mutagenic effect)。研究人员采用考虑复发突变(recurrent mutations)的回归框架,分析gnomAD数据集中的人类多态性(polymorphisms),分别估算每种唯一4-mer或6-mer背景下未甲基化与甲基化CpG的突变率。研究发现,人类基因组中CpG突变率变异受焦点胞嘧啶甲基化状态、侧翼核苷酸(flanking nucleotides)及二者间相互作用共同塑造,表明未甲基化胞嘧啶与5-甲基胞嘧啶(5-methylcytosine,5mC)具有不同的context依赖性突变模式。分析进一步揭示context效应主要由上游与下游序列大体独立的作用所驱动。值得注意的是,上游腺嘌呤(upstream adenine,5'A)显著升高CpG突变率,与甲基化状态及下游序列无关。此外,黑猩猩(chimpanzee)与食蟹猴(rhesus macaque)中上游与下游序列具相似效应,表明某些保守的内在序列特征塑造CpG可突变性(mutability)。另一方面,种间差异尤见于黑猩猩谱系甲基化位点,提示近期进化改变可能发生于调控DNA去甲基化(DNA demethylation)与修复过程的蛋白质之context特异性中。
本文对发表于《PLOS Genetics》的研究论文《Sequence context and methylation interact to shape germline mutation rate variation at CpG sites》进行解读总结。
研究背景与意义
突变率(mutation rate)在人类基因组内存在位点的异质性(heterogeneity),其中最强预测因子之一是局部序列背景(local sequence context)——即突变位点侧翼的核苷酸。CpG二核苷酸(CpG dinucleotide)是典型代表:脊椎动物中CpG位点的胞嘧啶发生C>T转换的频率比其他基因组位点高约一个数量级,这主要归因于DNA甲基化——脊椎动物中胞嘧啶甲基化(DNA methylation,5-methylcytosine,5mC)几乎只发生在CpG位点,5mC的自发脱氨基(spontaneous deamination)产生胸腺嘧啶(thymine),如未被正确修复则固定为C>T突变。然而,不同序列背景(如不同4-mer或6-mer上下文)的CpG突变率仍存在显著差异,且仅靠各context的甲基化水平无法完全解释该变异(既往研究显示精子甲基化水平与CpG>TpG多态性率在7-mer context下仅呈弱至中等相关,R2=0.33)。造成context效应的潜在机制可能包括DNA局部构象影响脱氨基速率、局部序列与修复酶互作影响T:G错配修复效率、DNA聚合酶保真性的序列偏好,或序列依赖性转录因子结合干扰修复。由于5mC与未甲基化胞嘧啶具不同生化属性,需将二者甲基化状态与序列背景效应解耦(decouple),分别估算未甲基化CpG与甲基化CpG在各序列背景下的突变率,方能辨析上述竞争机制。因此,研究人员开发了将甲基化水平作为连续预测变量(continuous predictor)并结合复发突变校正的回归建模框架,利用人群多态性数据量化序列背景与甲基化及其交互作用对CpG突变率的贡献,并跨灵长类比较以识别保守与分化模式。
主要关键技术方法
研究人员从hg38参考基因组提取基因间区及非进化保守区的CpG位点,标注其4-mer(N C G N)与6-mer(N N C G N N)序列背景;人类精子全基因组亚硫酸氢盐测序(whole-genome bisulfite sequencing,WGBS)数据作雄性种系甲基化水平近似;采用gnomAD v4.0及1000 Genomes Project(1KG)常染色体SNP,按次要等位频率(minor allele frequency,MAF)极化(polarize)为祖先/衍生状态并保留CpG处C>T/G>A突变;黑猩猩与食蟹猴采用对应物种测试组织EM-Seq甲基化数据及多态性数据集;家蚕(Bombyx mori)作近乎无DNA甲基化对照。建立广义线性模型(generalized linear model,GLM)自定义link函数关联多态性概率与潜在每代突变率μ(经指数变换校正复发突变饱和效应,假设合并系总分支长度T恒定),设定μ = αcontext+ βcontext× m(m为位点甲基化水平),允许各4-mer/6-mer context有独立截距α(未甲基化基线突变率)与斜率β(甲基化致突变增量),并拟合简化加性模型(up1+down1、up21+down12等)检验上下游碱基独立效应;以AIC/BIC及解释方差比较模型;用de novo mutation(DNM)数据(5420个核心家系 trio)验证估计值;跨物种比较采用相同框架。
研究结果
Interaction between methyl group and flanking nucleotides on CpG mutation rate(甲基基团与侧翼核苷酸对CpG突变率的交互作用)
研究人员将CpG按4-mer context分组,计算不同甲基化水平区间的多态性率,确认整体及分context均随精子甲基化水平上升而升高(高甲基化>25%后曲线趋平,符合高突变位点复发突变导致多态性率饱和)。通过含甲基化为连续变量的GLM校正复发突变,分别估算各4-mer context下未甲基化(α)与完全甲基化(α+β)的标度突变率(scaled mutation rate),发现16种4-mer context的突变率排序在未甲基化态与甲基化态间明显不同,证实焦点C胞嘧啶甲基化状态与侧翼碱基存在强交互作用(interaction)共同塑造CpG突变率。结果与1KG数据重现一致,且与既往基于稀有变异的3-mer/5-mer/7-mer模型及DNM率高度相关(未甲基化Pearson's r=0.82,甲基化r=0.97),验证框架可靠性。
Independent effects of upstream and downstream bases(上游与下游碱基的独立效应)
将4-mer context按5'与3'碱基排成热图显示清晰边际效应(marginal effect):5'A不论甲基化状态均强烈升高CpG可突变性;5'G降低未甲基化CpG突变率;5'T强烈降低甲基化CpG突变率;3'C降低未甲基化态突变率;3'T降低甲基化态突变率。上游碱基效应基本不受下游碱基改变影响,反之亦然,提示上下游作用大体独立。拟合仅含上游、下游碱基独立加性项之up1+down1模型,其预测值与全4-mer交互模型高度吻合(未甲基化r=0.98,甲基化r=0.99),虽AIC/BIC略优但额外解释方差极小(25.18% vs 25.14%),支持上下游碱基对CpG突变率具大体独立之贡献。
Effects of sequence context on CpG mutation rate in other primate species(其他灵长类动物CpG突变率的序列背景效应)
将框架应用于黑猩猩与食蟹猴多态性+对应甲基化数据,获得相似pattern:未甲基化与甲基化态context效应不同;up1+down1与4-mer模型高度吻合;多数边际效应跨三物种保守(5'A升、5'G/3'C降未甲基化态、5'T/3'T降甲基化态)。但在甲基化位点context效应相似性最高者为人类与食蟹猴(r=0.99),二者与黑猩猩相似度较低(人-黑猩猩r=0.91,猴-黑猩猩r=0.96),尤以下游C(3'C)在黑猩猩中正向边际效应减弱,提示黑猩猩谱系可能发生甲基化CpG context依赖突变率的近期演化偏移,可能与TET或TDG(thymine DNA glycosylase)等酶之context特异性变化有关。
Mutational asymmetry within the same CpG dinucleotide(同一CpG二核苷酸内的突变不对称性)
比较互为反向互补之4-mer context对(如ACGC与GCGT,分别对应同一CpG二核苷酸两相邻C:G碱基对之C→T突变率),发现人类同一CpG二核苷酸两C:G碱基对突变率显著不对称,方向与未/甲基化态在4对中有3对一致;5'A侧翼C:G碱基对恒更易发生突变反映上游A效应;CCGC:GCGG对中未甲基化态CCGC中C:G更突變,甲基化态差异缩小;CCGA:TCGG与GCGA:TCGC对中甲基化状态决定不对称方向。黑猩猩与食蟹猴呈现保守不对称方向,仅甲基化CCGC:GCGG对在黑猩猩反向(幅度弱),呼应黑猩猩3'C效应减弱。
Effects of expanded sequence context on CpG mutation rate in primates(扩展序列背景对灵长类CpG突变率的影响)
分析6-mer(±2 bp)context,上游二核苷酸(upstream dimer)与下游二核苷酸(downstream dimer)边际效应可辨:未甲基化位点上-游TA dimer具最强正向效应,甲基化位点上游GA或TA dimer促突变,甲基化位点下游+2位T(T+2)一致关联低突变率。比较全6-mer交互模型与仅含上游/下游二核苷酸内部交互之up21+down12模型,推断值高度相关(未甲基化r=0.95,甲基化r=0.97),说明上下游二核苷酸各自内部有交互但上下游间交互弱。再简之up2+up1+down1+down2(全加性)相关性稍降(r=0.93~0.94),提示二核苷酸内交互较重要。跨物种6-mer分析见上游CG dimer与下游GC dimer关联未甲基化低突变率、5'TA dimer跨物种促突变保守;甲基化位点人类与猴具T+2负效应而黑猩猩下游GC dimer负效应更强,再次反映种间分化。
Effects of sequence context on CpG mutation rate in an insect species with minimal DNA methylation(近乎无DNA甲基化昆虫中CpG突变率的序列背景效应)
家蚕(Bombyx mori,基因组范围DNA甲基化<1%)去除甲基化项拟合纯序列背景模型,4-mer与up1+down1模型高度吻合(r=0.98);关键边际效应与灵长类未甲基化CpG一致——5'A升高、3'C降低CpG可突变性,支持这些context效应为不依赖DNA甲基化之内禀(intrinsic)DNA序列特征,反映未甲基化CpG固有生物物理属性。
讨论与结论
研究人员提出之回归框架创新有二:将甲基化水平作连续预测变量避免人为离散分层,及显式用指数变换校正复发突变避免高突变位点突变率低估。使用精子WGBS近似雄性种系甲基化为实用近似,局限在于不能反映雌系种系或早期胚胎甲基化,故以家蚕近无甲基化系统佐证未甲基化CpG之context效应。模型假设合并系总长T基因组恒定,虽可能引入定量偏差但相对排序不受影响故以定性比较为主。
核心结论翻译如下:
CpG突变率变异由局部序列背景与焦点胞嘧啶甲基化状态之交互作用塑造。侧翼核苷酸对未甲基化与甲基化胞嘧啶具不同效应但在物种间保守,支持二者为本质上不同的突变底物(mutagenic substrates)。上游与下游侧翼序列对CpG可突变性具大体独立之影响,此规律适用于4-mer与6-mer尺度。强效边际效应包括:上游A不论甲基化状态升高CpG突变率(ACG基序超突变性在灵长类乃至家蚕中保守,暗示内在DNA构象属性);未甲基化CpG受上游CG及下游GC二核苷酸负调控;上游TA二核苷酸促未甲基化CpG突变。上下游序列模块化(modular)独立作用提示CpG context效应分子机制可能为上游与下游分别影响诱变不同步骤(如脱氨基vs错配识别/修复),而非需长距离结构互作之转录因子占用为主要驱动。跨灵长类比较显示甲基化CpG context效应于人-猴高度相似而黑猩猩谱系偏离,或反映控制主动去甲基化(如TET家族)及T:G错配修复(如TDG)之蛋白context特异性近期演化改变。该研究分离并量化了甲基化与前/后序列对CpG突变率之各自及交互贡献,为构建更精确之种系突变模型、推断自然选择及解读非编码功能区提供基础。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号