《SCIENCE ADVANCES》:Ancient Yellow River ancestry and divergent admixture histories in the Qiang people
编辑推荐:
本研究通过高覆盖度全基因组测序揭示羌族作为中国基因库基底层的关键地位,系统解析其5300年前黄河流域祖先起源、汉藏双向混合驱动的亚群分化机制,以及高原适应性相关基因(如ANKRD36)的演化特征,为东亚人群遗传历史与高原适应研究提供重要范式。
在西南中国险峻的高山峡谷间,生活着自称“云朵上的民族”的羌族。他们被认为是古代狄羌部落的直接后裔,拥有超过3000年的文字记载历史,在中华民族的早期形成与藏缅语系人群的演化中扮演过关键角色。考古学家在黄河中上游及羌族核心聚居地茂县发现的陶器、粟种等遗存,暗示其与仰韶新石器文化存在深刻联系。然而,尽管人类学与考古学提出羌族可能是青藏高原东南缘古代居民的后裔,但遗传上的连续性一直存在争议。漫长的迁徙与混居历史,使得现代羌族的祖先叙事变得错综复杂。
以往的研究多聚焦于羌族的父系与母系遗传标记,揭示了其北部亚洲起源及古老的种群历史。但Y染色体与线粒体DNA的分辨率有限,难以重构复杂的混合动态。一项基于基因芯片的研究曾提出羌族可能源于南北中国祖先的混合,但芯片技术难以解析精细结构,也无法有效检测对少数民族研究至关重要的群体特异性变异。加之羌族生活在连接四川盆地与青藏高原的过渡地带,使其成为研究基因组适应性,特别是高原适应性的关键群体。这些空白呼唤着一次高分辨率、全基因组层面的深入探索。
为此,研究人员对来自羌族最大聚居地四川茂县的20名无关个体进行了高覆盖度(32×)全基因组测序,并与藏族人、汉族人及全球其他人群的基因组数据进行了系统性比较分析。他们进一步整合了约450个古代亚洲人基因组,时间跨度从4万年前至400年前,以期追溯羌族的深层祖先来源。
本研究主要运用了几项关键技术方法:首先,利用全基因组测序技术获取了高质量的羌族遗传变异数据;其次,通过主成分分析(PCA)、ADMIXTURE混合成分分析、系统发育树构建等群体遗传学方法解析羌族群体遗传结构;第三,采用FST遗传分化统计、相对差异(RD)分析、身份同源(IBD)片段共享分析、局部祖先推断(使用HAPMIX软件)等手段探究近期基因流;第四,运用MSMC2和MSMC-IM进行基于溯祖理论的群体历史推断,包括有效群体大小(Ne)和种群分化时间估计;第五,利用MultiWaverX软件拟合羌族的混合历史模型;第六,通过群体分支统计(PBS)、整合单倍型分数(iHS)、跨群体扩展单倍型纯合度(XP-EHH)等分析检测自然选择信号;最后,结合基因年龄估计(GEVA)和单倍型网络分析探讨特定适应性等位基因的演化历史。样本队列主要来源于四川茂县的羌族个体。
群体结构与遗传组成
主成分分析显示,羌族样本沿第一主成分呈双峰分布,形成两个明显簇群:一个与汉族聚类紧密,另一个则与藏族靠近。通过无监督层次聚类,20个羌族样本被均等地划分为两个遗传上不同的亚群,分别命名为羌族H(Qiang_H,汉族影响显著)和羌族T(Qiang_T,藏族关联更强)。最大似然系统发育树确认两者均属于藏缅语支,但羌族T与藏族聚为一支,羌族H则更接近汉族。ADMIXTURE分析在假设12个祖先成分(K=12)时获得最小交叉验证误差,结果显示羌族T的主要祖先是深蓝色代表的北部 ancestry(占69.33%),与藏族(69.61%)最为接近;而羌族H中该成分占51%,且含有更高比例的南部东亚祖先成分(33.21%),与汉族(48.91%)更为相似。
混合驱动的亚群分化
遗传分化分析表明,羌族H与北方汉族的遗传距离(FST= 0.0015 ± 0.0004)极小,而与羌族T之间的分化(FST= 0.0046)显著大于汉族内部南北分化。相对差异(RD)分析、IBD共享分析和局部祖先推断均一致表明,不对称的近期基因流是亚群形成的主要驱动力:羌族H接受了大量来自汉族的基因流,而羌族T则主要受到藏族的影响。这种差异性的混合模式导致了两个亚群截然不同的遗传背景和演化轨迹。
遗传起源与人口历史
古代DNA分析将羌族定位在主要遗传支系的交汇点。羌族H与古代东南亚沿海人群聚类,而羌族T则与古代青藏高原人群对齐。外群f3统计显示,两个羌族亚群与黄河中上游古代人群(如约5300年前的庙子沟中期新石器时代样本China_Miaozigou_MN)共享最多的遗传漂变,支持其黄河流域起源。D统计进一步确认庙子沟人群是羌族亚群分化前最近的共同祖先来源。基于MSMC和MSMC-IM的溯祖分析估计羌族H和羌族T的分化时间约为4100年前。MultiWaverX混合模型拟合表明,祖先羌族(aQiang)大约在4700年前由古代汉族、古代藏族祖先及少量古代狄羌特异性成分混合形成。随后,在历史不同时期(如魏晋南北朝、吐蕃帝国扩张、元明时期),不对称的汉藏基因流注入,最终塑造了现今的羌族H和羌族T亚群。
羌族亚群间的遗传分化
研究人员在羌族H和羌族T之间鉴定了6664个高度分化的遗传变异(top 0.1% FST),其中59%为表达数量性状位点(eQTL),显著富集于神经元相关通路。对已知性状相关基因的分析发现,高原适应性基因(如EPAS1, EGLN1)未显示分化,但在色素沉着和乙醇代谢基因中观察到显著差异。例如,与色素沉着相关的BMPR1B基因eQTLs(如rs2114533, rs6815969)的衍生等位基因在羌族H中频率(0.6)远高于羌族T(0.1),可能通过上调BMPR1B抑制黑色素生成,导致肤色差异,且这种分化受到混合和选择的共同影响。在乙醇代谢方面,四个ADH1C基因的eQTLs(如rs1442493)衍生等位基因在羌族H中频率(0.8-0.85)显著高于羌族T(0.25),提示羌族H可能具有更强的乙醇转化为乙醛的能力。单倍型分析显示,这些变异在羌族H中受到近期正选择。此外,ADH1B基因的保护性变异rs1229984-T的频率在羌族H(0.65)和羌族T(0.2)间的差异主要由混合导致。
局部适应
通过群体分支统计(PBS)分析,研究人员寻找羌族群体可能共有的适应信号。他们发现了95个在羌族H和羌族T的PBS分析中重叠的候选变异。这些变异主要集中在三个基因组区域,其中最引人注目的是位于2号染色体ANKRD36基因内的一个错义变异rs143216880(c.3065C>T, p.Ser1022Phe)。该变异(rs143216880-T)在羌族中频率较高(羌族H: 0.3;羌族T: 0.35),而在汉族(0.045)和藏族(0)中频率极低,全球范围内也非常罕见。与该错义变异强连锁的11个eQTLs均能下调ANKRD36表达。ANKRD36被认为与血压调节有关,其功能缺失可能与慢性高原缺氧环境下增强器官灌注和氧气输送的适应性相关。单倍型网络和等位基因年龄估计(约4.6万年)支持该单倍型在羌族中的古老性,提示其可能是在羌族适应中度高原环境过程中被保留或选择的古老适应性变异。
综上所述,本研究通过对羌族人群的高覆盖度全基因组分析,揭示了其作为中国基因库基底层的重要地位,证实了其约5300年前黄河流域农民的祖先起源。研究阐明了历史时期汉藏双向不对称基因流是驱动羌族内部形成遗传分化显著的羌族H和羌族T亚群的主要力量。此外,研究还发现了可能与中度高原环境适应性相关的ANKRD36基因位点,以及由混合和选择共同塑造的色素沉着、乙醇代谢相关基因的分化模式。这些发现不仅解决了关于羌族起源的长期争论,为理解青藏高原边缘人群的遗传历史和高原适应性提供了关键见解,也凸显了开展针对少数民族的高分辨率基因组研究,以及构建群体特异性参考基因组和泛基因组参考对于全面揭示人类遗传多样性,特别是亚洲人群复杂演化历史的重要性。该研究论文发表在《科学进展》(Science Advances)期刊上。