《Cell Genomics》:Mapping disease loci to biological processes via joint pleiotropic and epigenomic partitioning
编辑推荐:
本研究针对当前多基因疾病遗传定位研究难以整合多效性关联与表观基因组注释的问题,开发了J-PEP(联合多效性与表观基因组分区)方法。该方法通过联合非负矩阵分解,将疾病位点划分为具有生物学一致性的集群,同时利用多效性关联和表观基因组数据。研究显示J-PEP在预测多效性和表观基因组关联方面优于单一模态方法,并通过在2型糖尿病、高血压和中性粒细胞计数等疾病中的应用,揭示了新的疾病机制轴,为精准医学提供了新见解。
随着全基因组关联研究(GWAS)的深入,科学家们发现了大量与复杂疾病相关的遗传位点。然而,这些位点如何通过不同的生物学途径导致疾病,仍然是一个巨大的黑箱。传统的“一刀切”式遗传分析难以捕捉疾病背后的异质性机制,这限制了我们从遗传发现到生物学理解再到临床应用的转化。为什么有些2型糖尿病(T2D)患者主要表现为胰岛素抵抗,而另一些则是β细胞功能缺陷?驱动高血压(HTN)的遗传因素,究竟是通过影响血管、肾脏还是内分泌系统?回答这些问题,需要一种能够同时解读遗传变异的“多效性”(即一个基因影响多个性状)和其“表观基因组”背景(即在哪些细胞类型中活跃)的新方法。
为了解决这一挑战,发表在《Cell Genomics》上的这项研究,开发了一种名为J-PEP(联合多效性与表观基因组分区)的计算新方法。该方法的核心创新在于,它不再孤立地看待疾病的遗传信号,而是将每个疾病相关的遗传位点(通过精细定位确定)视为一个多维数据点,这个点同时承载着两套关键信息:一套是它与众多其他疾病或性状(称为“辅助性状”)的遗传关联强度(即多效性图谱);另一套是它与大量不同组织或细胞类型的表观基因组标记(如染色质可及性)的关联强度(即表观基因组图谱)。J-PEP通过一种扩展的联合贝叶斯非负矩阵分解(bNMF)算法,对这两套庞大的矩阵数据进行协同分解,最终将成千上万的疾病位点自动归类到少数几个“集群”中。每个集群内的位点不仅共享相似的多效性模式(即倾向于共同影响某一组特定的辅助性状,如血脂、肥胖相关指标),也共享相似的表观基因组富集模式(即倾向于在某一组特定的组织或细胞类型中活跃)。更重要的是,J-PEP通过一种称为“组织稀疏性约束”的机制,确保每个表观基因组注释(如特定组织)最多只与一个主导的生物学通路(集群)强相关,这极大地增强了结果的可解释性。为了客观评估方法的性能,研究者还提出了一个新的评价指标——多效性与表观基因组预测准确度(PEPA),该指标衡量方法能否利用一方面的信息(如多效性)来预测另一方面的信息(如表观基因组),反之亦然。
研究团队为开展此项研究,主要依赖和分析了几类关键的公开数据资源,并应用了相应的计算技术。首先是大规模GWAS汇总统计数据,涵盖了165种焦点疾病/性状,平均样本量约29万,从中提取出经过精细定位(PIP > 0.01)的潜在因果单核苷酸多态性(SNP)。其次是表观基因组数据,包括来自EpiMap计划的32种大块组织的表观基因组注释(涵盖6种组蛋白修饰和染色质可及性标记),以及来自单细胞ATAC测序(scATAC-seq)数据的111种精细细胞类型的染色质可及性谱(涉及约61.6万个细胞核)。核心的计算方法是J-PEP算法本身,其本质是对SNP-辅助性状关联矩阵和SNP-组织关联矩阵进行联合矩阵分解,以推断共享的SNP-集群成员矩阵、辅助性状-集群轮廓矩阵和组织-集群轮廓矩阵。此外,研究还采用了模拟分析来验证方法性能,并与已有的聚类方法(如仅基于多效性的分区、仅基于表观基因组的分区、FactorGO和Flashier等)进行了系统比较。对于结果的生物学解释,则辅以基因本体(GO)富集分析。
J-PEP方法在模拟数据中表现优异
研究人员首先通过模拟实验系统评估了J-PEP的性能。模拟设定包含5个预先定义好的因果集群,每个集群有其独特的辅助性状和组织关联模式。结果表明,在重构真实的集群轮廓方面,J-PEP的误差(Frobenius范数误差)显著低于仅使用多效性信息或仅使用表观基因组信息的方法。随着因果SNP数量的增加(从100个到400个),J-PEP的优势更加明显。更重要的是,使用新提出的PEPA指标进行评估,J-PEP的预测准确度始终高于对比方法。例如,当有400个因果SNP时,J-PEP的PEPA值比多效性分区方法高19%,比表观基因组分区方法高38%。这些模拟结果证明,J-PEP能够更有效地利用两类信息的互补性,更准确地揭示数据背后隐藏的集群结构。
J-PEP解析2型糖尿病的非经典致病通路
将J-PEP应用于大规模的T2D遗传数据(超过42万病例和210万对照)后,研究成功识别出7个具有不同生物学意义的遗传集群。这些集群不仅复现了已知的T2D致病通路,如与胰岛素分泌相关的β细胞通路(集群2,富集于胰腺胰岛细胞)和与肝脏脂质代谢紊乱相关的胰岛素抵抗通路(集群3,富集于肝细胞),还揭示了一些以往关注较少的“非经典”通路。例如,集群1与红细胞性状和上皮组织相关,单细胞数据将其精确定位到甲状腺滤泡细胞,GO富集分析提示与上皮-间质转化和氧化应激有关,可能反映了一种与应激相关的、影响胰岛素信号的过程。集群6与肥胖相关性状和免疫组织相关,单细胞细化指向巨噬细胞,并富集炎症信号和产热相关通路,提示免疫-代谢调控在能量平衡和T2D中的作用。集群7则与肝酶和甘油三酯关联,其代谢特征表明了一个独立的肝脏代谢机制轴。这些发现凸显了T2D遗传结构的高度异质性,J-PEP有助于将看似混杂的遗传信号分解为更同质的生物学通路。
J-PEP识别高血压的基质和内分泌致病轴
对于高血压(HTN),J-PEP分析揭示了两个主要集群。集群1与基质组织(如间皮细胞)相关,GO项富集于Wnt信号和细胞骨架重塑,提示细胞外基质(ECM)重塑和血管僵化可能是通过间皮细胞驱动的,这是已知的高血压血管阻力增加机制。集群2与内分泌组织(如肾上腺皮质细胞)相关,GO项突出中性粒细胞介导的免疫,表明醛固酮信号与局部免疫活动之间存在潜在的相互作用。与之前主要基于代谢共病(如肥胖、血脂)的HTN聚类研究相比,J-PEP发现的集群提供了从组织微环境和神经内分泌-免疫轴角度理解高血压遗传基础的新视角。
J-PEP揭示中性粒细胞计数的免疫、肝脏和神经炎症调控轴
研究人员还将J-PEP应用于中性粒细胞计数(NC)这一重要的免疫性状。分析确定了三个集群:集群1主要富集于造血干细胞/祖细胞和巨噬细胞,涉及趋化性、免疫激活和抗菌反应,代表了经典的免疫调控通路。集群2表现出一致的肝脏特征(精确定位到肝细胞),并与血小板相关性状关联,提示肝脏-炎症通路可能参与中性粒细胞的调控。集群3则与脑组织特征相关,单细胞数据细化到谷氨酸能神经元和少突胶质细胞,指向神经系统对免疫稳态的潜在调控作用。这是首次从遗传学角度系统揭示NC的多通路调控机制,为理解炎症性疾病的异质性提供了新线索。
单细胞表观基因组数据提升细胞类型分辨率
本研究的一个重要优势是整合了单细胞表观基因组数据(J-PEP-CT)。结果显示,单细胞数据能够将J-PEP从大块组织数据中识别出的关联进一步细化到具体的细胞类型。例如,对于T2D,与内分泌/胰腺组织相关的集群被精确到胰腺β细胞;对于HTN,与内分泌/肾脏组织相关的集群被精确到肾上腺皮质细胞类型。这种细胞类型水平的分辨率大大增强了对集群生物学机制的解释能力,表明J-PEP框架能够有效利用日益丰富的单细胞数据资源。
本研究通过开发J-PEP这一创新性计算方法,成功实现了对复杂疾病遗传异质性的多模态、高分辨率解析。该方法的核心价值在于其能够整合遗传多效性和表观基因组信息,将混杂的疾病遗传信号分解为具有一致生物学意义的子类或通路。研究不仅在方法学上证明了联合建模的优势,更重要的是通过对T2D、HTN和NC等典型性状的深入分析,揭示了以往被掩盖的致病机制轴,例如T2D中的免疫-代谢和发育成分、HTN中的基质重塑轴以及NC中的肝源性和神经源性调控通路。这些发现深化了我们对疾病病理生理学的理解,为未来开发针对特定疾病亚型的精准预防和治疗策略提供了重要的遗传学基础。J-PEP作为一个通用的分析框架,有望广泛应用于其他复杂性状和疾病的研究中,推动遗传学发现向临床转化的进程。