编辑推荐:
本文介绍了一种创新的生物信息学流程,用于整合高通量转录组和代谢组数据,旨在解决多组学数据融合的挑战,为代谢综合征(MetS)构建概念性不良结局通路网络(cAOPN)。该研究结合了单变量差异表达(UD)分析与多变量整合模型(MIM),并利用SGBS人脂肪前体细胞暴露于经典致肥物三丁基锡(TBT)的实验数据,揭示了与脂质调控、铁转运、细胞信号及代谢紊乱相关的分子机制,为系统性地解析复杂疾病的致病通路提供了新的方法论框架,有助于支持风险评估和政策决策。
随着科学技术的进步,生命科学研究进入了一个“大数据”时代。特别是组学(Omics)技术,如基因组学、转录组学、代谢组学等,能够在一次实验中产生海量的生物信息。这就像我们拥有了一张描绘生命活动细节的、无比精细的地图。但是,地图本身并不能告诉我们一条从起点到终点的具体路径,也无法解释疾病是如何一步步发生的。这正是当前生物信息学面临的核心挑战:如何将这些庞杂、异构的数据整合起来,转化成可理解、可利用的知识,特别是用于预测化学物质或环境暴露可能带来的不良健康效应。
在此背景下,不良结局通路(Adverse Outcome Pathway, AOP)及其网络(AOPN)的概念应运而生。AOP提供了一个框架,旨在描绘从一个分子起始事件(Molecular Initiating Event, MIE,如化学物质与靶点结合)开始,引发一系列关键事件(Key Events, KEs,如信号通路改变、细胞功能紊乱),最终导致一个不良结局(Adverse Outcome, AO,如疾病)的因果链条。然而,现实中的疾病,尤其是像代谢综合征(Metabolic Syndrome, MetS)这样的复杂系统性疾病,往往不是单一线性路径所能概括的。它们更像是错综复杂的交通网络,涉及多条通路的交互、汇合与反馈。目前,AOP的开发面临诸多瓶颈:现有AOP多是定性的线性路径,难以反映网络的复杂性;从多层面组学数据构建AOP的方法有限;从分子扰动推断出具有方向性的因果关系尤为困难。
为了攻克这些难题,一项发表在《Environment International》上的研究,提出并验证了一套新颖的、自上而下的“概念性AOP网络(cAOPN)”构建方法。研究人员聚焦于全球患病率高达40%以上的代谢综合征,选择了一个经典的“致肥物”——三丁基锡(Tributyltin, TBT)作为模型胁迫因子,利用人辛普森-戈尔比-贝梅尔综合征(Simpson-Golabi-Behmel syndrome, SGBS)脂肪前体细胞系,来模拟早期化学暴露对脂肪细胞分化与功能的长期影响。他们创造性地将单变量统计分析与多变量整合模型相结合,对暴露组和对照组的转录组与代谢组数据进行了深度挖掘与融合分析,最终构建出一个描绘TBT暴露如何通过多机制网络导致MetS相关疾病表型的cAOPN,为系统性疾病的机制解析和风险评估提供了全新的方法论工具。
为了完成这项研究,作者团队主要采用了以下关键技术方法:首先,利用SGBS脂肪前体细胞进行体外培养和分化,并在分化初期(d0-d4)暴露于25 nM浓度的TBT,模拟早期生命暴露窗口,于分化第10天(d10)收集样本。其次,运用安捷伦(Agilent)微阵列芯片进行全基因组转录组分析,以及高效液相色谱-高分辨质谱(HPLC-HRMS/QTOF)联用技术进行非靶向代谢组学分析,分别获取基因表达和代谢物丰度数据。最后,开发了一套基于R语言的计算分析流程,核心包括:1)采用单变量差异表达(Univariate Differential expression, UD)分析(如limma包)和多变量整合建模(Multivariate Integrative Modeling, MIM)分析(如DIABLO方法)识别扰动特征(Perturbed Features, PFs,包括差异表达基因DEGs和差异表达代谢物DEMs);2)对PFs进行通路富集分析(Over-Representation Analysis, ORA)和疾病关联分析(利用KEGG、Reactome、DisGeNET等数据库);3)利用igraph包进行网络分析,可视化PFs-通路-疾病的关联;4)基于Jaccard相似性指数进行层次聚类分析,依据PFs的表达指纹(指纹)相似性对通路和疾病进行聚类,以推断事件发生的可能顺序。
3.1. 体外分析
研究人员证实,在SGBS脂肪细胞分化早期(d0-d4)进行短期TBT暴露,足以在暴露停止6天后(d10)仍能持续上调脂肪生成标志物(如PLIN1和FABP4)并增加脂质积累,表明早期致肥物暴露具有持久的影响,成功再现了先前研究的核心表型,为后续分子机制分析提供了可靠的生物学基础。
3.2. 线性回归与多变量整合建模分析
通过UD分析,共识别出1059个注释明确的差异表达基因(DEGs)和25个差异表达代谢物(DEMs)。而通过MIM分析(DIABLO方法),则从跨组学数据中提取了30个基因和3个代谢物作为最具整合信号的特征。两种方法共同识别出一些关键分子,如转谷氨酰胺酶2(TGM2)和多种磷脂酰胆碱(Phosphatidylcholines, PCs),暗示了它们在TBT诱导代谢紊乱中的可能作用。
3.3. 网络分析
将UD和MIM分析得到的PFs映射到通路和疾病数据库后,分别构建了关联网络。UD分析的网络规模更大,突出了与炎症/细胞应激反应、激素信号、胆固醇和脂质积累相关的高度关联特征和疾病(如高脂血症、高血压)。MIM分析虽然特征数少,但其网络揭示了在细胞粘附、酶活性和代谢方面的潜在核心驱动因子。两种方法共同识别出左心室肥厚和高甘油三酯血症等疾病,以及脂联素信号通路、脂肪酸生物合成等22条共同通路,显示了方法间的互补性。
3.4. 聚类分析
基于Jaccard相似性的层次聚类分析,将具有相似扰动特征表达谱的通路和疾病聚在一起,为事件序列提供了可视化线索。例如,UD分析结果中,“胆固醇代谢”、“脂肪酸和脂蛋白在肝细胞中的转运”等通路与“黄瘤病”疾病被聚在同一簇;“HIF-1信号通路”、“AGE-RAGE信号通路”与“心脏骤停”聚在一起。这种聚类关系为构建具有方向性的cAOP提供了数据驱动的排序依据。
3.5. 概念性不良结局网络
最终,研究人员整合UD分析的结果,构建了一个针对MetS的cAOPN。该网络提出了三个主要的分子起始事件:PPARγ上调、生长过程失调(通过IGF1和LEP下调、GHR上调)以及细胞稳态失调。这些MIE引发了一系列关键事件,最终导向多种与MetS相关的疾病结局,包括心脏结局(心脏骤停)、脂质紊乱(内脏性肥胖、黄瘤病)、前驱糖尿病指标(胰岛素抵抗)和肝脏疾病(酒精性脂肪肝)。值得注意的是,网络中还提示了骨代谢紊乱的可能性。
在讨论与结论部分,研究强调了所提出方法的创新性与重要意义。首先,该方法是对传统“自下而上”(从单一机制开始验证)AOP开发模式的重要补充。它提供了一种“自上而下”的高通量假说生成与优先排序工具,能够从复杂的多组学数据中,系统地梳理出潜在的、网络化的致病轨迹蓝图,尤其适用于像MetS这样的多因素系统性疾病。其次,通过结合UD(广度)和MIM(深度与整合)两种统计方法,并辅以网络分析和基于Jaccard相似性的聚类,该流程能够更全面地捕捉生物信号,并将统计关联重组为具有潜在时序性的生物学事件序列。尽管当前分析基于单时间点、单剂量的实验数据,尚不能确立严格的因果关系,但其通过“生物三角验证”(与已有文献和通路数据库比对)确保了所发现机制的合理性。
该研究也指出了现有AOP知识库(如AOP-Wiki)在MetS等复杂疾病覆盖面上的不足,凸显了此类数据驱动方法在填补知识空白方面的价值。此外,研究证实了脂肪细胞作为一种“哨兵”细胞类型的潜力,其分子扰动能够反映出远超出脂肪组织本身的系统性健康效应。最后,作者明确表示,这套方法学框架旨在为后续更深入、更耗时耗资源的剂量-反应研究和时间序列研究提供优先方向和假设基础,而非做出最终因果断言。它代表了在整合异质大数据、迈向可解释的系统毒理学和预测健康风险评估道路上的重要一步。