机器学习揭示邻苯二甲酸二(2-乙基己基)酯在肺动脉高压中的分子靶点

《Frontiers in Bioinformatics》:Machine learning identifies molecular targets of Di (2-ethylhexyl) phthalate in pulmonary arterial hypertension

【字体: 时间:2026年03月20日 来源:Frontiers in Bioinformatics 3.9

编辑推荐:

  本研究聚焦于环境污染物邻苯二甲酸二(2-乙基己基)酯(DEHP)如何诱发肺动脉高压(PAH)的分子机制难题。研究人员整合生物信息学和机器学习技术,识别出12个DEHP调控PAH进程的核心基因靶点,并揭示了其干扰血管稳态的潜在途径。该工作为理解环境因素致PAH的病因学及开发精准预防策略提供了新见解。

  
在生命科学领域,探索复杂疾病的成因,尤其是环境污染物如何悄无声息地“重写”我们的健康密码,一直是巨大的挑战。肺动脉高压(PAH)就是一种典型的、病因复杂的严重心肺疾病,其病理过程涉及遗传、环境和细胞信号网络等多个层面的交互作用。尽管像骨形态发生蛋白受体2(BMPR2)基因突变这样的遗传因素已被确认,但仍有相当一部分PAH病例无法用已知原因解释,暗示着环境因素扮演了关键但未被充分认知的角色。在众多潜在的环境“元凶”中,邻苯二甲酸二(2-乙基己基)酯(DEHP)的身影日益凸显。作为一种普遍使用的塑化剂,它广泛存在于各类塑料制品中。流行病学和实验研究已将其暴露与血管损伤、内皮功能障碍联系起来,然而,一个核心的知识鸿沟依然存在:我们确切地知道DEHP与PAH的发病有关,却不清楚它具体是如何“作案”的——它通过调控哪些关键基因、扰乱哪些特定的细胞通路,从而精准地推动肺血管重塑的病理进程?
为了回答这个关键问题,一项发表在《Frontiers in Bioinformatics》上的研究采用了创新的“系统毒理学”策略,将网络毒理学与机器学习驱动的生物信息学分析相结合,旨在跨越化学暴露预测与疾病特异性驱动因素识别之间的鸿沟。研究团队并没有满足于传统的相关性分析,而是试图直接定位那些既是DEHP的潜在作用靶点,又在PAH中起核心调控作用的基因网络,为DEHP诱导PAH构建一个全新的分子假说。
研究人员开展研究的主要技术方法包括:首先,从公共数据库获取了六个与PAH相关的转录组学数据集,并将其分为发现队列和独立验证队列,通过生物信息学流程(如SVA和ComBat算法)进行标准化以消除批次效应。接着,他们运用三种互补的策略(ChEMBL、SwissTargetPrediction、PharmMapper)预测DEHP在人类蛋白质组中的潜在靶点,并获得了1364个候选蛋白。之后,对PAH数据进行差异表达分析和加权基因共表达网络分析(WGCNA),以识别疾病相关基因。通过取交集,从1364个DEHP靶点和829个PAH相关基因中,精确定位了60个高置信度的交集基因。最后,研究构建了一个包含10个算法家族、128个模型实例的综合性机器学习框架,对60个候选基因进行筛选和排序,以识别出最稳健的核心诊断基因集合。模型性能主要通过受试者工作特征曲线下面积(AUC)评估,并利用SHAP(SHapley Additive exPlanations)分析来解释模型决策,量化单个基因的贡献。
3.1 Identification of potential target proteins of DEHP
通过整合来自ChEMBL、SwissTargetPrediction和PharmMapper三个平台的预测结果,研究确定了1364个人类蛋白质作为DEHP的潜在相互作用靶点。
3.2 Identification of PAH-Related differential genes and Co-Expression modules
对发现队列的转录组数据进行差异表达分析和WGCNA,分别识别出2669个差异表达基因和多个与PAH表型显著相关的基因共表达模块。两者的并集构成了包含829个基因的PAH相关基因集。
3.3 Identification and functional enrichment of DEHP-Associated targets in PAH
将1364个DEHP预测靶点与829个PAH相关基因取交集,获得了60个重叠基因。对这60个基因进行功能富集分析发现,它们显著富集于“甘油脂代谢过程”、“脂肪酸代谢过程”等生物学过程,以及“血管平滑肌收缩”和“钙信号通路”等关键通路,提示DEHP可能通过干扰脂质代谢和钙介导的血管张力调节来参与PAH发病。
3.4 Machine learning-based prioritization and interpretation of core genes
利用机器学习模型对60个候选基因进行进一步筛选和优先级排序。一个集成模型(结合glmBoost和Stepglm算法)表现最佳,并最终锁定12个核心诊断基因:ALKBH2、AOC2、BCL2L10、CTBP2、DNM2、ERLIN2、HPS6、PON2、RABGGTA、SLC4A7、SORT1和PDE4D。其中,HPS6、CTBP2、RABGGTA、SORT1、ALKBH2、BCL2L10、AOC2和PON2在PAH中显著下调,而SLC4A7、PDE4D、ERLIN2和DNM2显著上调。SHAP分析表明,HPS6和CTBP2是模型中最具影响力的正预测因子。
研究结论和讨论部分强调了这项工作的创新性和意义。该研究成功地将DEHP暴露与PAH的特定分子驱动网络直接联系起来,鉴定出的12个核心基因构成了一个新颖的高优先级假说。该假说超越了DEHP仅引起泛氧化应激的传统观点,提出DEHP可能通过协同破坏对血管稳态至关重要的特定生物过程来启动PAH相关病理。这些过程包括:削弱细胞应激修复能力(如PON2、ALKBH2下调)、扰乱囊泡运输和蛋白质分选(如SORT1下调、DNM2上调)、以及改变第二信使信号平衡(如PDE4D上调导致cAMP信号减弱,促进血管收缩和细胞增殖)。特别值得注意的是,这12个核心靶点中,仅有两个在独立临床数据集中差异表达,且与经典的遗传性PAH基因(如BMPR2等)无重叠。这表明DEHP可能通过影响一系列“非经典”靶点来促进疾病进展,最终汇聚于血管重塑的共同终末通路,深刻揭示了环境驱动疾病的复杂性。
这项研究的意义在于,它通过结合DEHP靶点预测(网络毒理学)和疾病特异性驱动因子识别(基于肺动脉高压组学数据的机器学习),比单纯的关联性研究更直接地将化学暴露与疾病发病机制联系起来。该研究范式特别适用于研究PAH这类复杂疾病,因为环境触发因素可能破坏其非线性的、相互关联的网络。然而,该研究也存在局限性,主要依赖于计算模拟和机器学习预测,缺乏湿实验室的实验验证。DEHP与这些靶点的具体结合亲和力、其对肺血管细胞的直接调控作用以及由此产生的表型变化,仍需通过分子对接、细胞功能实验和体内模型等实验方法进行进一步验证。此外,DEHP在环境中常与其他污染物(如多环芳烃)共存,它们共享氧化应激等上游效应机制,因此,识别出的核心基因网络可能代表一条DEHP偏好但非排他的通路,在共暴露场景下可能被放大,导致协同性血管损伤。这突显了研究污染物混合物以全面理解环境性PAH风险的重要性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号