孟德尔随机化与机器学习揭示肝硬化的潜在生物标志物与治疗新靶点

《Biochemistry and Biophysics Reports》:Identification of potential biomarkers and therapeutic targets for liver cirrhosis based on Mendelian randomization and machine learning

【字体: 时间:2026年03月15日 来源:Biochemistry and Biophysics Reports 2.2

编辑推荐:

  本研究针对肝硬化的可靠分子标志物有限、早期诊断和治疗靶点匮乏的难题,研究者整合差异基因分析、孟德尔随机化与多种机器学习算法,鉴定出5个与肝硬化密切相关的核心基因,并构建了高精度的风险预测列线图。该工作为肝硬化的预测和治疗提供了潜在的生物标志物与新策略,有助于推动其精准诊疗。

  
肝脏是人体的“化工厂”和“解毒中心”,然而,慢性肝病的长期侵扰最终可能将其拖入肝硬化的深渊。肝硬化是多种慢性肝病的终末期,以肝组织弥漫性纤维化、再生结节和假小叶形成为特征。它不仅是全球范围内的主要死亡原因之一,其从代偿期向失代偿期的转变,更使患者的死亡风险急剧攀升。尽管肝硬化危害巨大,但可靠的早期诊断分子标志物和治疗靶点仍然匮乏,这为临床的及时干预和有效治疗带来了巨大挑战。为了破解这一困局,Kang Zhang及其合作者在《Biochemistry and Biophysics Reports》上发表了他们的最新研究成果,他们巧妙地融合了现代生物信息学、遗传流行病学和人工智能技术,开启了一场寻找肝硬化“关键密码”的探索之旅。
为了开展这项研究,研究团队整合运用了几项关键技术方法。他们首先从GEO(Gene Expression Omnibus)公共数据库获取了多个肝硬化的基因表达数据集,并进行了数据整合与批次校正。接着,利用孟德尔随机化方法,结合eQTLGen和FinnGen联盟的GWAS(全基因组关联研究)汇总数据,从遗传学角度推断基因表达与肝硬化的因果关系。在此筛选基础上,研究者应用了包括LASSO、SVM-RFE、随机森林和XGBoost在内的多种机器学习算法,对候选基因进行交叉验证和特征选择,以锁定核心基因。后续的功能分析则涉及GSEA、免疫细胞浸润分析,并利用DSigDB数据库进行了潜在治疗药物的虚拟筛选。临床样本验证方面,研究使用了来自西安交通大学第二附属医院的HBV相关肝硬化患者和良性肝病患者的肝组织样本,通过免疫组化技术对关键发现进行了验证。
3.1. 显著差异表达基因的筛选结果
研究者对整合后的训练集数据进行分析,成功校正了批次效应,并鉴定出178个上调与117个下调的差异表达基因。校正后的主成分分析图显示数据质量良好,后续的分析结果可靠。
3.2. MR评估LC的因果效应基因
通过孟德尔随机化分析,从遗传角度识别出与肝硬化存在因果关系的基因。将孟德尔随机化结果与差异表达基因取交集,最终得到10个交集基因,包括6个上调基因(TRIM22, SLFN11, ENPP2, SCRN1, IL7R, GPNMB)和4个下调基因(HSD17B14, CLEC4G, PPARGC1A, FAM134B)。因果效应分析显示,这些基因与肝硬化之间存在统计学上显著的关联。
3.3. 交集基因的敏感性分析
对上述10个基因进行敏感性分析,包括异质性检验、水平多效性检验和留一法分析,均未检测到显著的异质性或多效性,表明孟德尔随机化结果稳健可靠。
3.4. 交集基因的功能富集分析
对10个交集基因进行功能富集分析,结果显示它们主要富集于淋巴细胞、单核细胞和白细胞增殖相关的生物学过程,以及原发性免疫缺陷、醚脂代谢等信号通路,并与糖尿病视网膜病变等疾病存在关联。
3.5. 基于机器学习的疾病核心基因筛选
为了获得具有诊断价值的核心基因,研究者使用四种机器学习算法对交集基因进行进一步筛选。最终,四种算法共同鉴定出五个核心基因:ENPP2、FAM134B、PPARGC1A、SLFN11和TRIM22。
3.6. 核心基因的功能分析
基因互作网络分析显示这五个核心基因在功能上相互关联。功能富集分析表明,它们主要参与肽-赖氨酸乙酰化、营养响应、巨自噬等过程,并与醚脂代谢、脂肪细胞因子信号通路相关。
3.7. 核心基因表达水平的评估
在训练集和验证集中,核心基因的表达趋势一致:ENPP2、SLFN11和TRIM22在肝硬化组织中显著上调,而FAM134B和PPARGC1A则显著下调,进一步确认了它们与肝硬化的关联。
3.8. 列线图构建与验证
基于五个核心基因的表达水平,研究团队构建了一个逻辑回归列线图模型,用于预测个体患肝硬化的风险。该模型在训练集和验证集中均表现出优异的预测性能,其AUC(受试者工作特征曲线下面积)分别高达0.944和0.909,校准曲线和决策曲线分析也证实了其良好的准确性和临床实用性。
3.9. 基因集富集分析
GSEA分析深入揭示了每个核心基因可能参与的生物学功能和通路。例如,ENPP2与氨基酸代谢相关;FAM134B与细胞外基质组织有关;PPARGC1A和TRIM22与抗原加工呈递和免疫应答调节密切相关;SLFN11则与细胞粘附和迁移相关。KEGG通路分析也显示了这些基因在补体与凝血、细胞粘附分子、趋化因子信号等通路中的富集,提示它们在调节肝硬化免疫微环境中的潜在作用。
3.10. 免疫细胞浸润分析
利用CIBERSORT算法分析肝硬化的免疫微环境,发现与健康对照组相比,肝硬化患者肝脏中静息NK细胞、M2巨噬细胞、活化的树突状细胞和中性粒细胞的比例显著降低。相关性分析进一步揭示了核心基因表达与特定免疫细胞亚群丰度之间的关联,例如ENPP2与M1巨噬细胞正相关,而与M2巨噬细胞负相关,这暗示了核心基因可能通过调节免疫细胞浸润参与肝硬化进程。
3.11. 候选药物的鉴定
通过DSigDB数据库对核心基因进行潜在治疗药物的虚拟筛选,列出了与这些基因最相关的候选药物,其中丙戊酸和它莫昔芬排名居前,提示它们可能通过作用于这些靶点成为肝硬化的潜在治疗选择。
3.12. 核心基因在肝硬化组织中的验证
最后,研究者对临床肝组织样本进行免疫组化染色验证,结果证实了核心基因的蛋白水平表达变化:与对照组相比,肝硬化组织中ENPP2和TRIM22表达上调,而FAM134B、PGC-1α(由PPARGC1A编码)和SLFN11表达下调,这为生物信息学分析结果提供了直接的实验证据支持。
综上所述,该研究通过整合多种前沿分析技术,系统性地鉴定出ENPP2、FAM134B、PPARGC1A、SLFN11和TRIM22这五个与肝硬化密切相关的核心基因。基于这些基因构建的风险预测模型展现出极高的诊断价值。功能分析揭示了这些基因在免疫调节、细胞代谢和应激反应中的重要作用。研究还通过筛选发现了丙戊酸、它莫昔芬等有潜力的治疗药物。在讨论部分,作者对每个核心基因的已知功能和在本研究中的发现进行了深入阐释,例如ENPP2(ATX)可能通过ENPP2-LPA轴促进肝星状细胞活化,FAM134B(RETREG1)下调可能削弱内质网自噬、加剧内质网应激,PPARGC1A(PGC-1α)下调可能导致线粒体功能障碍和氧化应激,而TRIM22上调可能通过激活NF-κB通路加剧炎症。同时,作者也坦率地指出了本研究的局限性,包括对公共数据库的依赖、临床样本量有限、缺乏对基因功能的直接机制验证以及对药物作用的实验探索不足。尽管如此,这项工作成功展示了一种多维度识别疾病生物标志物和治疗靶点的策略,为理解肝硬化的复杂机制、开发早期诊断工具和探索新的治疗途径提供了重要的线索和基础,具有显著的临床转化潜力。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号