《Frontiers in Bioinformatics》:Integrated transcriptomics and machine learning reveal diagnostic biomarkers and immune–stromal remodeling in ischemic heart failure
编辑推荐:
本文报道了一项整合转录组学与多算法机器学习的缺血性心力衰竭(IHF)研究。研究者通过结合WGCNA和四种机器学习方法(LASSO、RF、SVM-RFE、XGBoost),从公开转录组数据中筛选出6个关键诊断基因(FCN3、OGN、ITPK1、HMOX2、MTCH1、HMGN2)。该模型展现出优越的诊断性能(AUC > 0.98)。研究进一步揭示了IHF微环境中内皮细胞、巨噬细胞、中性粒细胞和NK细胞的显著浸润,阐明了这些诊断标志物与心脏免疫-基质病理重塑的内在联系。该研究为IHF的精准诊断和靶向治疗提供了新的系统生物学见解。
在全球范围内,心力衰竭是导致死亡的主要原因之一,而由冠状动脉疾病引起的缺血性心力衰竭(Ischemic Heart Failure, IHF)更是其主要亚型。IHF的特点是心肌长期供血不足,导致心肌细胞损伤、纤维化和心室重塑,尽管现有疗法有所进展,但患者预后仍不理想,5年死亡率高达40%-50%。当前的生物标志物(如BNP、NT-proBNP)主要反映血流动力学负荷,对疾病背后的深层分子机制和组织重塑过程的揭示有限。因此,临床亟需发现能精准反映IHF病理生理、有助于早期诊断和揭示新治疗靶点的分子标志物。
随着高通量测序技术的发展,大规模基因表达谱分析成为探索疾病分子特征的利器。然而,先前的研究多依赖单一的分析方法,如差异表达基因(DEGs)分析,对疾病相关基因模块的系统性挖掘以及诊断模型的稳健性评估不足。同时,心脏衰竭不仅仅是心肌细胞的问题,其周围复杂多变的免疫和基质(纤维化等)微环境在疾病进展中扮演着关键角色,但对此的系统性刻画仍不完善。为此,一项发表在《Frontiers in Bioinformatics》的研究,通过整合生物信息学和多算法机器学习策略,旨在从系统层面解析IHF的诊断标志物及其与免疫-基质微环境重塑的关系,以期提供更精确的诊断工具和新的治疗思路。
为开展此项研究,研究人员从基因表达综合数据库(GEO)中获取了三个公开的IHF转录组数据集:GSE57345(训练集,95例IHF与136例对照)、GSE5406和GSE116250(验证集)。研究采用了多种关键技术方法:首先,对数据进行差异表达分析,识别IHF相关基因;其次,运用加权基因共表达网络分析(WGCNA)构建基因共表达网络,找出与IHF表型显著相关的基因模块;接着,整合差异表达基因和WGCNA枢纽基因,作为候选特征,并利用四种互补的机器学习算法(最小绝对收缩和选择算子-LASSO、随机森林-RF、支持向量机递归特征消除-SVM-RFE、极限梯度提升-XGBoost)进行特征筛选和诊断模型构建;然后,在验证集中独立评估模型的性能和所选基因的稳健性;最后,通过结合MCP-counter和单样本基因集富集分析(ssGSEA)算法,对IHF样本的免疫和基质细胞浸润水平进行全面刻画,并分析诊断基因与微环境特征的相关性。
3.1 差异表达基因与IHF相关模块的识别
通过对GSE57345数据集进行分析,研究者共鉴定出88个差异表达基因,包括35个上调和52个下调基因。功能富集分析显示,这些基因显著富集于补体和凝血级联通路、吞噬体、AGE-RAGE信号通路等,表明IHF发病机制涉及广泛的细胞外基质重塑和免疫反应激活。利用WGCNA,他们构建了基因共表达网络,并鉴定出19个模块。其中,ME8模块与IHF表型呈最强正相关,ME11模块呈最强负相关,共包含2214个基因的关键模块被用于后续分析。
3.2 基于机器学习的优化诊断生物标志物筛选与验证
研究人员将差异表达基因和WGCNA枢纽基因整合,作为候选特征集,并应用四种机器学习算法进行建模。所有模型在独立测试集上都表现出卓越的分类性能,AUC值均超过0.98。通过取四种算法所选特征的交集,最终确定了一个由6个基因组成的稳健诊断标志物组合:FCN3、OGN、ITPK1、HMOX2、MTCH1和HMGN2。在训练集GSE57345中,这6个基因在IHF与对照组间的表达水平均存在极显著差异。相关分析显示它们之间存在较强的共表达模式,例如FCN3与HMOX2呈正相关,与HMGN2呈负相关。
3.3 在外部数据集中的独立验证
为了验证这6个生物标志物的稳健性和可重复性,研究者在GSE5406和GSE116250两个独立数据集中进行了验证。在GSE5406中,可用的四个基因(HMGN2, ITPK1, HMOX2, MTCH1)仍显示出高诊断效能,其中HMOX2的AUC高达0.973。在GSE116250数据集中,所有六个基因均可检测,其中ITPK1、HMGN2、HMOX2的AUC值均接近1。表达验证也支持了这些基因在IHF中的差异表达模式。这些结果共同证实了该六基因组合作为IHF诊断标志物的可靠性。
3.4 免疫-基质微环境的综合评估
通过整合MCP-counter和ssGSEA算法,研究量化了IHF心脏组织中关键基质和免疫细胞的浸润情况。与对照组相比,IHF组织表现出显著的促炎和促血管生成表型,其中内皮细胞、巨噬细胞、中性粒细胞和自然杀伤细胞(NK细胞)的浸润水平显著升高。而成纤维细胞和单核系细胞的整体丰度在两组间无显著差异。相关性分析揭示了诊断标志物与微环境细胞间的特定关联:例如,OGN与成纤维细胞呈正相关,而FCN3、ITPK1、HMOX2和MTCH1与炎症细胞(如巨噬细胞、中性粒细胞)呈正相关,HMGN2则与巨噬细胞和NK细胞呈负相关。细胞间的共表达网络分析还发现了巨噬细胞与中性粒细胞之间的协同关系。
4 结论与讨论
本研究通过整合多算法机器学习框架,识别出一个由FCN3、OGN、ITPK1、HMOX2、MTCH1和HMGN2组成的六基因诊断标签,该标签在多个独立数据集中验证有效,为缺血性心力衰竭提供了高精度的分子诊断工具。这组基因并非孤立存在,它们深刻反映了IHF的核心病理生理特征:OGN和FCN3关联于细胞外基质重塑和纤维化;HMOX2和MTCH1分别指向氧化应激和线粒体功能失调;而它们与免疫-基质微环境的强相关性(如FCN3与巨噬细胞浸润正相关,HMGN2与炎症细胞负相关),揭示了诊断标志物与疾病微环境重塑的内在联系。研究描绘的IHF微环境特征——以内皮细胞活化、巨噬细胞和中性粒细胞浸润增加为标志,进一步证实了纤维炎症反应在疾病进程中的核心地位。
这项研究的重要意义在于,它不仅提供了一个基于多算法共识的、稳健的诊断模型,弥补了传统生物标志物在揭示分子机制方面的不足,还将转录组标志物与具体的组织微环境改变(免疫-基质重塑)系统性地联系起来,为理解IHF的发病机制提供了更全面的系统生物学视角。这些发现提示,未来针对IHF的治疗策略或许可以同时考虑调节特定的纤维化通路(如靶向OGN)和干预异常的免疫应答(如调节与FCN3相关的补体通路),为实现IHF的精准诊断和开发新型靶向疗法奠定了重要的理论基础。当然,该研究作为回顾性生物信息学分析,其结论仍需通过前瞻性临床队列和实验研究(如RT-qPCR、蛋白质印迹、免疫组化等)进一步验证,未来结合空间转录组或单细胞测序技术,将能更精确地解析这些标志物在特定细胞类型中的表达和功能。