《Frontiers in Molecular Biosciences》:Serum biomarker screening and metabolic profiling analysis of nonalcoholic fatty liver disease patients using untargeted metabolomics and machine learning techniques
编辑推荐:
本研究整合非靶向代谢组学与机器学习算法,系统比较了非酒精性脂肪肝病(NAFLD)患者与健康对照者的血清代谢谱差异。通过正交偏最小二乘判别分析(OPLS-DA)鉴定出942个差异代谢物,并富集到胆固醇代谢、咖啡因代谢及FoxO/AMPK等关键信号通路。研究进一步利用多种机器学习模型验证了maresin 1、canavaninosuccinate、paraxanthine和1-甲基尿酸(1-methyluric acid)作为NAFLD独立预测生物标志物的稳健诊断性能,其中1-甲基尿酸贡献度最高。该工作为NAFLD的无创早期诊断与精准治疗提供了新的代谢标志物与理论依据。
研究背景与目标
非酒精性脂肪肝病(NAFLD)已成为全球最普遍的慢性肝脏代谢性疾病,若不及时干预,可进展为非酒精性脂肪性肝炎(NASH)、肝纤维化乃至肝细胞癌。早期发现与诊断对疾病管理至关重要。代谢组学是发现疾病诊断性代谢生物标志物的有力工具,常与机器学习(ML)算法结合以提升分析效能。本研究旨在比较NAFLD患者与健康对照者的血清代谢组学谱,识别差异代谢物,并运用机器学习算法发掘具有诊断价值的生物标志物。
研究方法
本研究纳入了经超声诊断的26名健康对照者和165名NAFLD患者,进行了血清非靶向代谢组学分析。具体采用代谢组学技术检测血清代谢物,并运用正交偏最小二乘判别分析(OPLS-DA)筛选组间显著差异代谢物及进行通路富集分析。在机器学习阶段,数据集按8:2比例划分:80%的数据用于模型训练,20%作为独立测试集以验证模型性能。研究采用了K-近邻(KNN)、随机森林(RF)、支持向量机(SVM)、高斯朴素贝叶斯(GNB)、逻辑回归(LR)和决策树(DT)六种算法构建预测模型,并利用SHAP(SHapley Additive exPlanations)进行模型可解释性分析,以识别对预测贡献最大的关键特征。
研究结果
差异代谢物与通路富集
代谢组学差异分析在NAFLD组与健康对照组间共鉴定出942个显著差异代谢物,其中656个上调,286个下调。这些代谢物主要富集在咖啡因代谢、胆固醇代谢以及FoxO和AMPK信号通路等。KEGG通路富集分析进一步揭示了这些差异代谢物在胆固醇代谢、咖啡因代谢、铁死亡、动物线粒体自噬、细胞凋亡,以及FoxO、AMPK、mTOR、PI3K-Akt等信号通路中显著扰动。
机器学习驱动的生物标志物发现
为应对高维数据与小样本量可能带来的过拟合风险,研究将OPLS-DA的变量重要性投影(VIP)阈值提升至2.8,最终筛选出19个核心差异代谢物用于后续分析。随机森林回归模型进一步从中确定了重要性排名前10的代谢物特征。在构建的六种机器学习模型中,逻辑回归(LR)模型在训练集和测试集中均表现出最优性能,其灵敏度、特异度和受试者工作特征曲线下面积(AUC)均达到1,其余模型也展现出良好的预测性能,证实了这些代谢物作为NAFLD识别生物标志物的有效性。
通过可解释性方法分析,发现1-甲基尿酸对模型决策的贡献最高,占据主导地位。SHAP摘要图进一步表明,1-甲基尿酸、paraxanthine、canavaninosuccinate和maresin 1通过双向调节影响分类。例如,1-甲基尿酸的SHAP值分布广泛,其高低值对模型输出产生相反方向的影响。在单特征SHAP依赖图中,随着1-甲基尿酸浓度升高,其SHAP值也增加,对正向类别预测的贡献更强。此外,paraxanthine等其他代谢物对此关系存在调节作用,体现了代谢物间相互作用对模型分类的影响。综合来看,1-甲基尿酸成为诊断价值最高的核心生物标志物,其浓度变化通过代谢网络影响疾病分类,并与paraxanthine、canavaninosuccinate和maresin 1存在显著的非线性协同效应。
模型稳健性验证与小样本泛化能力评估
为评估模型在小样本条件下的稳健性,研究采用了多策略验证。五折交叉验证结果显示,KNN、RF、SVM、GNB和LR等核心模型的准确度、AUC、灵敏度、特异度的均值均≥0.95,标准差≤0.02,表明性能稳定。箱线图显示核心模型的准确度、AUC等指标集中在0.95–1.0范围内,无低分异常值,说明小样本未导致性能离散。五折交叉验证与留一法验证的AUC比较表明,核心模型在两种策略下的平均AUC值均≥0.98,且误差棒无显著差异,验证了不同策略下性能的一致性。留一法AUC分布图显示核心模型的AUC无低于0.8的数据点,结合自助法计算出的均值接近1.0,进一步证实小样本量并未损害模型对稀缺样本的稳定识别能力。
核心生物标志物的组间表达差异
为可视化机器学习筛选出的核心差异代谢物在NAFLD组与健康对照组中的分布模式,研究对1-甲基尿酸、paraxanthine、canavaninosuccinate和maresin 1这四个关键代谢物进行了箱线图可视化。结果显示,与对照组相比,NAFLD组中1-甲基尿酸的Log2(强度)显著降低,而paraxanthine、canavaninosuccinate和maresin 1的Log2(强度)水平则显著升高,组间表达差异具有极显著性统计学意义。这些代谢物的表达差异与机器学习模型的筛选结果一致,从而验证了核心特征的生物学相关性。具体而言,1-甲基尿酸的低表达与其他三种代谢物的高表达,可作为区分NAFLD与健康对照的代谢表型指标。
讨论与机制阐释
NAFLD的发病机制涉及葡萄糖、脂质、胆固醇代谢紊乱、炎症反应和肝细胞损伤等多个维度。本研究发现胆固醇代谢、咖啡因代谢及FoxO/AMPK信号轴在NAFLD患者中发生扰动。胆固醇代谢失调是NAFLD的一个标志,肝脏中过量的胆固醇积累可诱发肝脏脂肪变性,而游离胆固醇的积累会破坏线粒体和内质网功能,诱导肝细胞凋亡和坏死,加剧肝损伤。咖啡因及其代谢物则被证明具有抗氧化特性,可保护细胞免受氧化损伤,并通过上调双特异性磷酸酶9(DUSP9)表达来抑制凋亡信号调节激酶1及其下游激酶的激活,从而在减轻肝脏脂质沉积、逆转炎症和纤维化方面发挥有益作用。FoxO转录因子是肝脏糖异生和脂质代谢的关键调节因子,在脂质和胆固醇稳态中发挥双重作用。AMPK作为丝氨酸/苏氨酸激酶,协调多种代谢过程,其在NAFLD小鼠模型和高游离脂肪酸诱导的肝细胞中表达降低,而激活AMPK可改善NAFLD。研究表明,多种药物可通过调节AMPK信号通路来缓解肝脏炎症、氧化应激、调节脂质代谢、增强自噬和调节线粒体生物发生,因此AMPK被认为是代谢性疾病的一个有前景的治疗靶点。
潜在生物标志物的生物学意义
研究所确定的四个核心代谢物在NAFLD的病理生理过程中可能扮演重要角色。1-甲基尿酸是咖啡因代谢的关键中间体,尽管其自身具有可观的氧化活性,但可通过抑制人低密度脂蛋白的氧化修饰来减少脂质过氧化物的产生,从而间接减轻肝损伤。Paraxanthine是体内咖啡因的主要代谢产物之一,其产生依赖于细胞色素P450酶,尤其是CYP2E1。NAFLD患者肝脏CYP2E1表达显著上调,该酶通过加剧氧化应激促进NAFLD进展,因此paraxanthine水平的变化可能作为肝脏代谢状态的潜在指标。Maresin 1是maresin家族中首个被鉴定的抗炎促消退介质,主要由M2型巨噬细胞合成,可抑制肝细胞脂质积聚并改善胰岛素抵抗。本研究中NAFLD患者血清maresin 1水平升高,可能是在单纯性脂肪肝早期阶段为减轻肝细胞损伤而出现的代偿性上调,作为一种机体的自我保护机制。Canavaninosuccinate是一种在哺乳动物肝组织中合成和代谢的有机酸代谢物,研究表明其在肝癌患者中表达显著高于健康对照,而在肝硬化患者中显著降低,提示其可能参与病理肝脏状态下的代谢紊乱。
研究局限性
本研究存在若干局限性。首先,由于伦理和实践限制,未采用NAFLD诊断金标准——肝活检对患者进行分层,而是根据临床指南选择了超声检查作为替代诊断方法。同时,受当前临床资源所限,未利用磁共振成像质子密度脂肪分数技术基于脂肪变性、炎症或纤维化的严重程度对NAFLD进行定量分层。其次,非靶向代谢组学的灵敏度和特异性有待进一步提升,尽管本研究采用多种机器学习模型进行了验证,但仍需进一步的算法优化以识别更精确的生物标志物。此外,由于符合统一实验方案和匹配人群特征的NAFLD代谢组学数据集有限,未进行外部独立队列验证,这限制了对所提模型和生物标志物普适性的全面评估。
结论
本研究证明,整合血清代谢组学与机器学习分析在识别NAFLD诊断生物标志物及阐明其病理生理机制方面具有高可靠性。通过多模型筛选鉴定并验证的四个差异表达代谢物,即maresin 1、canavaninosuccinate、paraxanthine和1-甲基尿酸,展现出作为NAFLD诊断生物标志物和治疗靶点的潜力,其中1-甲基尿酸成为诊断效能最高的核心生物标志物。虽然尚不能断定这些代谢物可以取代肝活检等有创诊断方式,但该发现为推进NAFLD无创诊断技术以及早期预防、检测和诊断提供了科学依据。