《Computational Biology and Chemistry》:Pipeline-Optimized Machine Learning for Chronic Fatigue Syndrome Diagnosis: A Lightweight, Interpretable Model Using Blood Biochemical and Metabolomic Data
编辑推荐:
慢性疲劳综合征(CFS)诊断模型开发基于UK Biobank代谢组学和血液数据,通过分层抽样、多方法填补和特征选择(BPCA、NearMiss、随机森林)筛选10个关键生物标志物(尿素、总蛋白等),模型准确率0.939,ROC-AUC 0.979,孟德尔随机化验证6个标志物因果关系,决策曲线分析证实临床价值,构建ClinMetML框架。
李俊荣|曹汉宇|朱子润|翟晓兵|邢阿宝|曾少文|罗刚|沙玉阳|李鹏|李克峰
澳门理工学院应用科学学院人工智能驱动药物发现中心,澳门,999078,澳门特别行政区
摘要 引言与背景 慢性疲劳综合征(CFS)是一种令人衰弱的多系统疾病,其特征是持续的疲劳和功能障碍,但由于症状的异质性和缺乏客观生物标志物,该病仍然被低估。开发一个轻量级、可解释的诊断模型需要系统地优化整个分析流程——从对照组选择到生物标志物识别和模型构建。
方法 我们利用英国生物银行(UK Biobank)的代谢组学和血液生化数据(1,137例CFS患者;66,838例对照组)开发了一个全面的流程优化框架。与以往的研究不同,我们的对照组包括了健康个体和同时患有CFS相关疾病的患者。我们采用了分层自助抽样(1,000次迭代)而不是传统的随机抽样,以确保病例和对照组之间的协变量分布平衡。我们的系统方法比较了7种缺失值插补方法、9种特征选择技术和11种机器学习/深度学习模型。特征选择结合了共线性排除和顺序前向选择,以识别出10个最具影响力的生物标志物。模型评估不仅包括标准指标(ROC-AUC、准确性、敏感性、特异性、F1分数、NPV和PPV),还包括马修斯相关系数(MCC)以进行全面性能评估。我们通过孟德尔随机化(MR)进行因果推断,并通过SHAP(Shapley Additive Explanations)分析来量化特征贡献,从而提高了模型的可解释性。临床实用性通过决策曲线分析(DCA)进行评估,并通过Spearman相关性和受限三次样条(RCS)分析进一步验证生物标志物与核心CFS症状之间的关系。
结果 优化的流程生成了一个轻量级模型,该模型结合了贝叶斯主成分分析(BPCA)插补、NearMiss欠采样和随机森林分类,仅使用10个生物标志物以及三个协变量(BMI、年龄和性别)。该模型在11个指标上取得了出色的诊断性能(准确性=0.939,ROC-AUC=0.979,MCC=0.878,平衡性能得分=0.859),有效区分了CFS患者和健康对照组及相关疾病患者。DCA显示在广泛的阈值范围内(0.01 - 0.98)具有显著的临床效益,证实了其强大的临床适用性。MR分析确定了六个生物标志物(尿素、总蛋白、葡萄糖、总胆红素、亮氨酸、维生素D)的因果关系(P<0.05)。基于SHAP的可解释性分析,结合Spearman相关性和RCS分析的结果表明,葡萄糖和亮氨酸水平升高会加剧CFS症状,提供了与个性化风险方向一致的机制洞察。
结论 通过从分层对照组选择到全面模型比较和多方面可解释性的系统流程优化,我们开发了一个轻量级、高度可解释的CFS诊断模型,该模型仅使用客观生物标志物。为了确保可重复性,这种方法通过ClinMetML框架实现。我们的模型有效区分了CFS患者和健康个体及相关疾病患者,为早期诊断和个性化治疗管理提供了坚实的基础。
引言 慢性疲劳综合征(CFS),也称为肌痛性脑脊髓炎(ME),是一种令人衰弱的多系统疾病,其特征是持续超过六个月的疲劳,伴有认知障碍、劳累后不适和睡眠质量差(Turner-Stokes和Wade,2020年;Prins等人,2006年)。据估计,美国有83.6万至250万人患有此病,每年造成的生产力损失超过90亿美元(Jason等人,1999年;Arron等人,2024年)。尽管其影响严重,但超过60%的CFS患者多年未被诊断,主要是由于缺乏客观的诊断标准以及医生培训不足(Sandler和Lloyd,2020年;Grach等人,2023年)。当前的临床评估依赖于主观症状报告,如CDC-1994分类系统(Yancey和Thomas,2012年),该系统与抑郁症(50-70%的共病率)和纤维肌痛(35%-70%的共病率)等病症有重叠,导致频繁的误诊(Aaron等人,2001年)。这种诊断不确定性凸显了迫切需要可量化的生物标志物以实现早期检测和个性化干预。
代谢组学已成为揭示CFS病理生理学的关键方法,提供了关于线粒体功能障碍、神经递质失衡和免疫-代谢相互作用的重要见解(Naviaux等人,2016年)。最近的研究发现CFS患者的代谢物水平发生了改变,如犬尿氨酸、酰基肉碱和过氧化物酶体功能障碍(Jinushi等人,2023年;Kavyani等人,2024年)。然而,该领域仍存在一些方法学挑战。首先,许多队列(例如Franz Martín等人(N=78)和Yamano等人(N=45)的研究)由于样本量有限而受到限制,这影响了他们检测微妙代谢变化的统计能力(Martin等人,2023年;Haffke等人,2022年);其次,许多预测模型依赖于主观症状数据,引入了潜在的偏见并降低了诊断的可靠性(Huang等人,2024年)。最后,CFS研究中使用的对照组往往缺乏代表性。例如,Katherine Huang等人的一项研究仅关注CFS相关疾病之间的代谢物差异(Huang等人,2024年),而Fatma Hilal Yagin等人的研究将CFS患者与健康个体进行比较,但没有考虑CFS本身的临床多样性(Yagin等人,2023年)。这些限制突显了该领域需要更严格和全面的方法论。
尽管机器学习(ML)在临床研究中得到广泛应用,但在CFS的预测建模方面仍存在显著的方法学挑战。首先,数据相关问题——如样本量有限、类别不平衡和高维变异性——要求对预处理流程进行仔细和严格的评估(He和Garcia,2009年)。插补方法和重采样策略等选择会极大地影响数据完整性和检测少数类模式的能力(Aghdam等人,2017年)。其次,传统的特征选择技术(例如Volcano、ANOVA)往往无法捕捉生物标志物之间的复杂相互作用,可能会忽略临床相关的协同作用(Rong等人,2019年)。第三,尽管许多研究仍专注于传统的ML模型,但深度学习(DL)架构在分析表格数据方面的潜力尚未得到充分探索,值得进一步研究。
为了解决这些关键问题,我们提出了一种新的方法,结合了英国生物银行的代谢组学和血液生化数据(1,137例CFS患者;66,838例对照组),开发了一个轻量级的、客观的CFS预测模型。我们的方法论框架包括三个关键组成部分:(1)一个系统化的特征选择流程,整合了九种成熟的方法并进行微调,以识别出 top 10个与CFS相关的生物标志物;(2)一个全面的模型评估策略,系统地比较了12种DL模型在七个合成采样框架下的表现,以确定最佳架构;(3)使用孟德尔随机化(MR)进行严格的生物标志物验证,并结合Spearman等级相关性和受限三次样条(RCS)分析,以阐明验证后的生物标志物与CFS主要症状分数之间的具体关系。这种综合方法代表了CFS生物标志物发现和诊断建模的重大进展,克服了以往研究的局限性,为早期诊断和个性化治疗计划提供了基础。
研究参与者 本研究利用了英国生物银行(
https://www.ukbiobank.ac.uk/ )的数据,这是一个基于人群的前瞻性队列,招募时年龄在40-69岁之间的成年人有502,414人(Sudlow等人,2015年)。基线评估于2006年3月至2010年10月在22个英国中心进行,收集了包括生活方式和健康访谈、自我管理问卷、身体测量、生物样本采集、成像和基因分型在内的多维数据。
基线特征 研究队列包括67,975名参与者,其中1,137人被诊断为CFS,患病率为1.67%。人口统计特征、人体测量数据、生活方式因素、饮食模式和共病情况在表1中总结,而代谢组学生物标志物的详细描述见表S4。基线时,大多数参与者为英国人(91.2%),中位年龄为57岁(IQR:50–62岁)。临床显著差异包括...
讨论 在这项研究中,我们开发了一个轻量级但高度准确的诊断模型,利用客观的、临床可获得的生物标志物来区分CFS患者和其他类似疾病。这项工作的一个关键特点是实施了系统的、多步骤的优化协议,我们将其整合到一个名为ClinMetML的功能框架中,以弥合复杂的代谢组学数据和临床应用之间的差距。通过这种结构化的方法...
伦理 英国生物银行的数据获得了西北多中心研究伦理委员会(MREC)的批准(REC参考编号:(Julkunen等人,2023)/NW/0157)。本研究使用的是英国生物银行资源,申请编号为99946。在参与英国生物银行研究之前,所有参与者在充分了解情况后都提供了书面同意书,遵守了《赫尔辛基宣言》中规定的原则。
资助 本研究得到了澳门科学技术发展基金与广东省科学技术厅(FDCT-GDST,0009/2024/AGJ)的联合研究资助计划、澳门理工学院的内部资助(RP/FCA-14/2023)以及澳门科学技术发展基金(FDCT)(0033/2023/RIB2)的支持。本研究使用的是英国生物银行资源,申请编号为99946。本提交获得了...
CRediT作者贡献声明 李鹏: 写作 – 审稿与编辑,监督。李克峰: 写作 – 审稿与编辑,监督,方法论,资金获取。罗刚: 监督。沙玉阳: 验证。邢阿宝: 写作 – 初稿,可视化。曾少文: 方法论,正式分析。朱子润: 方法论,正式分析,数据管理。翟晓兵: 验证,方法论。李俊荣: 写作 – 初稿,验证,方法论,正式分析,概念化。曹汉宇: 方法论,