《Scientific Reports》:Interpretable machine learning based decision tree model for predicting obstructive airway disease in a large non-smoking health screening population
编辑推荐:
本研究旨在解决非吸烟人群阻塞性气道疾病(OAD)的早期风险预测与临床筛查难题。研究人员利用大规模健康体检数据,开发了多种可解释机器学习模型,包括CART、XGBoost等,以预测疾病风险。研究成功识别出年龄、腰臀比、血压及生化标志物等关键预测因子,并构建了可视化的决策树,为临床风险分层提供了有效工具。这是首个利用健康检查大数据对非吸烟人群OAD进行机器学习预测的研究,具有重要的早期筛查应用价值。
阻塞性气道疾病(Obstructive airway disease, OAD),以第一秒用力呼气容积(FEV1)降低和FEV1/用力肺活量(FVC)比值低于70%为主要特征,是影响全球公共健康的重要慢性呼吸系统疾病。传统上,吸烟被认为是OAD的首要风险因素,然而,大量不吸烟人群同样遭受着OAD的困扰,其病因更为复杂,涉及环境、遗传、代谢等多方面因素。肺功能测试(Pulmonary function testing, PFT)虽然是诊断OAD的金标准,但在大规模人群筛查和早期风险预警中,其可及性和成本效益存在局限。那么,能否利用常规健康体检中已广泛收集的人口学、生化和生活方式数据,在肺功能检测之前,就准确预测非吸烟个体未来发生OAD的风险呢?这正是本研究希望解答的核心问题。
针对上述挑战,一项发表于《Scientific Reports》的研究进行了开创性的探索。该研究团队从包含549,825名参与者的大型健康筛查队列中,筛选出81,055名非吸烟个体作为分析对象,旨在开发可解释的机器学习模型,用于OAD的早期风险预测和临床筛查。他们巧妙地运用了多种机器学习算法,包括分类与回归树、随机森林、极限梯度提升、轻量梯度提升机、分类提升以及最小绝对收缩和选择算子,来构建预测模型。所有这些模型都展现出了强大的预测性能。为了从这些“黑箱”模型中提取出可理解的知识,研究人员采用了一种集成特征聚合的方法,识别出对预测OAD风险最关键的特征变量。随后,他们利用这些关键特征构建了一个可视化的分类与回归树模型,生成直观的决策规则,以支持临床筛查决策。
本研究的主要技术方法包括:1) 利用健康筛查队列的大规模数据(样本来源:549,825名参与者的队列,其中非吸烟者81,055名);2) 应用并评估六种主流机器学习算法构建预测模型;3) 采用集成特征聚合方法识别关键预测变量;4) 基于关键变量构建可解释的分类与回归树模型。
研究结果
模型性能与预测因子
所有六种机器学习模型在预测非吸烟人群OAD风险时均表现出色,展现出强大的区分能力。通过集成特征聚合方法,研究确定了与OAD风险最相关的一系列关键预测因子。这些因子超越了传统的呼吸领域指标,涵盖了多个生理和代谢维度,主要包括:年龄、腰臀比(反映中心性肥胖)、血压(收缩压和舒张压),以及多项血液生化标志物。
可视化决策树的构建
基于上述识别出的关键特征,研究人员构建了一个分类与回归树模型。该模型以树状结构清晰展示了从根节点(起始问题)到叶节点(风险预测结果)的整个决策路径。每一层分支都对应一个关键预测因子的特定阈值(例如,年龄是否大于某值,腰臀比是否超过某标准)。通过这棵树,临床医生或筛查人员可以遵循清晰的“是/否”规则,快速对个体进行风险评估和分层,实现了机器学习预测的“白盒化”和可操作化。
结论与讨论
本研究成功地利用大规模健康筛查数据,为不吸烟人群的阻塞性气道疾病开发了一套高效且可解释的机器学习预测工具。其重要意义在于:首先,它突破了传统上主要依赖肺功能检测和吸烟史的诊断与风险评估模式,证明了常规体检数据在呼吸疾病早期预警中的巨大潜力,为在更广泛人群中实施低成本、高效率的初筛提供了新路径。其次,研究揭示的预测因子,如腰臀比和血压,将OAD的风险与全身性代谢异常、心血管健康紧密联系起来,暗示OAD在不吸烟人群中可能与系统性炎症、代谢综合征等存在共同的病理生理基础,这为深入理解非吸烟者OAD的病因学开辟了新视角。最后,也是最具临床转化价值的一点,是研究所构建的可视化决策树。它将复杂的算法预测转化为一系列直观、易懂的临床决策规则,极大降低了机器学习模型在真实世界医疗场景中的应用门槛,使医生能够理解、信任并实际使用该工具进行风险分层和个性化健康指导。总之,这项研究不仅是将人工智能与呼吸病学早期筛查相结合的典范,也为未来开发其他慢性病的可解释性预测模型提供了重要方法论参考。