《Rhizosphere》:Predictive Modeling of Soil Pathogenic Microorganisms in Diseased Plants: A Comparative Machine Learning Approach
编辑推荐:
机器学习模型在土壤病原体预测中的应用研究显示,LightGBM在AUC-ROC(0.94)和效率上优于其他模型及深度学习网络(0.87),土壤pH、有机质和湿度为关键预测因子,SHAP分析验证了模型的可解释性。
梅里姆·本贝尔努(Meriem Benbernou)| 梅里姆·肯齐(Meriem Kenzi)| 哈杰尔·凯利法(Hadjer Khelifa)| 哈贾·法蒂玛·特巴赫里蒂(Hadja Fatima Tbahriti)
阿尔及利亚奥兰市奥兰生物科学高等学院
摘要
背景
土壤中的病原微生物是植物健康和整个农业系统的主要威胁。及早且正确地识别主要病原体至关重要,因为这是制定有针对性的疾病管理策略的唯一途径。
目标
本研究利用机器学习方法,根据从SciSpace文献平台收集的土壤微生物组数据,来识别患病植物中的主要病原体。
方法
我们系统地研究了从SciSpace文献平台收集的5000个样本,包括土壤的物理化学性质、植物健康指标和微生物组组成。我们尝试了六种机器学习模型:Light Gradient Boosting Machine(LightGBM)、XGBoost、随机森林(Random Forest)、支持向量机(Support Vector Machine)、深度神经网络(Deep Neural Network)和逻辑回归(Logistic Regression),以确定哪种模型表现最佳。模型的性能通过AUC、ROC曲线、精确度(Precision)、召回率(Recall)、F1分数(F1-score)和交叉验证(Cross-validation)等方法进行评估。
结果
LightGBM的表现最好,AUC值为0.94,优于深度学习方法(AUC值为0.87)和其他传统模型。根据特征重要性分析,土壤pH值、有机质含量和湿度水平是最具预测性的变量。SHAP值分析为病原体特定的风险因素提供了清晰的见解。
结论
在处理中等规模的表格形式土壤微生物组数据时,梯度提升方法(尤其是LightGBM)在预测方面表现最佳,并且比深度学习架构具有更好的可解释性。这样的系统可以用于精准农业和早期疾病干预。
引言
土壤传播的病原体会导致每年造成超过2200亿美元的农作物损失。Fusarium、Pythium、Rhizoctonia和Phytophthora是最有害的病原体之一,因为它们在土壤中存活时间较长,并且能在农业系统中迅速传播(Gómez-Lama Cabanás和Mercado-Blanco,2025年)。为了进行有针对性的疾病管理,及早准确地识别主要病原体至关重要。然而,传统的诊断方法需要7到14天才能得出明确结果,在此期间疾病可能会在作物中广泛传播(Anu Reddy等人,2024年)。像PCR和下一代测序这样的分子技术提高了检测能力,但它们仍然成本高昂,需要专业知识,并且可能无法提供及时做出管理决策所需的快速、实用的信息(Gómez-Lama Cabanás和Mercado-Blanco,2025年)。机器学习有潜力从易于获取的土壤微生物组数据中快速预测病原体,但其应用仍然有限,最佳方法也尚未确立(Papoutsoglou等人,2023年)。最近的研究开始探索将机器学习用于土壤微生物组分析,尽管方法和样本量各不相同。使用随机森林和SVM从数百个样本的微生物组数据预测土壤健康指标的研究取得了中等程度的准确性,表明生物特性比化学性质更具指示性(Zeng等人,2025年)。其他利用机器学习预测疾病发生率的研究表明,将环境特征与微生物组数据结合使用可以显著提高性能(Aghdam等人,2024年;Sharma等人,2024年)。深度神经网络在预测真菌枯萎病方面的准确性较高,但在分类精确度方面存在不足,这凸显了需要更大规模训练数据集的必要性(Zakir等人,2021年;Afework和Debelee,2020年)。然而,这些研究受到样本量(近期文献中样本量中位数约为400个)的限制,并且很少对不同的机器学习范式进行系统比较。
对于农业机器学习应用来说,一个关键问题是确定最适合表格形式土壤微生物组数据的算法方法——梯度提升还是深度学习。深度学习已经在自然语言处理和计算机视觉等领域取得了显著进展,使其在许多领域广受欢迎。最近的广泛基准测试研究表明,梯度提升技术可能更适合结构化的表格数据。其他研究也表明,在中等规模的表格数据集上,梯度提升方法的表现始终优于深度学习(Wu等人,2021年)。然而,关于土壤病原体预测的具体证据仍然不足,使得实践者不确定应使用哪种模型来进行这一关键的农业应用。
对于农业中的机器学习应用而言,可解释性方法与预测准确性同样重要。在农业中,需要了解模型为何做出特定预测,而在其他领域,黑箱预测可能是可以接受的。农学家和农民必须了解促进特定病原体生长的土壤条件、管理措施对疾病风险的影响,以及最有可能有效的干预措施(Pai等人,2025年;Sihi等人,2022年)。这一要求倾向于使用可解释的方法,或者需要对复杂模型进行大量的可解释性研究;然而,很少有农业机器学习研究提供全面的可解释性分析来指导管理决策。
基于这些基准测试研究以及土壤微生物组数据的结构化、表格形式和中等样本量(约5000个样本),我们假设梯度提升方法在土壤病原体预测方面的预测性能和可解释性将优于深度神经网络,同时在计算效率上也具有优势,这对于实际农业应用至关重要。
当前关于土壤微生物组的机器学习研究存在一些不足:小型数据集限制了模型的泛化能力,模型比较较少,可解释性有限,实际应用也存在挑战。本研究通过分析来自45个国家的5000个样本的六个模型,比较了梯度提升和深度学习的方法,解决了这些问题。SHAP分析识别了关键特征和风险因素,将预测结果转化为农民可用的信息。我们还评估了实际应用中的计算效率。
数据来源和样本收集
本研究采用系统性的文献回顾和数据提取方法,汇编了一个包含土壤传播植物病原体及其相关土壤微生物组和环境特征的全面数据集。我们系统地搜索了2020年1月至2025年12月期间发表的同行评审科学文献,以识别报告实验室确认的土壤病原体鉴定结果以及相关的土壤性质和环境条件的定量数据。
整体模型性能
LightGBM在所有评估指标上均表现出优越的预测性能,AUC-ROC值为0.94(95%置信区间:0.92-0.96),显著优于所有竞争模型。该模型的精确度为0.91,召回率为0.89,F1分数为0.90,表明在识别真实病原体案例的同时,误报率较低。交叉验证分析显示在不同数据分割下的性能稳定(AUC-ROC的标准差为0.02)。
主要发现
这项全面研究表明,梯度提升方法(特别是LightGBM)在从表格形式微生物组数据预测主要土壤病原微生物方面显著优于深度学习方法。LightGBM的AUC-ROC值为0.94,而深度神经网络的AUC-ROC值为0.87,提高了7个百分点,这对农业疾病管理具有实际意义。除了更高的准确性外,LightGBM的训练速度也快了8倍。
结论
本研究表明,梯度提升方法(尤其是LightGBM)在从微生物组数据预测土壤病原体方面优于深度学习。通过对5000个样本的分析,LightGBM的AUC-ROC值为0.94,而深度神经网络的AUC-ROC值为0.87,提高了7%,这意味着每1000个样本可以多识别出约70个病例。LightGBM具有更快的训练速度、更好的可解释性,并且通过效率、正则化处理缺失数据以及通过SHAP提供可解释性,更适合农业数据。
数据访问
本研究的支持数据可向相应作者请求获取,但需遵守知识产权协议和数据保护法规的限制。符合条件的研究人员可以出于验证目的获得数据访问权限,但需签署适当的保密协议。
个人关系
作者声明没有可能影响本研究结果的个人关系或隶属关系。
机构利益
所有机构隶属关系均已正确声明。作者声明与本研究无关的机构利益冲突。
其他利益
作者声明没有其他可能影响研究结果或解释的利益关系或情况。CRediT作者贡献声明
肯齐·梅里姆(Kenzi Meriem):撰写——审阅与编辑、初稿撰写、软件开发、正式分析、数据管理、概念构建。哈贾·法蒂玛·特巴赫里蒂(Hadja Fatima Tbahriti):撰写——审阅与编辑、初稿撰写、可视化、验证、项目监督、正式分析、概念构建。梅里姆·本贝尔努(Meriem Benbernou):撰写——审阅与编辑、初稿撰写、可视化、软件开发、方法论设计、正式分析、数据管理、概念构建。哈杰尔·凯利法(Hadjer Khelifa):撰写——审阅数据可用性
本研究分析的数据集来自SciSpace平台,包含专有的农业数据(5000个样本,来自45个国家,时间跨度为2020-2025年)。这些原始数据作为商业疾病诊断平台的一部分受到知识产权保护数据包含有关农场位置和专有土壤管理实践的敏感信息。
代码可用性
模型实现代码(预处理、训练、评估)可应要求向相应作者提供,用于学术用途。
利益冲突
作者声明没有利益冲突。资助方未参与研究的设计、数据收集或分析、手稿的撰写,也未参与发表结果的决策。
利益冲突声明
作者声明与本手稿的发表无关任何利益冲突。本研究未获得公共、商业或非营利部门的任何特定资助。
财务利益
作者声明没有可能影响本研究工作的竞争性财务利益,包括就业、咨询、酬金、股票持有或专利等。
资助
本研究未获得公共、商业或非营利部门的任何特定资助。
利益冲突声明
作者声明没有可能影响本文工作的竞争性财务利益或个人关系。
致谢
本研究使用了SciSpace网站的数据。我们感谢所有提供土壤样本和元数据的研究人员、技术人员和农民的贡献。我们也感谢维护标准化采样协议的全球合作网络,这些协议确保了数据的质量和可比性。