微生物功能基因预测模型：迈向根腐病早期预警与土壤健康管理新策略中文标题：功能基因驱动的机器学习模型：实现根腐病早期预警与可持续农业管理

《Advanced Science》：Forecasting Root Rot Disease through Predictive Microbial Functional Profiling

【字体：大中小】 时间：2026年02月19日 来源：Advanced Science 14.1

编辑推荐：

　　本研究报道了一种创新的根腐病预测框架。通过对199对根际土壤样本进行宏基因组测序，研究者识别出三个与植物健康状态密切相关的保守功能基因（K18968, K15011, K13290）。随后，他们开发了针对这些基因的低成本qPCR（定量聚合酶链式反应）检测方法，并结合机器学习（ML）模型。该模型在独立、症状前土壤样本中实现了超过80%的病害发生预测准确率。这项成果为超越简单的微生物相关性分析，迈向主动的病害预报工具提供了实践路径，将微生物功能基因置于病害管理的核心，为缓解土传风险和实现可持续农业提供了精准方案。

1 引言

土传病害，如由尖孢镰刀菌（Fusarium）和立枯丝核菌（Rhizoctonia）等病原体引起的根腐病，给高价值作物特别是根茎类药用植物带来严重的产量损失。由于早期感染发生在地下，对于这类作物，“预测性预报”远比“回顾性诊断”更具实用价值。然而，当前的主流诊断方法主要通过PCR（聚合酶链式反应）检测特定病原体，在田间应用中常面临局限：其一，病原体丰度与病害严重程度并不总是线性相关；其二，这些检测忽略了本土土壤微生物组固有的病害抑制潜力。此外，病原体种群通常在病害过程中，尤其是在中后期才会激增，这使得仅基于病原体丰度来预测病害结果变得极具挑战。

在此背景下，根际微生物组充当了土壤健康的复杂“生物传感器”。使用微生物分类学组成进行病害预测的一个主要局限在于其与功能活动的频繁脱节，即知道“谁在那里”并不能很好地指示它们在土壤中“正在做什么”。此外，基于分类单元的指标高度依赖于具体环境，其预测信号常受局部环境条件的混杂和覆盖，这严重限制了此类诊断模型在不同田地或土壤类型间的可转移性。尽管根际微生物组的分类组成深受土壤背景和宿主物种的影响，但其功能组成却保持相似。这表明在不同作物的根际生态系统中存在保守的遗传特征。一个充满前景的转变是从编目微生物分类学转向分析其功能性状，因为编码关键代谢过程的基因直接影响植物-微生物相互作用和土壤健康。例如，硝化基因（如amoA）和反硝化基因（如nirK, nosZ）的丰度与氮循环效率和土壤健康密切相关，而生物膜相关基因（如pelA, epsB）的上调通常与增强的根系定殖和病原体拮抗作用相关。重要的是，这些功能基因丰度的变化可能在疾病可见症状出现之前就预示着肠道或土壤的生态失调。尽管医学微生物学的研究暗示了功能基因转变用于早期疾病检测的潜力，但这一概念在植物土传病原体方面仍基本未被探索。

尽管潜力巨大，但在实验室发现与实际应用之间仍存在显著的转化鸿沟，因为当前研究往往沿着两条并行但脱节的路径前进。一方面，发现阶段的宏基因组学能够有力地识别候选功能生物标志物，但对于常规应用来说通常过于昂贵和复杂，且其发现主要停留在相关性层面，缺乏预测模型。另一方面，像qPCR这样的靶向检测提供了常规监测所需的精度和可及性，但它们要求研究人员已经确切知道要追踪哪些靶标以及界定问题的阈值是什么。这种根本性的脱节意味着功能基因谱很少被转化为可操作的预测。事实上，在植物病理学领域，利用微生物功能基因特征成功构建稳健、可田间部署的病害预测模型的研究仍然非常有限。

本研究旨在验证一个假设：一组最简化的保守微生物功能基因可以构成预测根腐病发生的框架核心。遵循上述整合流程，研究者（i）对199对根际样本进行宏基因组测序，以识别稳健的生物标志物候选基因；（ii）开发了相应的qPCR检测方法进行靶向定量；（iii）将基因丰度数据与机器学习结合以构建预测模型。在独立的一组症状前土壤样本上的初步验证表明，该框架可以以超过80%的准确率预测根腐病的发生。

2 结果

2.1 根际微生物组的保守遗传特征作为跨不同宿主和土壤的根系健康稳定指标

为识别用于根腐病的根际微生物功能生物标志物，研究者分析了来自中国多个地理区域、不同代表性药用根茎植物的总共199对健康和患病根际土壤样本。整体工作流程包括用于生物标志物发现的宏基因组测序、qPCR验证和机器学习模型开发。共获得1545.82 Gbp的高质量清洁数据。在物种水平，在健康和患病组中分别鉴定出874种真菌和48,014种细菌。

对物种水平的微生物α多样性分析表明，所有五个细菌指数（香农指数、物种数、辛普森指数、均匀度指数和Chao1指数）以及两个真菌指数（香农指数和辛普森指数）在健康组中均显著高于患病组。此外，从京都基因与基因组百科全书（KEGG）中识别出342条通路和5897个功能直系同源群（KO）。基于Bray-Curtis距离的主坐标分析（PCoA）显示，健康样本的根际细菌、真菌和KO基因谱与患病样本明显分开。PERMANOVA（置换多元方差分析）表明，健康和患病组在KO基因、细菌和真菌上存在显著差异。基于PERMANOVA分析，虽然健康状况显著影响了微生物和功能基因谱，但植物物种是群落变异的最强决定因素。地理位置也有显著贡献，细菌和真菌群落在不同省份间均显示出显著变异。相比之下，功能基因谱（KO基因）未表现出显著的地理分化。这些结果突显了微生物群落结构比功能基因谱对地理变异更敏感，并强调在扩展此预测框架时需要同时考虑宿主和环境背景。研究者进一步分析了物种（细菌和真菌）和KO基因的核心程度（定义为一个基因或物种在所有样本中出现的频率）。值得注意的是，根际微生物组的KO基因绝大多数由核心基因（核心程度：90%–100%）主导，占所有基因实体的67.5%。相比之下，核心细菌和真菌物种的比例显著低于KO基因，分别仅为27.5%和3.01%。这些发现揭示了根际微生物组内微生物功能基因的保守性质，并强调了建立源自根际微生物群功能基因的健康生物标志物的重要性。

2.2 识别与根腐病相关的关键微生物功能基因生物标志物

研究者利用从宏基因组数据衍生的KO基因丰度谱进行加权基因共表达网络分析（WGCNA），以识别与根腐病相关的功能基因。该分析构建了12个共表达模块。其中，三个模块与植物健康状况表现出异常强且显著的相关性，被选中进行进一步研究。随后对这三个疾病相关模块的基因成员（总计770个KO基因）进行了显著时间表达分析（STEMP）。该分析最初识别出216个在健康和患病根际样本间具有名义上显著差异丰度的KO基因。为确保稳健性并控制错误发现率，研究者采用了严格的多重比较Bonferroni校正，阈值设定为p< 0.01。这种严格的统计过滤最终确定了三个KO基因（K18968， K15011， K13290）作为最显著且可靠失调的生物标志物。这三个KO基因参与了关键的微生物过程：K18968（二鸟苷酸环化酶）参与生物膜形成，K15011（双组分系统传感器激酶）参与应激和毒力响应，K13290（丝氨酸-丙酮酸转氨酶）参与氨基酸代谢和植物-微生物共生。值得注意的是，这三个关键基因的表达模式显示出明显的二分性：基因K18968和K15011在患病组中显著富集，而基因K13290则在健康组中显著富集。此外，这些关键基因的分类学分配揭示了不同的微生物来源。疾病相关基因K18968和K15011主要由已知具有多功能代谢和潜在致病性的细菌属贡献，如Pseudoxanthomonas_A、Pseudomonas_E和Enterobacter。相比之下，健康相关基因K13290主要来源于硝化螺旋菌属（Nitrospira）和红杆菌属_D（Rubrobacter_D）内的硝化和寡营养类群，这些类群通常与养分循环和土壤生态系统稳定性相关。

土壤理化性质分析证实，样本集涵盖了广泛的土壤条件，确保了研究结果的代表性和普适性。测量了包括pH、阳离子交换容量（CEC）、水分含量、有效氮（NO₃^-─N和NH₄⁺─N）、有效磷（AP）、有效钾（AK）以及DTPA（二乙烯三胺五乙酸）提取的钙（Ca）、镁（Mg）和钠（Na）在内的多个土壤参数。相关性分析显示，三个关键微生物功能基因的丰度与其中几个土壤性质相关。具体而言，DTPA提取的Ca、Mg、Na和有效K的含量与疾病相关基因（K18968和K15011）呈负相关，但与健康相关基因K13290呈正相关。相反，土壤水分、NH₄⁺─N、NO₃^-─N和有效P的含量则表现出相反的相关模式。这些观察到的关联表明，局部土壤环境可能影响根际微生物组的功能潜力，从而影响植物健康结果。

2.3 使用q-PCR验证关键功能基因生物标志物

为了将宏基因组学识别的遗传生物标志物转化为可部署的诊断工具，研究者开发了一种靶向三个与根腐病状态强相关的KO基因（K18968， K15011， K13290）的定量PCR（qPCR）检测方法。在所有199对健康和患病根际土壤样本中定量了这些基因的丰度。qPCR结果有力地证实了宏基因组测序数据中观察到的趋势：两个疾病相关基因（K18968和K15011）在患病组中显示出显著更高的丰度，而健康相关基因（K13290）在健康样本中显著更丰富。此外，qPCR的定量结果与源自宏基因组测序的丰度值显示出强且统计显著的正相关。这种高度的一致性验证了qPCR检测作为在复杂土壤环境中量化这些关键微生物功能基因标记的可靠、准确且经济高效的方法。相比之下，通过qPCR对根际尖孢镰刀菌丰度的定量分析显示，健康和患病根际样本之间没有显著差异。这些结果证实，qPCR是量化复杂土壤基质中微生物功能基因的可靠且高效的方法。而且，与病原体本身的密度相比，这些功能基因的丰度是区分健康和患病植物更有效的指标。

2.4 使用基于微生物功能基因的机器学习模型诊断和早期预测根腐病

为了开发根腐病的预测模型，研究者利用了三个关键生物标志物基因（K18968， K15011， K13290）的qPCR丰度数据。199个样本的数据集被随机分为训练集（70%）和独立测试集（30%）。使用训练集上的5折交叉验证评估了七种机器学习模型的性能。其中，随机森林（RF）和支持向量机（SVM）模型在区分测试集中的健康与患病样本方面表现出卓越的性能，分别实现了0.953和0.970的高平均AUC（受试者工作特征曲线下面积）值。为了进一步评估模型的早期预测能力，研究者建立了一个独立的早期外部数据集，包含64个具有区域地理多样性的土壤样本。这些土壤样本来自甘肃省（当归和黄芪的主要传统种植区）多个县的多个地块，在种植前采集。分析了它们的功能基因谱以生成预测，随后根据在相应土壤中种植的植物的健康状况进行验证。在温室实验结束时，根据健康状况将植物分类为患病或健康。有趣的是，当将该外部数据集的qPCR数据应用于训练好的模型时，MLP（多层感知器）、SVM和RF未能展示出强大的早期诊断能力。相比之下，AdaBoost分类器成为唯一实现最佳性能的模型，AUC为0.801。这一结果强调了其在多样化土壤样本中进行症状前预测的稳健性和泛化能力。

3 讨论

本研究中，病原体尖孢镰刀菌本身的丰度在健康和患病根际样本间未显示显著差异，表明仅病原体丰度不足以预测植物健康状况。这种不一致可能源于复杂的土壤基质，其中微生物功能和相互作用而非单纯的病原体存在决定了病害结果。土壤通常拥有多样化的微生物群落，可以通过竞争或拮抗作用抑制病原体毒力，从而使病原体密度与疾病严重程度脱钩。这种功能冗余和依赖于上下文的致病性凸显了以病原体为中心诊断的局限性，并强调了整合微生物生态动力学的基于功能基因的指标的必要性。基于KO基因的PCoA显示健康和患病样本间的强分离，进一步支持了功能基因在诊断土传病害方面的预测潜力。这与日益增长的共识相符，即功能谱通常比单独的物种分类数据更能反映土壤微生物状态。

三个已识别的KO基因：K18968（adrA；二鸟苷酸环化酶）、K15011（regB, regS, actS；双组分系统传感器组氨酸激酶RegB）和K13290（丝氨酸-丙酮酸转氨酶）代表了参与微生物适应和植物-微生物相互作用的关键功能通路。涉及通过二鸟苷酸环化酶活性形成生物膜的K18968在患病样本中显著富集。该基因促进细菌附着和生物膜形成，可能增强病原体在根际的持久性。类似地，编码双组分系统传感器激酶的K15011调节微生物应激反应和毒力因子表达，有助于患病土壤中的病原体适应。相比之下，参与甘氨酸、丝氨酸和苏氨酸代谢的K13290在健康样本中显著富集。该基因可能通过多种机制支持植物健康，包括合成保护性代谢物、调节植物防御反应以及维持微生物群落稳定性。K13290在健康植物中的富集强烈暗示其在维持有益的植物-微生物共生关系中的作用。

Ca、Mg、Na、K与疾病相关基因（K18968和K15011）的负相关，以及它们与健康相关基因K13290的正相关，表明这些矿物质对致病性状有抑制作用，并对有益功能有刺激效应。具体来说，充足的Ca和Mg可用性可能增强植物细胞壁并加强防御信号传导，从而降低生物膜形成或毒力激活病原体的生态优势。相反，K13290有助于甘氨酸和丝氨酸代谢，支持保护性代谢物的合成并促进微生物共生。较高的K⁺和Ca²⁺可用性可能促进这些有益的代谢途径，增强植物-微生物合作和系统稳定性。相比之下，土壤水分、NH₄⁺─N、NO₃^-─N和P则表现出相反的相关模式，与疾病相关基因正相关，与K13290负相关。过量的土壤水分可能创造缺氧条件，有利于利用K18968的生物膜形成病原体，而高氮磷水平可能破坏微生物化学计量，上调如K15011这样的应激感应通路，并抑制如K13290这样的中心代谢酶。

本研究弥合了微生物功能基因作为指标的潜力与其作为土壤健康管理预测工具的实际应用之间的关键鸿沟。qPCR检测成功验证了宏基因组学发现，显示测序与定量PCR数据之间存在强相关性。这表明，靶向定量关键功能基因可以为常规监测提供一种可靠的、经济高效的复杂宏基因组分析替代方案。这些方法之间的一致性支持了所识别生物标志物的潜在稳健性，并暗示它们可能适用于田间应用。

将经济高效的qPCR定量与机器学习相结合是我们预测框架的基石。这种协同作用将静态的基因丰度数据转化为动态的预测工具，从描述走向预测。随机森林和SVM模型在区分健康和患病样本方面的卓越性能，凸显了集成学习和基于核的方法在处理微生物丰度数据用于诊断目的方面的强大能力。值得注意的是，AdaBoost分类器在早期预测方面表现最为有效，在多样化土壤样本的独立验证中AUC达0.801。AdaBoost在早期疾病预测中表现出卓越性能，可能是因为它能够检测复杂土壤数据中微妙的微生物基因模式，并且对类别不平衡具有相对稳健性。这些特性使其特别适合于识别生物信号微弱且常受环境变异干扰的症状前土壤条件。分析揭示了一个清晰的场景依赖性适用性：虽然MLP、SVM和随机森林在内部测试中表现出色，但AdaBoost在外部验证集上表现出最强的泛化能力。因此，对于早期风险预测（对新数据的稳健性至关重要），推荐使用AdaBoost，而像SVM和随机森林这样的模型可能保留用于内部性能是唯一优先级的场景。

研究者开发了一个实用的流程，将微生物功能基因特征转化为土壤健康诊断工具。该工作流程有效地将复杂的宏基因组学见解转化为一个由人工智能赋能的、基于qPCR的简单检测，使预测性土壤健康评估变得可及且实用。使用早期土壤样本（植物症状发展前）准确预测疾病发生的能力，为预防性管理提供了前所未有的机会。

通过整合宏基因组筛选、基于qPCR的定量和机器学习建模，本研究开发了一种整体方法，可以以超过80%的准确率预测疾病发生，显示出作为可持续农业管理实用工具的潜力。总而言之，尽管相关研究有力地证明了微生物群落数据和机器学习的实用性，但我们的工作通过以下方式推进了范式：（i）专注于机制上信息丰富的功能基因，而非分类学或一般宏基因组谱；（ii）建立了从发现到潜在可田间部署的qPCR检测的完整转化流程；以及（iii）使用一组最简化的保守生物标志物对症状前预测进行了稳健验证。

热点排行

新闻专题