《Smart Agricultural Technology》:Species distribution models and machine learning algorithms for medicinal and industrial plants conservation: Bridging habitat suitability and phytochemical quality mapping
编辑推荐:
本系统综述综合了90项同行评审研究(2015-2025年),这些研究利用物种分布模型(SDMs)和机器学习(ML)来保护药用和工业植物、指导其栽培并绘制植化品质图。研究人员系统检索了Scopus、Web of Science、ScienceDirect和Goo
本系统综述综合了90项同行评审研究(2015-2025年),这些研究利用物种分布模型(SDMs)和机器学习(ML)来保护药用和工业植物、指导其栽培并绘制植化品质图。研究人员系统检索了Scopus、Web of Science、ScienceDirect和Google Scholar,使用了针对SDMs、精准农业、植化品质制图和机器学习的定向术语。由于纳入研究在研究设计、算法和评估指标上存在显著异质性,未进行Meta分析。研究纳入标准为:应用空间显式建模于药用和工业物种,并报告模型评估指标或品质相关结果。研究人员总结了两种互补范式下的方法学趋势、预测因子选择、验证策略和应用路径:基于发生数据的分布模型和感知质量的(植化整合)模型。MaxEnt仍是仅发生数据(occurrence-only data)的首选,而随机森林(Random Forest)、支持向量机(SVM)和集成/混合框架正越来越多地用于发生-缺失数据集(occurrence–absence datasets)和化合物预测。整合土壤(edaphic)和植化预测因子增强了栽培规划的操作相关性,但地理参考的植化数据集稀缺、存在地理偏差且常缺乏标准化采样元数据。验证实践显示出令人鼓舞的转变,即转向空间结构化交叉验证(spatially structured cross-validation)和多指标报告,但很少进行独立的外部验证。感知质量的研究经常记录高适宜性与峰值化合物浓度之间的空间解耦(spatial decoupling),强调需要共同优化持久性和产品质量。研究人员确定了三个优先行动:(1)扩展和标准化的地理参考植化采样,(2)开发可迁移和可解释的建模工作流程,以及(3)将SDM输出与管理及价值链参与者联系起来的操作决策框架。文中提供了一份关于预测因子选择、采样设计、模型评估和不确定性沟通的最佳实践清单,以指导可重复、面向利益相关者的应用。
1. 引言
药用植物通过提供生物活性化合物支撑着全球医疗、生计和生物多样性,但许多分类群面临气候变化、栖息地丧失和过度采集的威胁。为了预见这些风险并支持保护规划,物种分布模型(SDMs)和机器学习(ML)已成为连接物种发生及其性状与环境预测因子的关键工具,用于绘制当前适宜性地图并预测未来变化。常用算法包括MaxEnt、广义线性和加性模型、随机森林以及集成框架,这些算法可概念性地分为统计、机器学习和混合家族(Figure 1)。在药用植物研究中,两种互补的建模范式占主导地位:一是分布导向建模,利用仅发生或发生-缺失数据预测适宜与非适宜栖息地,以识别保护区、再引入地点和潜在气候避难所;二是感知质量建模,整合植化或生理指标,不仅绘制植物可生长的区域,还绘制其达到药物理想成分的区域,例如对人参属(Panax notoginseng)皂苷、黄芩(Scutellaria baicalensis)黄芩苷(baicalin)的空间预测。近期方法学进展强调了仔细选择预测因子、控制共线性、采用空间显式交叉验证和量化不确定性的重要性。
2. 精准农业、GIS与增强现实
精准农业旨在通过整合来自田间传感器、物联网(IoT)网络、无人机(UAVs)和卫星遥感的密集多源地理空间数据,优化水、肥料和种子等农业投入品的时空利用。地理信息系统(GIS)作为这一过程的分析骨干,支持数据融合、空间建模以及生成可操作的图层,如适宜性、风险和推荐地图。增强现实(AR)为这些地理空间输出提供了以人为本的界面,将复杂的空间预测转化为直观的、位置感知的可视化图像。在此背景下,生境适宜性建模(HSM),通常与物种分布建模(SDM)互换使用,通过将发生或表现数据与环境预测因子相关联来预测特定区域支持物种或作物的能力。单模型方法(如MaxEnt、RF、SVM)生成适宜性表面,而混合或集成模型结合多种算法或结构以减少偏差、增强鲁棒性并量化模型不确定性。对于药用和芳香植物,将SDMs/HSMs与植化和生理数据集以及时间序列遥感指数(如NDVI、地表温度和土壤水分)相结合,代表了从单纯的基于发生的适宜性绘图向感知质量分区(quality-aware zoning)的转变——即预测物种不仅在哪里生长,而且在哪里可能以最佳浓度生产目标化合物。一个完全集成的GIS–SDM–AR流程结合了传感器驱动的监测、集成建模和实时可视化,可以将静态适宜性地图转化为动态且随时可用于田间的管理工具。
3. 搜索策略与数据综合
本研究遵循PRISMA 2020指南进行了系统评价(非Meta分析)。研究人员系统检索了Scopus、Web of Science、ScienceDirect和Google Scholar四个电子数据库,检索时间范围为2015年1月至2025年12月。初始检索得到143条记录,去重后剩余115条独特记录进入标题和摘要筛选。经过全文评估,最终纳入90篇文章。PRISMA 2020流程图记录了完整的筛选过程(Figure 2)。
4. 主题分析
4.1. 基于发生的模型
基于发生的建模仍然是药用植物分布分析的基石。在仅发生数据中,MaxEnt是使用最广泛的算法,因其灵活的正则化和对稀疏数据的适应性而备受重视。然而,两个因素控制着MaxEnt和许多ML模型的可靠性:空间采样偏差的处理和系统性的超参数调整。如果没有明确的偏差校正,模型可能会映射采样工作而非真实的生境适宜性。比较评估表明,虽然MaxEnt在当前条件下的区域内预测表现与集成框架相当,但在跨空间或气候变化情景下预测时,集成方法表现出更优越的性能。这是因为集成方法结合了多种算法的预测,通常具有不同的响应函数和对环境梯度的敏感性,从而产生共识预测以减轻单个算法的弱点。当可获得发生-缺失或伪缺失数据时,基于树的算法(特别是随机森林RF和增强回归树BRT)越来越受欢迎,因为它们能捕捉非线性关系并提供变量重要性指标。总体而言,数据质量、采样设计和预测因子选择往往比算法本身对模型精度的影响更大。
4.2. 感知质量和植化整合建模
这一领域出现了三种主要策略。第一种是两步序贯建模,首先利用SDM(如MaxEnt)基于发生和环境变量预测生境适宜性,然后使用统计或模糊逻辑模型将植化浓度与环境预测因子相关联,并叠加结果以产生质量分区图。第二种是集成ML的质量预测,直接将质量预测纳入建模流程,使用RF、GeoDetector和k-means聚类等算法。研究表明,预测生境发生的最佳算法不一定是预测代谢物浓度的最佳算法,且RF和BRT在捕捉环境梯度与次生代谢物丰度之间的非线性多元关系方面表现优异。第三种是化学计量-空间整合,将化学计量技术(如GC × GC、PLS-DA)与空间模型耦合,直接连接化学成分特征与生境特征。算法应用概览总结于Figure 3和Table 1中,显示MaxEnt(47%)和RF(22%)的主导地位,以及集成方法(18%)的增长趋势。
4.3. 预测因子与特征工程
预测因子的选择对模型至关重要。四个主要的预测因子类别占主导地位:气候、地形、土壤(edaphic)和人为因素。气候变量(源自WorldClim或CHELSA)是最常用的,特别是对于受温度和水分梯度影响的温带和高山分类群。地形变量(如高程、坡度、坡向、TWI)捕捉微气候效应,而土壤理化性质(pH、有机质、养分)往往是窄土 niche 物种的决定性因素,也是连接土壤化学与植化质量的关键。人为变量(土地利用、道路距离)量化了直接的人为压力。此外,遥感指数(NDVI、EVI、干旱指数)越来越多地被用作植被活力和生产力的代理指标。特征工程技术,如计算地形指数、气候异常或基于PCA的变量缩减,在模型优化中起着关键作用。Figure 4和Table 2总结了各预测因子类别的相对使用和多样性,显示从仅气候方法向结合气候、土壤、人为和化学信息的多维模型的明显转变。
4.4. 模型评估与验证
严格的模型评估对于确保药用植物模型和感知质量模型的可靠性至关重要。传统的k折交叉验证和随机数据划分仍然被广泛使用,但这些方法在空间自相关存在时可能会夸大性能指标。为了克服这一问题,空间结构化交叉验证已成为最佳实践,特别是在碎片化生境和气候变化预测中。评估指标因模型类型而异:二元适宜性模型(如MaxEnt)通常报告AUC、TSS和Kappa;基于回归的质量模型(如RF、BRT)依赖RMSE、MAE和R2。阈值选择在管理决策中起着关键作用,小的截止标准变化会显著改变适宜性分类。尽管取得了这些进展,但使用独立于模型校准的数据进行的独立验证仍然很少见,而这提供了最严格的迁移性测试。Table 3总结了常见的数据限制、偏差校正和小样本策略,包括空间稀疏化、生态信息伪缺失生成和空间块交叉验证。Figure 5概述了典型的评估工作流程。Table 4和Table 5提供了基于空间显式交叉验证的模型性能指标的定量总结,显示集成模型实现了最高的平均AUC(0.94 ± 0.03),其次是RF(0.91 ± 0.05)和MaxEnt(0.89 ± 0.04)。
4.4.1. 基于回归的植化模型的诊断检查
在使用线性回归或基于GLM的方法预测植化浓度时,违反统计假设会导致有偏差的系数估计和不可靠的预测区间。在采用线性或GLM方法的综述研究中,不到30%明确报告了对异方差性、残差非正态性或异常值影响的诊断检查。当检测到违规时,采用了数据转换(如对数变换)和稳健回归方法(如分位数回归)。越来越多的研究用机器学习替代方案取代了传统线性模型,这些模型完全放宽了分布假设。
4.4.2. 验证策略对报告性能的影响
验证策略的选择直接影响报告的性能指标。研究发现,使用随机k折交叉验证的研究报告的AUC值始终高于使用空间显式验证的研究,平均差异在0.08到0.15个AUC单位之间。这是因为随机划分忽略了空间自相关,导致判别指标人为膨胀。相比之下,采用空间交叉验证的研究报告的AUC值较低但更符合实际。独立外部验证的研究显示出最大的内部与外部表现差距,平均低0.12-0.18个AUC单位。这意味着原始AUC值不能在不同研究间直接比较,必须考虑验证协议。
4.5. 应用:从预测到保护、栽培和政策行动
SDMs的预测输出超越了学术练习,作为保护规划、可持续栽培和政策制定的决策支持工具。SDMs越来越多地用于识别保护、恢复和再引入的优先栖息地。例如,针对濒危喜马拉雅草本植物滑叶楠(Litsea glutinosa)的集成SDM确定了未来气候情景下的保护缺口和潜在避难所。在栽培方面,生境适宜性与植化建模的整合实现了感知质量的栽培规划。例如在三七(Panax notoginseng)中,MaxEnt和RF模型分离了生态适宜区和高皂苷生产区,促进了差异化管理策略。同样,八角茴香(Illicium verum)的质量分区图源自化学计量-SDM整合,确定了精油生产区域。重要的是,这些研究强调生物量和质量峰值很少重合,需要在变化的气候条件下进行双标准优化。
5. 结论
该综述确立了SDMs和ML在药用和工业植物保护及可持续利用中的变革潜力。通过系统地综合90项研究,文章阐明了从单纯的分布测绘向感知质量、决策导向建模的演变。未来的研究应优先考虑标准化的地理参考植化采样、可迁移的工作流程和将模型输出与利益相关者行动联系起来的操作框架,以确保预测不仅在统计上稳健,而且在生态和管理上具有现实意义。