模型可转移性的再思考：基于有效性域的花期预测边界新探

《Global Change Biology》：Rethinking Model Transferability: Validity Domains as a New Approach to Delineate the Limits of Bloom Date Projections

【字体：大中小】 时间：2026年03月13日 来源：Global Change Biology 12

编辑推荐：

　　本文通过引入“有效性域(Validity Domains)”这一新框架，重新审视了在气候变化背景下模型预测的可靠性问题。研究以日本樱花(Prunus × yedoensis)花期观测为案例，系统比较了基于过程的模型(process-based models)与机器学习模型(machine-learning models)在不同气候梯度下的预测性能。结果表明，模型的可转移性不仅取决于预测与校准条件的距离，还高度依赖于校准环境在气候梯度上的绝对位置。该框架为评估和选择适用于未来气候情景的预测模型提供了更为稳健和实用的指导。

1 引言

为应对气候变化的影响，决策者和研究者高度依赖模拟模型。在环境科学中，模型常被用于预测未来的生态系统功能、物种分布、农业产量和物候过程。这类模型通常使用历史或近期观测数据进行校准，并通过独立的观测数据进行验证。然而，在相似条件下验证模型并不能确保其在全新场景（如全球变暖）下具有稳健的预测性能。为了评估模型的可转移性，许多研究测试了模型在空间、时间或系统发育维度上超越校准条件的应用程度。然而，由于数据缺乏，模型的可转移性通常只针对少数几种条件进行量化，导致模型性能的差异和潜在关系未被充分揭示。

本研究引入“有效性域”这一概念，以扩展“预测视界”框架。该概念不仅考虑了与校准数据的外推距离，还考虑了校准和应用条件沿环境梯度的绝对位置。有效性阈值定义为特定情境下可接受的最低预测精度。通过识别预测误差低于此阈值的区域，有效性域为评估模型在气候变化条件下的适用性提供了一个稳健框架。本研究以日本樱花（染井吉野樱）花期的长期公开数据集为例，测试模型的可转移性并阐述有效性域的概念。

2 材料与方法

研究数据来源于日本气象厅发布的染井吉野樱初花期物候记录。我们从102个地点中选择了48个进行分析，这些地点的季节性平均温度范围从札幌的5.1°C到鹿儿岛的15.4°C。数据可用年限从27年到64年不等，平均约为46年。研究中将日最低和最高温度数据转换为模型所需的每小时温度数据。

在建模方法上，我们采用了两种模型：基于过程的PhenoFlex模型框架和机器学习中的高斯过程模型。PhenoFlex框架包含用于累积寒冷的动态模型和用于计算热量的生长度时模型，其12个参数根据原始文献的建议进行了拟合。对于每个选定的地点，我们分别用两种方法校准模型，然后系统性地用所有其他地点的观测数据验证这些模型，共计产生2304种校准-验证组合。

我们使用均方根误差来评估两种方法的模型性能。对于过程模型框架无法预测花期的少数情况，我们将所有不可计算的值设为35天的任意误差值。随后，我们使用克里金法将个体组合的结果插值为连续的二维曲面，并在此基础上，以5天RMSE为阈值，为两种方法划定有效性域。

为了评估模型在不同气候情景下的性能，我们模拟了未来两个时间段（2035-2065年和2070-2100年）的天气，并对应共享社会经济路径SSP1-2.6、SSP2-4.5和SSP5-8.5。我们将未来的温度分布与历史观测的开花记录中类似的温度条件进行匹配，从而预估使用过去数据校准的模型在预测未来相同地点花期时可能产生的误差幅度。

3 结果

我们通过将沿整个温度梯度校准的模型应用于代表所有条件的验证数据，评估了过程导向模型和机器学习模型的可转移性。研究发现，当校准和验证条件相似时，两种方法的性能都是最好的。一般来说，随着校准和验证条件差异的增大，模型性能会下降。

对于过程导向模型，在寒冷气候地点（6°C–12°C）观察到了一致的较高性能，校准温度条件的偏差仅导致性能轻微下降。随着平均温度升高（12°C–15°C），能产生良好性能的校准-验证组合范围变窄。在高温条件下（15°C–16°C），只有在校准条件非常相似时模型才表现出合理的性能，但即使如此，预测精度也相对较低，RMSE值超过5天。非对角线测试揭示了性能下降的不对称性：在温暖条件下校准的模型在寒冷验证条件下误差较大（RMSE约15天），而在寒冷条件下校准的模型应用于温暖验证条件时误差更大（RMSE > 20天）。后者有相当数量的应用导致了预测失败，特别是当在寒冷地点校准的模型应用于温带或温暖的验证地点时。

对于机器学习模型，当在校准的相同地点进行验证时，其性能近乎完美。然而，当验证环境与校准条件仅有轻微差异时，这种高性能会急剧下降。许多在温暖地点校准的机器学习模型，当用来自寒冷气候的数据验证时，误差大于20天。相比之下，用寒冷地点数据校准的模型在广泛的条件范围内表现相当好，误差在5-12天之间。性能下降是均匀的，且比过程导向模型更平缓。机器学习模型表现出相反的非对角线不对称性：温暖校准的模型在寒冷验证条件下产生较大误差，而寒冷校准的模型应用于温暖验证时仅显示中等误差。在直接比较中，对于寒冷校准的模型以及校准和验证温度相似的情况，由于更好的性能和更广的有效性，过程导向方法被证明优于机器学习方法。而对于向更温暖验证条件的模型转移，机器学习模型比基于过程的模型表现更好，但仍会产生高达12天的较大误差。

进一步的实验使用了按温度状态分组的集合和全局合并数据集，结果与主要发现一致。当将分组模型转移到单个地点（或反之）时，过程基础方法在不同环境下保持稳定，性能变化均匀。相比之下，机器学习方法表现出更高的变异性，当地点和温度状态组相互验证时，性能波动更剧烈。

为了评估模型对未来气候的可转移性，我们评估了过程基础模型在与未来气候情景预测条件相对应的验证条件下的性能。总体上观察到三种模式：(i) 在寒冷地区，无论气候情景和情景年份如何，预期误差都保持较小；(ii) 在中等温暖地区，除了2085年最悲观的气候情景SSP5-8.5外，预期误差保持较小；(iii) 在温暖地区，即使是最乐观气候情景下的花期预测也容易出错。模拟的温暖地点的天气条件超出了可用验证数据的范围。在寒冷地区，预计在中等气候情景SSP2-4.5下，到2050年RMSE范围为4到5天，而在乐观情景SSP1-2.6下误差甚至更低。对于中等温暖地点，误差率与之前地点相似，RMSE峰值低于10天。对于较温暖的地点，将用观测数据校准的模型应用于近未来情景预测可能会带来较大误差。即使是最乐观的情景SSP1-2.6，在2050年的预测中也可能产生高达15天的误差。由此推断，要对比这些相对温和情景更温暖的条件进行可靠的花期预测将面临相当大的挑战。

4 讨论

我们通过沿宽广温度梯度系统校准模型，并评估这些模型用于预测不同温度状态时的表现，测试了物候模型的可转移性。基于结果，我们为每个模型定义了有效性域，以划定模型可被视为可靠的条件。对于这些有效性域内的温度条件，我们预期模型能产生准确的物候预测。

过程基础物候模型的有效性域集中在验证条件与校准条件匹配的组合周围。我们按温度排列数据，观察到模型性能总是随着与校准条件差异的增大而下降，但这种下降的程度沿校准温度梯度变化很大。在寒冷条件下校准的模型比在温暖地点校准的模型具有明显更宽的有效性域。造成这种模式的一个可能原因是，在温暖条件下，开花日期越来越依赖于内休眠期的寒冷累积，而不是随后生态休眠期的热量。由于寒冷累积无法直接观测，寒冷模型难以开发且可能远不如热量模型准确，导致在寒冷受限环境下比在热量受限环境下产生更大的预测误差。在温暖条件下模型性能不佳的另一个原因可能是，在此条件下，休眠动态不完全遵循我们过程基础模型概述的休眠进程。这种在温暖条件下的不良性能已在实验条件研究中被报道。

除了这些主要驱动因素外，几个额外因素也可能导致观察到的温暖校准性能下降。这些包括高温下寒冷和强迫响应的形状，以及非温度过程日益增加的影响。气候梯度温暖端有限的数据可用性，以及单一参数化公式无法捕捉的潜在局部适应，可能进一步加剧模型性能和可转移性的下降。同样重要的是要认识到，染井吉野樱在数据集中最温暖的地点接近其气候上限。在鹿儿岛以南，该物种已不常见，并主要被更适应热量的钟花樱桃所取代。这种生物学限制，加上模型的结构限制，可能会加剧温暖条件下的预测失败，特别是将在寒冷环境校准的模型转移到接近物种分布极限的条件时。

机器学习方法的有效性域与过程基础框架的有效性域有显著不同。对于机器学习模型，校准和验证条件相同时获得的误差接近于零，但即使验证条件与校准条件仅有轻微偏差，也会导致模型误差增加。在条件远离校准条件时，机器学习模型的性能下降比过程基础模型更平缓。机器学习模型通常依赖于大量数据，并采用自主搜索训练数据模式的无监督预测机制。这些模式可能不代表系统潜在的生物学机制，因此难以捕捉复杂现象，例如两个休眠期变暖的相反效应。几项研究强调了线性建模方法在未来预测中的糟糕表现，尽管这些方法可能是当前条件下温度响应的合理近似。

使用状态聚类分组进行的模型应用有助于将数据覆盖范围的影响与结构模型约束的影响分开。这表明观察到的有效性域主要源于模型的内在行为，而非数据不足。虽然更大、更多样化的校准集相比单一地点数据集提高了性能，但其应用并未改变两种方法有效性域的特征模式。过程基础模型的全局合并基线由于最大的数据覆盖度，在大多数条件下表现强劲。然而，即使这种全局校准在温暖条件下也显示出精度下降，凸显了当额外未建模因素变得有影响时的持续结构限制。在实际建模工作流程中，校准数据的多样性是可转移性的关键因素。汇集覆盖广泛环境条件的校准集，比简单地增加相似数据量更有益。相比之下，机器学习方法在不同地点和状态组之间验证性能的 erratic patterns 表明，校准过程中内化的数据结构通常与新条件下遇到的结构不匹配。这进一步支持了机器学习模型有限的外推能力，它们往往更依赖统计模式而非底层过程。

为了探究当现有模型被转移到与模拟未来情景相似的条件下时，过程基础模型的性能是否下降，我们比较了一系列条件下的性能与模拟情景下的性能。研究表明，将模型应用于更温暖的未来情景时可能会产生相当大的误差。然而，在寒冷到中等条件下校准的模型应用时误差较小，因为这些模型显示出更宽的有效性域。对于在温暖和边缘条件下校准的模型，温度范围已不能完全覆盖未来情景所跨越的条件，因此无法基于现有观测数据估计模型性能。但很可能性能会随着温度的持续升高而继续下降。这意味着将模型应用于模拟的未来数据时，误差有逐步升级的可能。应对这种性能下降的一个策略是在校准过程中纳入额外的数据。这些额外信息必须代表与未来几十年预测条件相似的情况，即气候相似地点。用来自此类气候相似地点的数据增强的校准集生成的模型，可能能够更可靠地预测未来趋势。

模型可转移性研究评估了模型在应用于与其训练或校准条件不同的条件时的表现。它们通常假设训练和校准条件之间的偏差会伴随着模型可转移性的下降或预测视界的缩短。我们的结果支持这些预期，但也表明性能下降取决于初始校准条件。特别是对于过程基础方法，这些校准条件决定了模型是否可以转移到特定的未来温度情景，还是无法期望其提供准确的预测。比较两种方法的有效性域，可以根据具体的预测意图和感兴趣的时间段选择量身定制的建模策略。我们的数据集所覆盖的广泛而连续的条件梯度，使得能够系统评估有效性域如何依赖于校准条件。这指示了沿连续温度梯度，寒冷限制的临界点与模型的结构限制在何处开始对可转移性产生负面影响。

一个能捕捉整个温度梯度植物响应的通用校准是理想的，但在实践中很少能实现，因为大多数数据集只提供有限的环境多样性，且物候观测的收集通常受限于年度周期。日本的樱花数据集在这方面是个例外，它跨越了广泛的纬度范围和超过六十年的观测，提供了许多未来情景的气候相似地点，支持了比通常可实现的更广泛的模型可转移性。我们不建议依赖特定地点的模型。相反，我们建议合并跨不同条件的观测，以最大化校准集内的气候多样性，这尤其当模型计划用于变化环境时，可提高可转移性。在组合此类数据集时，应优先考虑覆盖广泛的气候条件范围。如果观测方案具有可比性，可以合并来自多个地点或来源的数据。

连续的有效性域可能难以揭示，但它们为超越校准条件的可转移性提供了关键见解。我们的分析表明，验证数据的预测质量在很大程度上取决于初始校准温度以及所选择的建模方法。这表明，全面和系统的交叉验证对于建模策略的稳健验证非常重要，特别是当应用于通常与原始校准条件不同的未来情景时。这种扩展的验证概念不仅限于物候数据，也适用于模型被用于外推超越观测条件的其他情况。未来的实验可以设计为系统地生成可用于此类全面验证的数据。在某些情况下，可以结合沿相关梯度在不同条件下收集的现有数据集来划定有效性域。理解模型在不同领域的真实有效性，将增强我们进行准确预测的能力。

热点排行

新闻专题