美国本土范围内未设监测站流域的日流水温建模与预测

《Journal of Hydrology》：Daily stream water temperature modeling and forecasting for ungaged watersheds at the CONUS scale

【字体：大中小】 时间：2026年05月04日 来源：Journal of Hydrology 6.3

编辑推荐：

　　丹尼尔·菲利普斯（Daniel Philippus）| 克劳迪娅·R·科罗纳（Claudia R. Corona）| 特里·S·霍格（Terri S. Hogue）美国科罗拉多矿业学院土木与环境工程系，戈尔登，CO 80401 **摘要** 溪流水温（SWT）对社

　　丹尼尔·菲利普斯（Daniel Philippus）| 克劳迪娅·R·科罗纳（Claudia R. Corona）| 特里·S·霍格（Terri S. Hogue）
美国科罗拉多矿业学院土木与环境工程系，戈尔登，CO 80401

**摘要**
溪流水温（SWT）对社会和生态系统功能都有影响，其影响范围从溶解氧到藻类爆发再到水生生物的死亡。SWT在水化学和生态学中的作用推动了SWT建模的快速发展。大范围模型支持评估当前和未来的SWT状况以及在不同时空尺度上干扰或恢复措施的影响，特别是对于没有监测数据的流域。在过去的十年中，已经为美国本土（CONUS）开发了每日/公里分辨率的SWT模型，但这些模型不支持预测。现有的SWT预测模型受到较低空间/时间分辨率的限制，或者仅适用于较小的区域。因此，需要更高分辨率、大范围的预测模型来研究未来的温度条件。我们提出了第一个适用于美国本土、具有公里分辨率、具备预测能力的每日SWT模型：“温度估计：近期预期温度”（TempEst-NEXT）。TempEst-NEXT可以考虑地表条件的变化（例如城市化）和气候变化，并已通过历史预测和1-16天的预测进行了验证。TempEst-NEXT还与NOAA的NextGen国家水模型框架兼容。对于未监测流域，基于预测的历史数据测试显示，平均每日SWT的中位数RMSE为2.3°C（使用估计的天气数据时为2.1°C），均方根误差为0.92，偏差为2.0%。在实时预测（1-16天预测）中表现相似。与同类SWT模型不同，TempEst-NEXT不需要本地校准，支持水资源管理的实时决策，例如在缺乏长期观测数据的情况下进行水库放水。总体而言，TempEst-NEXT能够高效、灵活地预测大范围的溪流温度变化。

**1. 引言**
溪流水温（SWT）对溪流化学过程有显著影响（Caissie, 2006），并且是渔业管理（例如Caissie, 2006; Isaak等人, 2015; Jackson等人, 2018; Zeigler等人, 2019）、藻类爆发预测（Coffey等人, 2019）和水处理化学（Honey-Rosés等人, 2013）等应用的关键参数。SWT会影响氧的溶解度（Caissie, 2006）、水生生物的新陈代谢（例如Dibble等人, 2018）以及鱼类对金属的毒性（Lapointe等人, 2011）。当前和未来对溪流温度条件的分析、预测和管理通常需要大量且密集的实地工作（例如Booth等人, 2014），这促使过去十年SWT建模取得了进步，包括使用本地训练的先进模型以及无需本地训练即可提高模型规模、分辨率和精度（例如Segura等人, 2015; McNyset等人, 2015; Piccolroaz等人, 2016; Jackson等人, 2017; Isaak等人, 2017; Wanders等人, 2019; Siegel等人, 2023; Rahmani等人, 2023; Philippus等人, 2025）。最近的研究产生了具有更高时空分辨率的区域到全球范围的模型（例如Gallice等人, 2015; Jackson等人, 2018; Wanders等人, 2019; Siegel等人, 2023; Philippus等人, 2024b; 2025; Diaz等人, 2025），使得能够进行高分辨率的大规模温度分析。基于对当前温度条件的广泛理解，有机会通过预测来主动管理未来条件。从长期来看（数年至数十年），可以通过河岸恢复措施减轻预期的温度变化（例如Isaak等人, 2017）。短期内（数小时至数月），预测的温度条件可以帮助管理水资源基础设施，例如为藻类爆发做准备（Coffey等人, 2019）或释放冷水以防止鱼类死亡（美国垦务局, 2017）。利用这些机会需要能够进行近期（数天）预测和干扰分析的模型。虽然有几种针对特定流域的成熟SWT预测模型（例如美国垦务局, 2024; Zhu和Piotrowski, 2020），但目前没有模型能够支持美国本土（CONUS）或类似（近大陆）规模的未监测流域的短期SWT预测。三个可以考虑用于大范围未监测流域每日时间分辨率预测的现有模型包括：PNW Stream Temperature（以下简称PNWST; Siegel等人, 2023），一个适用于美国太平洋西北部（PNW）的高分辨率SWT模型；DynWat（Wanders等人, 2019），一个中等分辨率（10公里）的过程基全球SWT模型；以及National Stream Temperature Model（以下简称NSTM; Diaz等人, 2025），一个具有时空意识的机器学习模型，适用于CONUS。然而，这三个模型都没有在CONUS范围内进行过实时预测能力的测试或开发。特别是DynWat的分辨率和计算强度（作为数值模型）是一个问题，因为即使在10公里分辨率下，它也需要5分钟的时间步长（每天288步）来保证数值稳定性（Wanders等人, 2019），而在更高分辨率下需要更多的时间步长。NSTM虽然使用大规模计算资源进行训练和评估（Diaz等人, 2025），但由于其空间意识限制，计算能力也有限，并且它是为历史分析开发的，而不是为每日预测等重复性大规模运行设计的。PNWST虽然具有大型数据集和许多相互作用变量，但计算要求也很高（Siegel等人, 2023）。其他为CONUS或其大部分地区开发的未监测SWT模型包括NorWeST（西部CONUS，8月平均SWT；Isaak等人, 2017）和TempEst 2（CONUS，每日平均/最大SWT；Philippus等人, 2025），但这两个模型在结构上都不支持短期预测。NorWeST仅适用于月平均SWT，且由于训练时间长达一周，可能无法用于每日分辨率；TempEst 2依赖于遥感数据（不可预测），并且仅使用感兴趣点周围的数据（点导向），因此无法预测上游影响。总体而言，基于过程的模型受数据需求的限制（Dugdale等人, 2017; Ouellet等人, 2020），使其在未监测地区的应用具有挑战性，而统计模型是最常见的方法（例如Siegel等人, 2023; Isaak等人, 2017; Philippus等人, 2025）用于大范围未监测应用。然而，由于统计模型通常基于当前条件进行训练，并不显式考虑主导过程（例如降雨与降雪），它们可能难以适应变化的地表和大气条件（Arismendi等人, 2014; Lee等人, 2020）。因此，有必要专门研究模型在不同区域和未来条件下的泛化能力，并在模型设计中考虑这些变化，以支持CONUS规模的未监测流域短期SWT预测。

**2. 方法**
TempEst-NEXT采用改进的“季节性条件历史预期与模型化日异常”（SCHEMA）架构（Philippus等人, 2025）来预测SWT。对于特定流域，SWT被预测为季节性项（SCHE）与日偏离季节基线的值之和，即模型化异常（MA）。这被称为NEWT（近期预期流域温度）。核心模型NEWT可以独立运行，但通常在TempEst-NEXT框架内使用。TempEst-NEXT组件提供了NEWT的估计模型系数，描述了流域的季节性和SWT异常对天气异常的响应性（天气敏感性）。TempEst-NEXT包含NEWT模型，可以直接运行预测。TempEst-NEXT还可以导出其内部的NEWT模型以供后续使用，常用于美国国家海洋和大气管理局（NOAA）NextGen国家水模型框架（NextGen; NOAA/NWS Water Prediction办公室, 2020）中。NextGen兼容性使得NEWT模型可以自动与其他模型结合使用，无论是作为输入和输出，还是将空间域分配给NEWT和其他SWT模型（“多模型镶嵌”），以用于操作预测。为了支持NextGen的使用，为NEWT提供了基本模型接口（BMI; Hutton等人, 2020），其中NEXT在NextGen之外执行以生成与BMI兼容的NEWT模型。BMI定义了一个标准化的模型接口，可以实现与其他系统的自动通信，如NextGen。河流网络管理、水库处理等类似任务（超出单个流域的范围）由NextGen框架处理。NEWT的SCHEMA和BMI实现由通用SCHEMA包LibSCHEMA提供（见附录A），NEWT本身提供了特定于SWT的预测功能。

**2.1. 数据**
为所有开发和测试流域检索了各种可能的预测数据。我们考虑了实际预测应用中容易获取的潜在协变量，并且可以自动检索。现有的大范围SWT模型通常使用站点空间坐标（纬度、经度和海拔）、地形（坡度和朝向）、天气（空气或地表温度、降水量和湿度）以及流域/河段尺度的土地覆盖类型（例如湖泊面积、河岸植被、城市化）作为预测因子（Isaak等人, 2017; Siegel等人, 2022; 2023; Philippus等人, 2018; Jackson等人, 2018）。上述变量都可以通过表1中列出的CONUS范围的历史数据集轻松获取。一些研究还考虑了基流、流量和积雪等参数来预测SWT（例如Siegel等人, 2023），但由于与历史预测不同，这些变量仅以模型化数据产品的形式提供，这引入了相当大的不确定性（Cosgrove等人, 2024）。对于森林密度，研究通常使用森林土地覆盖类型（Siegel等人, 2023; Philippus等人, 2025）或树冠覆盖类型（Isaak等人, 2017）。在本研究中，我们使用树冠覆盖百分比（Housman等人, 2023）来考虑森林区域内的不同树冠密度。数据集的选择强调了访问的便利性，特别是在Python中的自动访问，因为TempEst-NEXT在数据来源方面非常灵活，因此优先考虑了访问便利性和自动化。TempEst-NEXT主要使用HyRiver套件（Chegini等人, 2021）进行自动数据检索，除了NOAA的高分辨率快速更新预报（HRRR; Dowell等人, 2022，遵循Gowan, 2021）和全球预报系统（GFS）预报（Environmental Modeling Center, 2024），这些数据的检索是从零开始的，因为现有的Python支持是针对点预测优化的。表1描述了在TempEst-NEXT中使用的所有潜在协变量及其数据来源。

**表1. TempEst-NEXT中使用的变量及模型开发的数据来源**
| 变量 | 开发数据来源 | 分辨率 | 最小值* | 最大值 |
| --- | --- | --- | --- |
| 动态日温度 | Daymet（Thornton等人, 2022）、HRRR（Dowell等人, 2022）、GFS（Environmental Modeling Center, 2024） | 1公里（历史数据），3–13公里（预测数据），每日 |
| 平均湿度（以蒸汽压计） | Semi-static | Daymet | 1公里，每日 |
| 降水量 | Semi-static | Daymet | 1公里，每日 |
| 太阳辐射 | Semi-static | Daymet | 1公里，每日 |
| 土地覆盖类型 | Static | National Land Cover Dataset（NLCD; Yang等人, 2018） | 30米，多年 |
| 站点和流域海拔、流域坡度和朝向 | Static | 3DEP（美国地质调查局, 2023） | 10米，静态 |
| 树冠覆盖类型 | Static | NLCD Tree Canopy Cover（Housman等人, 2023） | 30米，每年（2011–2021） |
| 河流流向 | * | 从水文图计算（Buto和Anderson, 2020） | 不适用 |
* 在开发过程中测试的变量，但未在最终模型中选用。当这些变量未能提高模型在调整过程中的泛化性能时，它们被从最终模型中排除（见第2.2.2节）。

在检索的潜在协变量中，基于优化系数估计模型的交叉验证性能，确定了关键协变量。在表1中，静态和半静态变量（见下文）仅用于估计站点模型系数。静态变量通常被认为是恒定的（例如，海拔高度）或在日常尺度上几乎是恒定的（例如，树冠覆盖度），尽管可以考虑到随时间的变化。被认为是“半静态”的变量是那些可能在日常尺度上发生变化的变量（例如，降水量），并且这些变量被作为时间序列获取，但它们仅用于基于汇总指标（例如，总体平均值或标准差）的系数估计，而不用于超出系数估计的站点预测。例如，长期平均降水量对系数估计很重要，但发现每日降水量对异常预测帮助不大，因此降水量被视为半静态的。动态变量用于系数估计和站点预测，并从观测数据、预报档案或直到预测时间的预报中获取。与动态变量不同，半静态变量的数据检索需要覆盖一个有代表性的时间段，这个时间段可能包括也可能不包括预测日期，而不是整个预测区间。例如，对于2023年6月10日的SWT预报，2010-2022年的降水量记录就足够了（半静态），但空气温度输入需要包括直到2023年6月10日的预报以及历史数据（动态）。一些半静态变量，如降水量，被测试用于日常预测（未显示），以确定性能是否有所提高，但在系数估计之外的应用中没有发现改进。我们注意到，直到预测日期的降水量对于湿/干修改引擎是有用的（见第2.7节）。

模型结构设计基于历史数据集，以提供长时间序列（数据集延伸到2014年至今的HRRR档案覆盖范围之外）进行分析。使用更长的时间序列允许在模型结构中包含广泛的变异性，并为系数优化提供更多数据。然而，为历史数据优化的系数在预测用例中并未提供最佳性能，这很可能是由于气候学的差异。因此，为了预测，我们使用HRRR档案（Dowell等人，2022年）对天气数据进行了系数估计模型的训练。我们使用美国地质调查局（USGS）的SWT测量站来开发模型。我们从CONUS中选择了至少有1000个每日观测数据的USGS测量站（通过R中的dataRetrieval工具，Cicco等人，2022年）和完整元数据（例如，海拔高度、流域面积）。我们检索了符合这一标准的1438个测量站的数据，其中1248个最终有足够的数据可供使用。鉴于USGS测量站分布不均匀，随机选择用于开发的测量站（即“开发测量站”）分别应用于三组测量站，以确保覆盖测量站稀少的区域，从而得到了928个随机选择的USGS SWT测量站，即以下每个区域的70%。这三组测量站分别是海拔高度超过2000米的测量站、西侧100公里范围内的测量站以及所有其他测量站（即西侧100公里和海拔高度2000米的测量站）。剩余的320个USGS测量站（测试集）用于最终模型验证。我们没有根据任何站点条件过滤测量站，除了数据覆盖范围，因此开发和测试数据集都包括了许多受到严重干扰的流域以及大型水库下游的测量站。然而，我们过滤掉了超过40°C（每日平均SWT）的观测值，因为这些值是主要的异常值。值得注意的是，在包括USGS测量站的质量控制数据集中（Oliver等人，2024年；Diaz等人，2025年）没有出现超过40°C的每日平均SWT测量值，这表明可能存在测量错误。

我们注意到，直到预测日期的降水量对湿/干修改引擎是有用的（见第2.7节）。模型结构设计基于历史数据集，以提供长时间序列（数据集延伸到2014年至今的HRRR档案覆盖范围之外）进行分析。使用更长的时间序列允许在模型结构中包含广泛的变异性，并为系数优化提供更多数据。然而，为历史数据优化的系数在预测用例中并未提供最佳性能，这很可能是由于气候学的差异。因此，为了预测，我们使用HRRR档案（Dowell等人，2022年）对天气数据进行了系数估计模型的训练。

我们使用美国地质调查局（USGS）的SWT测量站来开发模型。我们从CONUS中选择了通过R中的dataRetrieval工具（Cicco等人，2022年）和完整元数据（例如，海拔高度、流域面积）至少有1000个每日观测数据的USGS测量站。我们检索了符合这一标准的1438个测量站的数据，其中1248个最终有足够的数据可供使用。鉴于USGS测量站分布不均匀，随机选择用于开发的测量站（即“开发测量站”）分别应用于三组测量站，以确保覆盖测量站稀少的区域，从而得到了928个随机选择的USGS SWT测量站，即以下每个区域的70%。这三组测量站分别是海拔高度超过2000米的测量站、西侧100公里范围内的测量站以及所有其他测量站（即西侧100公里和海拔高度2000米的测量站）。剩余的320个USGS测量站（测试集）用于最终模型验证。我们没有根据任何站点条件过滤测量站，除了数据覆盖范围，因此开发和测试数据集都包括了许多受到严重干扰的流域以及大型水库下游的测量站。然而，我们过滤掉了超过40°C（每日平均SWT）的观测值，因为这些值是主要的异常值。值得注意的是，在包括USGS测量站的质量控制数据集中（Oliver等人，2024年；Diaz等人，2025年）没有出现超过40°C的每日平均SWT测量值，这表明可能存在测量错误。

我们注意到，使用测量站数据不可避免地会由于测量站在河道横截面上的位置变化而产生一些不确定性，因为SWT在整个横截面可能并不相同。我们承认这种潜在的SWT变化会引入模型预测的噪声，并可能由于典型的测量站位置而产生偏差，同时也会由于测量站位置的变化而引入一些最小模型误差。

2.2. 模型设计

TempEst-NEXT被设计为一个适用于任何流域大小的汇总统计模型。核心模型设计有两个主要组成部分：预测特定流域对天气条件的响应（TempEst-NEWT）和估计未测量流域的流域参数（图1）。为了考虑随时间变化的条件，可以定期重新估计系数（SI表1）。如果大气或表面条件的一般趋势是一个问题，我们建议使用10年或更长的重新估计周期，以最小化由于预测间隔缩短而导致的性能损失（Philippus等人，2025年）。在条件突然变化后，也可以直接重新运行系数估计。TempEst-NEXT中的系数估计模型是使用开发样本的流域规模NEWT模型的训练系数开发的。TempEst-NEXT可以直接生成一个NEWT模型（用于即时独立使用），或者准备一个存储的NEWT模型文件以供后续使用（NextGen所需）。

下载：下载高分辨率图像（619KB）
下载：下载全尺寸图像

图1. TempEst-NEXT中流域模型方法的概念图。基本的SCHEMA结构与TempEst 2（Philippus等人，2025年）相似，但在使用整个流域而不仅仅是预测点附近的区域方面有重大差异，并且能够根据变化的条件进行更新。

TempEst-NEXT/NEWT模型是按流域离散化的，而不是按网格离散化的，因此没有明确的分辨率。原则上，由于土地覆盖和地形的变化，数十米范围内的SWT预测可能会有所不同。然而，该模型主要是基于1公里范围的天气输入设计的，因此使用预测位置上游1公里的河流作为近河道条件，所以有效分辨率是1公里。对于那些具有较大变化的紧密间隔（1公里）的交汇点，TempEst-NEXT可以生成亚公里级别的不同预测。

2.2.1. 流域模型（NEWT）

首先，我们为从开发集中选定的单个流域设计了流域统计模型（NEWT），然后测试其在开发集其余部分的有效性，并迭代调整设计。在性能优化之后的一个次要目标是减少系数数量，这有助于简化未测量流域的系数估计过程。相对较少的模型系数简化了系数估计，因为它减少了所需的系数预测数量。我们通过将NEWT系数拟合到测量站前70%的时间序列来创建并测试开发流域的NEWT，然后报告模型预测剩余30%时间序列的性能（以下简称“70/30测试”）。

下面详细解释的流域模型的最终设计结合了季节性成分和短期变异性成分，作为空气温度变化和季节性SWT的非线性函数。NEWT模型的公式总结在方程（1）中，其中是年中的儒略日，是前天的空气温度异常，是季节性（一年中的平均SWT）（Philippus等人，2024a），是一个下面定义的任意非线性函数，是之前空气温度异常的权重系数。

一般来说，我们观察到开发测量站中的SWT变化主要由季节性变化主导，而不是短期变化，季节性变化占测量站时间变化的中位数达到90%。统计模型通常通过为具有观测SWT的流域拟合年度温度周期函数（每年的平均SWT）来应用季节性（例如，Caissie等人，1998年；Piccolroaz等人，2016年）。在未测量流域中，可以通过估计年度温度周期函数的系数来模拟SWT的季节性，这已经通过SCHEMA方法在TempEst 2（Philippus等人，2025年）中得到证明。我们在这里采用了修改后的SCHEMA方法，因为它在不需要复杂的机器学习模型和广泛参数化的情况下就能解释复杂的流域行为。参考SCHEMA实现（在TempEst 2中）嵌入了从长期天气数据估计的静态季节性项，但SCHEMA可以通过（1）定期重新运行系数估计（例如，每年）来跟踪变化的条件，从而处理非平稳性（即“动态SCHEMA”），以及（2）在模型设计中强调表面和气候条件相对于位置的重要性。方法（2）通过迫使模型关注可以变化的条件来增强非平稳性的处理，而不是使用纬度和经度作为物理变化的静态代理。在逐步上下文中使用，其中输入时间序列作为一系列单独的时间步长提供，这是NextGen（NOAA/NWS水预测办公室，2020年）通过BMI（Hutton等人，2020年）进行集成所必需的，在逐步模型运行之前分析天气时间序列以估计系数。相比之下，当完整的时间序列一次性提供以一步处理时（单次通过），在预测时分析天气时间序列就很简单。

对于适配特定流域的模型，SCHEMA模型的季节性成分被完全指定为一个三正弦年度温度周期函数（Philippus等人，2024a），该函数描述了年度温度周期，包括年度年度成分和两个周期较短的季节性异常项。与预先指定的三正弦季节性不同，每日异常模型的形式是灵活的。之前在TempEst 2（Philippus等人，2025年）中对SCHEMA的研究表明，SWT的异常响应可能包括前几天空气或地表温度的影响以及短期对湿度的响应。然而，我们没有采用TempEst 2的精确实现，因为TempEst 2使用的是地表温度，而不是空气温度。初步测试（未显示）表明，湿度在开发样本中并没有改善异常预测，这表明湿度与TempEst 2中的SWT异常的相关性是由于使用了地表温度或遥感输入，而不是SWT异常的更一般特性。

我们通过拟合普通最小二乘回归来确定空气温度（AT）异常响应的一般形式，以预测SWT异常作为最后几天的AT异常的函数。我们分别对每个开发测量站和所有测量站独立计算了这种拟合。全局拟合仅将中位数降低了0.03（从0.59降至0.56），表明预测能力损失很小，并且在性能分位数上的一致性惩罚也很小。我们注意到，为每个测量站估计权重会引入相当大的复杂性，因此我们继续使用全局拟合来获得相对权重。以第0天作为预测日，TempEst-NEXT的大部分可能相关性是通过使用第0-5天捕获的，类似于TempEst 2（第0-6天；Philippus等人，2025年）。虽然相对权重保持不变，但每个测量站的实际敏感性差异很大（总敏感性在四分位数范围内为0.31–0.55°C/C），需要根据观测数据或估计来调整。为了拟合敏感性，我们将系数应用于一个缩放后的全局权重版本，使得总权重为1，给定的敏感性系数等于由恒定1°C AT异常（或加权等效值）产生的总SWT异常。第1天（昨天）的权重最高，为0.401，其他权重的范围从0.056到0.162不等。我们注意到，这里使用的固定滞后时间表现良好，这与研究表明积雪流域的AT/SWT滞后可能高度可变的研究结果不同（Siegel等人，2022年），但这可能是由于SCHEMA中的季节性/异常分离（Philippus等人，2025年）。Siegel等人（2022年）观察到的滞后可能是由于融雪高峰期间的接近恒定的平均SWT和整个冬季的低敏感性造成的，而他们的结果支持使用固定滞后。在确定最佳滞后响应后，我们通过拟合一个广义加性模型（GAM；Servén和Brummitt，2018年）来确定异常敏感性与季节性SWT之间的联系（例如，尽管天气温暖，冻结的河流可能保持在0°C）。GAM（方程2）是一个基于将一个或多个输入变量的非线性函数相加的灵活统计模型。GAM（Generalized Additive Model）的相对简单结构使其适用于规模较小的训练数据集（例如，928个测量点而非数百万个观测值），同时其灵活性使其能够有效捕捉非线性关系。由于其相对简单性和灵活性相结合的特点，GAM在SWT（Snow Water Temperature）建模中得到了广泛应用（例如，Siegel等人，2023年；Jackson等人，2018年）。(2)其中，是期望值，是因变量，是自变量向量，是截距项，是使用的函数总数，是（Servén和Brummitt，2018年）使用的自变量集合。还可以对加性右侧进行额外的转换，例如在分类任务中使用逻辑项，但对于回归来说，线性形式通常是合适的。拟合AT异常与一年中某天的平均SWT之间的交互作用可以提高典型性能（中位数增加了0.05），并正确识别出例如在0摄氏度时，由于结冰作用，河流对AT异常的反应通常很小，直到异常变得相当大（摄氏度）。使用GAM来处理交互作用还简化了实现过程并提高了计算效率，因为否则需要明确建模随时间变化的AT敏感性，而这会带来相当大的运行成本。一个单一的GAM（具有不同的敏感性）对所有流域都是有效的，因此使用异常GAM不需要为每个站点估计大量系数，这对于没有测量点的数据集来说是一个重要的优势。结合季节性（SCHE）和日异常（MA），通过首先拟合季节性系数，然后通过普通最小二乘法确定加权天气异常时间序列的最佳系数，可以训练出一个完整的（SCHEMA）NEWT流域模型。

2.2.2. 流域系数估计
简而言之，TempEst-NEXT中的系数估计组件涉及使用GAM预测六个线性独立的系数。每个GAM的平滑惩罚和预测因子是通过基于通用交叉验证分数的自动优化过程进行调整的。为了设计系数估计模型，使用USGS开发测量点的观测数据训练了NEWT模型。然后，基于静态/半静态和动态流域数据构建模型来估计拟合系数（表1）。我们注意到NEWT系数之间存在相关性，这会通过需要考虑从一个相关系数到另一个相关系数的误差传播而使不确定性分析变得复杂。对于相关因变量的一种常见方法是预测主成分（主成分分析，PCA；Jolliffe和Cadima，2016年），正如Isaak等人（2020年）所做的那样，其中预测了对应于多个热状态组件的前两个主成分。PCA将原始数据转换为正交且不相关的向量，并根据它们在原始数据集中解释的方差量进行排序。转换为不相关的变量（主成分）允许独立分析和预测每个主成分，并且通过按解释的方差排序还可以压缩数据，使用较少数量的主成分来捕捉原始数据中的大部分方差。然后可以通过反转PCA转换将主成分转换回原始数据，尽管可能会有压缩损失。因此，在将NEWT系数（SI表1）标准化为平均值0和方差1之后，我们将其转换为主成分（PCs）（Jolliffe和Cadima，2016年）。我们注意到，每个PC捕获的方差比例并不一定与其对模型性能的重要性相对应，因此不能使用PC排名来选择用于预测的PC子集。然而，通过将春季、夏季和秋季的峰值日期固定在其平均值上，性能得到了改善，因为这些日期无法有效预测，这在TempEst 2的开发中也观察到了（Philippus等人，2025年）。我们在TempEst-NEXT中开发的系数估计模型是一组使用PyGAM实现的GAM（Servén和Brummitt，2018年），每个PC一个。使用GAM作为标准框架有助于灵活地识别协变量-系数关系。使用GAM还简化了模型参数优化（调整）和系数不确定性估计。此外，与更先进的机器学习方法（如深度学习（例如，Topp等人，2023年）相比，GAM的相对简单性更为适合（Kratzert等人，2024年），后者通常需要非常大的数据集（开发样本中的928个测量点）。在初始模型设计中，我们对所有输入变量使用了b样条函数且没有交互作用（表1），依赖平滑参数来减轻过拟合，这是Servén和Brummitt（2018年）推荐的。在基本系数估计设计确定后，我们添加了那些尽管独立建模但仍显示交互效应的选定变量之间的交互作用；所有关系都在部分依赖图中显示（SI图1-6）。候选变量包括所有静态变量（11个）和动态变量的均值及标准差（八个；表1），以及几个派生变量（六个）：平均AT低于冰点的天数比例、这些天降水的比例（作为雪的比例的代理）、降水季节性指数和降水平均日期（Fisher，1993年），以及应用于AT的相同统计量。季节性指数和平均日期基于拟合到相关变量年周期的正弦函数的振幅和相位。为了避免与季节性指数重复，排除了AT和降水的标准差，因为这会使得特征选择变得复杂。根据额外的测试（未显示），最终的系数估计模型排除了纬度和经度，以强制系数估计集中在物理条件上，这不会对模型性能产生负面影响。包括空间坐标将允许模型根据给定位置的当前条件学习趋势，但这不会随着同一地点条件的变化而更新，也不会推广到观测值较少的区域。我们使用流域百分比冠层覆盖率和森林土地覆盖率进行了测试，发现两者在静态测试中的性能几乎相同（RMSE变化1%）。最终，我们选择使用流域百分比冠层覆盖率而不是森林土地覆盖率，因为前者是连续变量而不是分类变量（后者），这意味着它可以更好地响应冠层密度变化而面积保持为森林的情况。值得注意的是，切换到流域百分比冠层覆盖率提高了高海拔地区的外推性能，表明对于相同的土地覆盖分类，不同的森林冠层模式可能会有不同的表现。

我们调整了特征选择和全局平滑惩罚lambda（），以优化开发数据集的通用交叉验证分数（GCV），该分数由PyGAM内部计算。GCV分数近似于交叉验证中的误差，而无需显式运行交叉验证。Lambda决定了更复杂拟合的惩罚，调整lambda是PyGAM开发者（Servén和Brummitt，2018年）推荐的管理模型复杂性的方法。我们自动迭代地一起优化了lambda和特征选择。优化过程在附录B中用伪代码进行了总结。在每次迭代中，首先使用初始特征集选择最小化GCV的lambda。然后，使用选定的lambda构建一组候选GAM，并从该迭代的特征集中排除一个特征。为每个候选GAM计算GCV。使用最小化GCV的特征集进行下一次迭代，迭代继续进行，直到不再有改进（通常1-10次迭代）。我们删除（而不是添加）变量，因为一次添加一个变量往往会错过比单独每个组成部分更有效的变量组合。同时，全面测试变量组合在计算上是不切实际的，因为一次添加的变量数量迅速增加，这意味着添加组合不是删除变量的可行替代方案。例如，从25个候选变量中，有300种可能的两个变量的组合，2300种三个变量的组合，12,650种四个变量的组合，依此类推。

2.3. TempEst-NEXT验证
对于最终验证，使用TempEst-NEXT为测试集生成预测，该测试集是一组未用于模型开发的USGS测量点。我们还报告了在随机划分的开发数据集内进行的十折交叉验证的性能（使用估计的天气数据）。最终的TempEst-NEXT验证包括使用历史天气数据和存档预报的历史测试。我们将前者称为历史预测，后者称为再预测（模拟预测用例）。在再预测测试中，我们使用了HRRR（Dowell等人，2022年），因为长期预报档案是可用的，并且测试了HRRR支持的最长提前时间，即两天。然而，我们测试了长达16天的提前时间。TempEst-NEXT可以支持任何提前时间，但测试受到数据可用性的限制。在所有后续测试中，除非另有说明，否则都使用了估计的天气数据（即历史预测）。
除了在未见测量点上的独立数据集验证外，我们还对完整数据集（开发和测试）进行了几项测试，以表征TempEst-NEXT性能的特定方面，如：对外部未测量区域的外推、高海拔地区的性能以及未来的时间预测（以年为单位，而不是几天的短期预测）。我们使用完整数据集进行这些测试，因为独立数据集和开发数据集交叉验证的未见测量点测试的性能非常相似，表明对性能的影响可以忽略不计，同时也提供了在可能的最大数据集上测试外推特性的好处。完整的测试套件涵盖了“时间、未见、未测量区域测试”（TUURTs；Corona和Hogue，2025年）。TUURTs测试套件指的是在训练中排除的时间间隔（时间）、测量点（未见）和完整区域（未测量区域）的测试。我们还测试了TempEst-NEXT在空间和时间上的热、湿和干燥条件下的性能。
为了测试对外部未测量区域的外推，我们将CONUS划分为16个在纬度和经度上大小相等的区域（其中15个区域至少有一个测量点，14个区域有多个测量点）。对于每个区域，我们使用其他所有区域的测量点训练了一个TempEst-NEXT模型，然后测试了所选区域的SWT预测性能（即留一法交叉验证；例如，Siegel等人，2023年）。为了测试海拔高度的外推，我们在低于第95百分位海拔（1800米）的所有测量点上训练了一个模型，然后测试了高于该海拔（1800米）的预测性能，并将外推范围扩展到训练数据以上1100米（73个测量点）。我们测试了在空间和时间上的天气（热/湿/干）条件下的外推。在时间上，我们分析了每个测量点在其相应时间序列中最热（按AT）和最湿的5%的日子以及所有降水量为零的日子的交叉验证和测试集性能。在空间上，我们在平均AT或降水量最低或最高的95%的测量点上训练了一个TempEst-NEXT模型，然后在剩余的5%的测量点上测试了同一模型。前述的外推测试使用了5%的测量点作为相对极端的组，这些测量点仍然有足够的数量来捕捉可能的行为分布。为了测试更长期的时间外推，我们对所有测量点进行了五年窗口的向前验证。对于2010-2022年的每一年（13个样本），我们为所有之前的年份训练了模型，并测试了其预测性能，以及对接下来四年的预测性能，从而评估了短期和长期的外推。我们使用Corona和Hogue（2025年）建议的四个指标来评估模型性能：均方根误差（RMSE）、百分比偏差、Nash-Sutcliffe效率（NSE；Nash和Sutcliffe，1970年）和决定系数（）。我们还计算了绝对偏差（公式7），以比较不同平均SWT的河流之间的绝对偏差。我们还计算了（每年）“最大误差”，即每年观测到的最大SWT与预测的最大SWT之间的绝对差异（公式8）。最大误差是一个非标准指标，我们包括它是为了解决与一年中任何时候超过给定生态或监管阈值相关的管理问题。实时预测验证
为了进行一个完全真实的预测测试，我们对测试集进行了实时预测，并在观测数据可用后将其与预测结果进行了比较。这必然将测试的时间范围限制在原型准备完成到手稿编写之间的时间段（2025年2月至9月）。实时预测也是在没有长期预测档案的情况下测试GFS强制性能的唯一方法。每次预测都使用了HRRR（第1-2天；Dowell等人，2022年）和GFS（第3-16天；环境建模中心，2024年）进行1-16天的提前期预测。每次预测还预测了前7天的SWT（使用HRRR），作为SWT异常的启动期，但这并未包含在性能评估中。选择HRRR而不是GFS进行启动是因为HRRR的分辨率更高（3公里对比13公里）。预测测试使用了基于HRRR档案训练的模型，因为无法使用没有档案的GFS进行训练，并且基于这样的假设：GFS的气候特征与另一种NOAA天气模型产品Daymet相比，更接近HRRR的气候特征。这一假设得到了实时预测结果的支持，这些预测结果与使用HRRR训练的再预测测试表现相似（训练和测试中使用相同的气候数据），并且没有因气候数据不匹配而导致的性能下降。我们注意到，用于估计计量系数和再预测的数据集是相同的HRRR数据集。预测的时间跨度为2025年2月7日至9月10日的56天，总共进行了896天的预测。由于开发工作仍在进行中，因此使用了多个模型版本，但所有版本的模型整体性能相似，TempEst-NEXT不同版本的历史预测RMSE中值在2.1-2.2摄氏度之间变化（变化幅度为5%）。例外的是2025年5月20日和21日的两次预测，这些预测受到了5月20日引入的错误的影响，并在5月22日得到了修复。由于该错误在实现中存在，且与当前模型行为无关，因此这两次预测被排除在预测验证之外。

2.5. 不确定性实现与验证
虽然之前的测试量化了典型误差，但预测特定站点或预测的时空不确定性可能是有用的。GAM架构（Servén和Brummitt，2018年）支持预测拟合函数的置信区间，例如，给定输入下PC1条件均值的不确定性。然而，这些置信区间仅描述了条件均值的不确定性，并未考虑条件均值周围的统计噪声。为了考虑函数中的统计非平稳性（即，在整个域内不恒定）的不确定性以及噪声，我们根据拟合过程中未考虑的不确定性估计了噪声，然后结合函数不确定性和噪声来进行不确定性估计。这一程序适用于系数估计（在TempEst-NEXT的第2.2.2节）和异常预测（在TempEst-NEWT的第2.2.1节）。我们包含了一个手动调整的“噪声校准因子”，以纠正预测不确定性中的任何观测偏差。由于系数估计模型预测的是主成分，所有预测都是不相关的，因此可以独立处理不确定性。为了详细分析所有系数的综合不确定性，我们建议对每个系数进行随机抽取，生成一个模型集合，然后从异常GAM中随机抽取每个集合成员的数值来生成SWT预测。由于SWT预测（不使用修改引擎）非常快速（每个站点每年0.01秒，单线程），因此可以对大型集合进行不确定性分析。我们发现，使用30个系数集合成员和7次异常抽取（总共210个成员）产生的不确定性结果与1000个成员的结果相同，因此建议使用的集合成员总数不超过200个。图2展示了集合方法的三个阶段。

下载：下载高分辨率图像（762KB）
下载：下载全尺寸图像

图2. 集合应用三个层次的概念图，对应于一个简化的假设模型设置，其中两个系数控制季节性和天气敏感性。图(A)展示了从系数空间中随机抽取的10个值，用颜色表示，围绕较大的点表示的条件期望均值。图(B)显示了第一层次的集合应用，使用图(A)中的系数样本，颜色相同，表示没有进一步不确定性的集合。图(C)在第二层次的集合应用中增加了异常响应的不确定性，每个集合成员每天随机抽取10个值。图(D)在第三层次的集合应用中增加了天气预测的不确定性，将图A、B和C中的过程应用于10个随机化的日异常时间序列。（关于图例中颜色的解释，请参阅本文的网页版本。）

为了验证TempEst-NEXT的不确定性预测，对于320个测试站点中的每个站点，我们共生成了210个集合预测（图2(A)-C；详细说明见附录C）。我们使用Brier分数（Brier，1950年）评估了SWT集合预测在不同阈值（1-32摄氏度）下的集合技能。Brier分数是预测超过概率（预测超过的集合成员比例）与观测超过概率（零或一）的平均平方误差。我们还确定了每个站点的95%置信区间宽度以及位于该区间内的观测比例，以及其他在附录C中描述的指标。

2.6. 流域校准-验证比较
虽然TempEst-NEXT的主要目的是进行无计量站点预测，但TempEst-NEWT也可以适配特定的流域。对于开发集中的每个USGS站点，我们在前70%的观测时间序列上训练了一个TempEst-NEWT流域模型，而不是使用系数估计，并在剩余的30%观测数据上进行了测试。这些运行的训练/测试性能统计可以直接与其他SWT模型的单流域训练/测试或校准/验证性能统计进行比较。针对特定流域训练的模型的性能还提供了一个参考点，通过比较特定流域模型与无计量站点的模型性能来评估系数估计带来的性能损失。

2.7. 修改引擎
TempEst-NEXT设计用于支持系数的重新估计以及通过称为“修改引擎”的扩展进行定制的微调，以实现动态SCHEMA。修改引擎可以任意修改模型系数，并由模型在指定时间间隔自动应用。TempEst-NEWT默认包括一个气候引擎来支持非平稳性，以及一个湿/干引擎来考虑年度气候变化。关于修改引擎的一般描述以及两个包含的修改引擎的详细信息见附录D。

3. 结果
3.1. 训练后的TempEst-NEWT性能
对于整个数据集，在前70%的观测数据上训练并在剩余30%的观测数据上测试的特定流域模型，其中位RMSE为1.4摄氏度，NSE为0.95，百分比偏差为0.0030%，绝对偏差为0.00039摄氏度，最大误差为1.1摄氏度。TempEst-NEWT模型的日异常分量的中位NSE为0.61。在少数评估了该模型的研究中，较低的异常NSE是典型的（Piccolroaz等人，2016年；Philippus等人，2025年）。虽然最低性能相对较差，最高性能几乎完美（总体NSE分别为0.37和0.99），但大多数站点的性能相对一致，NSE的四分位数范围为0.93-0.97。在再预测测试中，提前两天（即明天的平均SWT，最早可在今天午夜运行）的预测性能相似，其中位RMSE为1.4摄氏度，NSE为0.95，百分比偏差为0.0062%，绝对偏差为0.00079摄氏度，最大误差为1.3摄氏度。历史预测中，每日最大SWT的中位RMSE为1.5摄氏度，NSE为0.95，百分比偏差为0.0025%，绝对偏差为0.00036摄氏度，最大误差为1.3摄氏度，异常NSE为0.56。历史预测中，每日最小SWT的中位RMSE为1.4摄氏度，最大误差为1.1摄氏度，其他性能相似。

3.2. 系数估计关系
在模型系数估计中，GAM拟合的协变量与模型系数之间的关系各不相同，从简单的线性关系到出现的阈值效应和周期性关系（与一年中的日期变量相关）。所有部分依赖关系图和结果的详细讨论都包含在补充信息（SI，图1-32）中。非平凡的部分依赖关系完整列表见SI（SI表2）。表2列出了对每个系数有主导影响的协变量。我们注意到，冷天降水量比例（作为降雪的代理）有显著影响（表2，SI表2）。冠层覆盖也有显著影响（表2，SI表2）。冷天降水量和冠层覆盖的作用有助于捕捉表面和大气扰动（如降水模式的变化），这些可能在统计SWT模型中无法捕捉到（Lee等人，2020年）。验证TempEst-NEXT捕捉扰动的能力超出了本研究的范围，但未来的工作可以评估TempEst-NEXT在森林扰动后的预测性能，或者复制Lee等人（2020年）中的基于过程的比较，以评估其捕捉降水模式变化的能力。

表2. 影响每个系数的主要协变量。为了参考，系数与增加的协变量之间的相关性符号表示为（）=增加或（）=减少。对于日期，增加表示在日历年度中的后期。

3.3. 无计量模型性能
主要TempEst-NEXT性能指标（（3）、（4）、（5）、（6）、（7）、（8）在各种测试中的总结见表3。在各种测试中，典型的站点RMSE中值为2.1-2.3摄氏度，NSE为0.86-0.90，百分偏差为1.2-2.2%，绝对偏差为0.20-0.33摄氏度，最大误差（年度最大SWT的平均绝对误差，公式（8））为2.2-2.5摄氏度。某些测试的性能优于或低于这些指标的典型范围。在开发集上的交叉验证中（图3，表3），TempEst-NEXT表现正常。仅日异常的中位NSE为0.48。通过视觉检查，预测误差大致呈正态分布。我们还根据EPA一级生态区（Omernik和Griffith，2014年）对性能进行了分组分析，这些生态区涵盖了大范围的环境特征，以评估不同地理区域的性能差异，并允许与区域模型进行比较。性能在各个生态区之间相对一致，生态区的RMSE中值范围为1.7-2.7摄氏度，偏差中值为-10%至+10%。我们注意到，在一组未显示的等效性实验中，交叉验证中表现最好的东部温暖湿润站点（例如，东部温带森林；图4）对系数扰动的敏感性最低，这有助于它们在无计量站点测试中的良好表现。这是因为系数估计的适度误差会导致较小的性能损失，或者在某些情况下甚至会有所改善，即使训练出的（“正确”）系数并非最优。

表3. 无计量历史预测测试中主要的TempEst-NEXT性能指标总结。所有列均指站点间的中值。除非另有说明，所有测试都是对测试集的日平均SWT的预测。所有测试（步行验证除外）都是在未见过的测量点上进行的。
TestRMSE (C) NSE 百分比偏差绝对偏差 (C) 最大误差 (C) 交叉验证（开发集）2.10.90 0.94 2.10.27 2.3
测试集2.10.90 0.94 0.98 0.15 2.3
湿/干引擎2.20.94 1.5 最大SWT2.3 2.5 最小SWT2.1 2.3
区域外推（完整数据集）2.20.89 0.93 2.20.28 2.4
海拔外推（完整数据集）2.90.58 0.86 18 1.7 2.4
时间外推/步行验证（完整数据集）2.40.86 0.92 1.5 0.20 2.7
每个测量点最热的5%天数（完整数据集）2.3?1.1
外推到最热的5%测量点（完整数据集）2.00.86 0.92 1.2 0.28 1.4
每个测量点最湿的5%天数（完整数据集）2.00.013
外推到最湿的5%测量点（完整数据集）1.70.78 0.86?3.4?0.33 2.5
每个测量点无降水天数（完整数据集）2.20.29
外推到最干的5%测量点（完整数据集）2.40.86 0.92 3.6 0.47 2.2
再预测（提前两天，使用HRRR训练）2.30.87 0.92 2.0 0.25 2.7

下载：下载高分辨率图像（399KB）
下载：下载全尺寸图像
图3. 美国大陆每日平均SWT交叉验证RMSE分布。
下载：下载高分辨率图像（414KB）
下载：下载全尺寸图像
图4. 按EPA一级生态区划分的每日平均SWT交叉验证RMSE分布。Y轴范围限制在0–10摄氏度，以方便阅读，排除了两个测量点（RMSE = 15和20摄氏度），这些测量点靠近温泉，可能由于地热活动而产生较大误差。插图显示了生态区的空间范围，颜色与主图中的生态区框相匹配。（关于此图例中颜色的解释，请参阅文章的网页版本。）

测试集的历史预测性能与交叉验证在大多数指标上几乎相同（表3），尽管偏差较低。两组数据（开发集和测试集）几乎相同的性能支持将两者结合用于其他测试，因为针对开发集调整模型对完全独立的测试集产生的性能差异很小（NSE差异为0.01）。使用湿/干引擎略微增加了RMSE和偏差，分别为2.2摄氏度和1.5%，但其他性能相似（表3）。在相同的模型设计下，测试集的每日最大和最小SWT预测具有典型的性能（表3）。不进行外推的未测量模型性能（NSE、百分比偏差和最大误差）在不同流域条件（树冠覆盖、开发土地覆盖、平均降水量、平均气温、平均海拔和流域面积）下相对一致。任何变量与任何误差指标之间的最大值为0.079，其中树冠覆盖与最大误差呈正相关。其他六种变量与误差指标的组合分别为：开发土地覆盖与最大误差（负相关）、平均降水量与NSE（负相关）、平均气温与偏差（负相关）和最大误差（负相关）、平均海拔与偏差（正相关）以及流域面积与偏差（负相关）。流域性能的变异性，以NSE的标准差衡量，也与流域面积没有显著相关性。每个流域面积（每个流域31–32个测量点）的NSE标准差与流域面积的平均值有小相关性（），尽管NSE的标准差在不同流域间变化很大（0.15–23）。大部分变异性是由某些流域的较大负NSE引起的，因为排除NSE为-1的站点后，将变异性降低到0.018，NSE标准差的总范围为0.14–0.40。

区域间的外推引入了轻微的性能损失，但性能仍在典型范围内（表3）。除了一个只有一个测量点的区域（RMSE为3.6摄氏度）外，所有区域的中位RMSE都在2.1–2.9摄氏度之间。然而，外推到高海拔地区（高于训练数据1100米）会导致显著的性能损失，中位NSE从0.90下降到0.58（表3）。我们还发现随着外推范围的增加，误差呈上升趋势，平均RMSE从最低海拔1800米的3摄氏度增加到2800米的5摄氏度。对八个高海拔测量点（两个最好的、两个最差的和四个随机的）的检查表明，高海拔外推倾向于高估平均SWT。不进行外推时，高海拔地区的损失很小，误差对于最低海拔2500米的测量点来说是典型的。我们认为这可能是由于PC 1和PC 4在1800–2000米高度的行为突然变化，而训练截止值排除了这一现象，因此对于更高的截止值可能不会发生同样的效应。向前时间外推（1–5年）也会产生轻微的性能损失（表3），但指标仍在典型范围内，除了最大误差增加到2.7摄氏度。然而，这种损失主要是由于最初5年窗口（2010–2014年）的性能较差，而随后的窗口（2015–2022年）没有RMSE损失，每年的中位RMSE为2.0–2.2摄氏度。随着外推年数的增加，中位RMSE没有显著增加。一个可能的解释是早期可用于训练的测量点较少，2009年有355个测量点，2014年增加到593个，2021年最多达到1114个。使用训练数据集密度对测试集进行未测量预测的实验表明，370–560个训练测量点的中位RMSE为2.3摄氏度，280个训练测量点的中位RMSE为3.7摄氏度。如果早期的性能损失是由于训练数据稀疏造成的，那么使用完整可用数据集进行时间外推可能会产生最小的损失，类似于2015–2022年的情况。

TempEst-NEXT在不同气候条件（炎热、湿润或干燥）下的外推表现良好，性能损失适中（表3）。中位RMSE在干燥条件下增加了最多0.3摄氏度，NSE在湿润条件下减少了最多0.12摄氏度。大多数外推测试的偏差都在典型范围内，除了干燥条件（+0.47摄氏度）和特定测量点的最热天数（?1.1摄氏度）。个别测量点最热的5%天数的误差略有增加，通常低估了SWT。然而，外推到最热的5%测量点（平均每日最高气温25摄氏度）对性能影响不大（表3），最大误差非常低，为1.4摄氏度。在个别测量点，最湿的5%天数的性能高于平均水平。在所有测量点上，外推到最湿的5%（平均降水量5.5毫米/天，或每年2毫米）产生了较低的绝对误差，但对趋势性能有轻微的负面影响（NSE；表3）。在个别测量点，无降水天数的误差略有增加。在所有测量点上，外推到最干的5%（平均降水量1.3毫米/天，或每年0.5毫米）在所有指标上产生了轻微的性能损失，除了最大误差（表3）。

使用HRRR训练的模型对测试集进行两天提前的再预测，中位RMSE为2.3摄氏度，NSE为0.87，绝对偏差为2.0%和0.25摄氏度，最大误差为2.7摄氏度（表3）。仅考虑异常值的中位NSE下降到0.34摄氏度。使用Daymet天气数据的模型进一步将RMSE降低了0.2摄氏度。

为了更好地理解未测量模型的性能，我们还检查了测试集中表现最差和最好的100个测量点（按RMSE排序）。表现最差的测量点的RMSE范围为2.4–7.8摄氏度，范围为0.05–0.98，而表现最好的测量点的RMSE范围为1.1–1.9摄氏度，范围为0.73–0.98。为了测试好或差性能的可预测性，我们训练了一个随机森林（Breiman, 2001）分类器来预测两组以及中间100个测量点的“最好”、“最差”和“平均”类别，分别在70%的测量点（70个测量点）上训练，在另外30%的测量点上测试。分类器正确分类了50%的测试集，略好于随机预测（三个类别相等时为33%），但仍然较低。从分析中我们得出结论，最好的/最差的测量点不能从我们使用的预测数据中显著预测（比随机预测提高50%），但可能存在与未测量情况下不可用的变量（例如，高分辨率地下水活动）或我们未建模的变量（例如，水库影响）的重要相关性。

为了评估我们未建模的变量的定性作用，我们在地图上检查了表现最好和最差的30个测量点（各10%）。表现最好的测量点通常（50%）沿岸有树木，但其他方面不一定有森林（包括郊区、农业区和干旱地区的测量点）。我们推测这可能是由于相对均匀的遮荫，减少了与测量点坐标精度相关的太阳辐射误差。例如，许多测量点的位置可能位于桥梁下或不在阴影中，而“开放阳光”和“完全阴影”之间的差异已被证明会导致较大的SWT差异（例如，2摄氏度；Booth等人，2014年）。然而，这种效应不足以解释整个“表现最好”的集合，因为尽管包括了河岸植被作为协变量，但测量点类别预测的准确率仅为50%。表现最差的测量点没有普遍特征，但大多数位于距离水库或湖泊1公里范围内。少数测量点位于湿地下游，这可能是由于水库的影响，或者是一些未知因素。还有一些表现较差的测量点位于湿地下游，表明可能存在高地下水活动，其中一个位于蒙大拿州的黄石国家公园，位于温泉下游，这会产生热效应（例如，Mariner等人，1990年），如果没有详细的站点数据则无法观察到这些效应。

作为SWT空间可预测性的评估，测试集中每年某一天平均SWT的测量点间差异范围为0.68–0.91摄氏度，中位数为0.82。所有测量点日期SWT预测的时空相关性范围为0.64–0.87，中位数为0.78。季节性系数的空间相关性（Philippus等人，2024a）变化更大，范围从0.21（秋季/冬季）到0.92（截距），排除了三个未预测的日期。五年间隔内的空间相关性相似（0.20–0.90），表明在20年窗口内观察到的季节性变化是从空间变异性中学到的。

对于不确定性，210个成员的测试集集合（图5）在所有阈值（0–32摄氏度）和测量点上的整体中位Brier分数为0.051。与线性参考模型（见附录C）相比，其中位Brier分数为0.084，TempEst-NEXT的中位Brier技能分数（Brier分数的比例提高）为0.40。作为参考，线性模型的中位RMSE为2.7摄氏度。集合95%置信区间的中位宽度在所有测量点和日期上为10摄氏度，捕获了94%的观测值（中位数：96%）。

下载：下载高分辨率图像（524KB）
下载：下载全尺寸图像
图5. 从测试集中随机抽取的集合预测示例。阴影显示了集合预测的95百分位数区间。

3.4. 实时预测性能
实时预测的提前时间为1–16天，整体中位RMSE为2.3摄氏度，偏差为?0.20摄氏度。由于记录时间较短，我们没有收集趋势指标（例如NSE）。在不同提前时间内，中位RMSE几乎没有趋势，且不超过2.4摄氏度（表4，图6）。我们注意到，在短时间内（未显示），偏差往往是一致的。例如，2025年2月的第一个实时预测是在极地涡旋被纳入天气预报之前运行的，导致美国大陆大部分地区出现意外寒冷，以及事件期间SWT预测偏差一致为+1–2摄氏度。

表4. 不同提前时间的实时预测性能。中位指标是测量点个别性能指标的中位数，而全局指标是在每个提前时间的所有预测中计算的。
提前时间（天）中位RMSE（摄氏度）全局RMSE（摄氏度）中位偏差（摄氏度）全局偏差（摄氏度）
12.2 2.5 ?0.1 ?0.2
22.2 2.5 ?0.1 ?0.2
32.3 2.5 ?0.2 ?0.2
42.3 2.5 ?0.2 ?0.2
52.3 2.5 ?0.3 ?0.3
62.3 2.5 ?0.3 ?0.3
72.3 2.5 ?0.3 ?0.3
82.3 2.5 ?0.3 ?0.3
92.3 2.5 ?0.3 ?0.3
102.4 2.5 ?0.2 ?0.2
112.3 2.5 ?0.2 ?0.2
122.4 2.5 ?0.2 ?0.2
132.3 2.5 ?0.1 ?0.2
142.2 2.4 ?0.1 ?0.2
152.2 2.4 ?0.2 ?0.3
162.3 2.5 ?0.2 ?0.4
总范围 2.2 – 2.4 2.4 – 2.5 ?0.3 – ?0.1 ?0.4 – ?0.2

下载：下载高分辨率图像（868KB）
下载：下载全尺寸图像
图6. 测试集（238个测量点，预测成功）的实时预测和观测结果。

3.5. 计算特性
在我们的TempEst-NEXT/NEWT测试中，如果不使用修改引擎并且模型一次性运行，则单个流域的预测几乎是即时的（0.01秒/年）。这种快速执行使得能够进行大规模分析，例如每个测量点使用1000个模型集合的不确定性分析，总运行时间为每年/每个测量点1–10秒。通过修改引擎，对单个流域的预测每年需要1秒。将TempEst-NEWT模型应用于单个流域需要0.5秒，而将TempEst-NEXT应用于开发集中的928个测量站则需要大约2.5分钟。对于18,000个嵌套流域的高分辨率（1公里）1-16天预测运行，检索初步数据需要600小时，但检索新的天气预报并运行下一次预测仅需8小时。前者涉及检索5年的估计天气数据（2018-2022年）以估计模型系数，以及22天的GFS（环境建模中心，2024年）预报（用于计算天气异常的6天加上16天的预报），然后运行模型进行24天的预测。我们注意到，使用紧密嵌套的流域是一种低效的高分辨率建模方法，但它有助于说明如何灵活地从不同大小的流域中检索和预测数据，这些流域并不对应于特定的HUC、测量站排水面积等，从而实现公里级分辨率的预测。在一般的预测测试中，使用预先检索的系数估计数据，每个站点的数据检索和预测24天的平均时间为10-15秒。

如果所需数据已经预处理过，模型运行时间不依赖于流域面积。否则，数据处理会随着流域面积的增加而增加，而天气数据检索通常比运行模型所需的时间要长得多。模型运行时间随时间序列的长度而变化，使用任何类型的修改引擎的模型运行速度都会大大减慢（慢100倍），因为后者可以快速处理整个数据集，而前者则需要逐步处理。因此，修改引擎不应作为默认选择，但在特定用例中可能会提高模型的灵活性或准确性，而且运行时间仍然合理（每年每个流域1秒）。

4. 讨论
4.1. 模型性能、比较和应用
据我们所知，TempEst-NEXT是首个可用于美国本土（CONUS）范围内无测量站的日分辨率和公里分辨率SWT（Surface Water Temperature）预测的模型。它在缺乏本地观测数据的情况下显著扩展了实时水资源管理的能力，在任何可以接受2摄氏度误差的应用中都非常有用。不确定性估计的可用性大大提高了TempEst-NEXT在预测中的实用性，因为可以评估给定结果的风险。将不确定性估计分为季节性和异常部分也有助于分别分析基线条件下的不确定性和异常情况。例如，可以独立于整体热状况的不确定性来评估“今年这个时候比平均温度高1摄氏度”的概率。

还有其他几种日分辨率模型已经在没有训练观测数据的地区进行了测试，包括基于点的SCHEMA模型（TempEst 2；Philippus等人，2025年）、直接模拟日SWT的全流域GAM模型（PNWST；Siegel等人，2023年）、具有空间和时间意识的深度神经网络（Graph WaveNet，GWN；Topp等人，2023年）以及基于网格的过程模型（DynWat；Wanders等人，2019年）。作为参考，TempEst 2也被应用于美国本土，PNWST应用于太平洋西北地区，GWN应用于特拉华河流域，DynWat则在全球范围内以10公里网格进行测试。由于这五个模型（TempEst-NEXT、TempEst 2、PNWST、GWN、DynWat）的适用领域不同，因此它们之间的比较存在混淆，但TempEst 2是唯一一个可用于区域外推的日分辨率模型，这意味着多样化的模型比较受到领域不一致的限制。我们注意到NSTM（Diaz等人，2025年）也在类似的领域进行了评估，但未进行区域外推测试，尽管NSTM与GWN（Topp等人，2023年）基于相同的架构。尽管有这一限制，TempEst-NEXT（区域外推的中位数RMSE为2.2摄氏度）具有第二好的外推性能，低于PNWST（全球RMSE为1.9摄氏度），但优于TempEst 2（中位数2.3摄氏度）、GWN（中位数2.4摄氏度）和DynWat（中位数3.2摄氏度）。在其他四个模型中，只有TempEst 2进行了高海拔地区的外推测试，而在几乎相同的海拔测试中，TempEst-NEXT的表现更好（中位数RMSE为2.9摄氏度对比3.1摄氏度）。然而，在训练领域内，PNWST、GWN和TempEst 2的表现优于TempEst-NEXT（RMSE分别为1.8摄氏度、1.6摄氏度和2.0摄氏度），NSTM也是如此（2.0摄氏度；Diaz等人，2025年），尽管NSTM并未针对区域外推进行评估或设计。除了模型领域外，性能差异还可以通过模型架构和所使用的数据来解释。与TempEst-NEXT不同，PNWST包括了基流指数和流量数据，但我们排除了这些数据以避免依赖模型化的河流特征，并且使用了简单的替代数据来支持长期预测。排除基流、流量和积雪数据可能会使TempEst-NEXT的误差相对于PNWST更大。TempEst 2的架构与TempEst-NEXT非常相似，但它使用地表温度而不是大气温度（AT），并且使用的是预测点周围的数据，而不是整个流域的数据。NSTM使用了与TempEst-NEXT相似的天气输入，但包含了更多的河流信息（例如宽度、调节情况），并排除了土地覆盖数据。

TempEst-NEXT、GWN和DynWat都使用类似的输入数据，因此三者之间的性能差异可能由模型架构和领域差异解释。这五个模型（TempEst-NEXT、TempEst 2、GWN、DynWat、PNWST）之间的性能比较表明，SCHEMA架构往往不如直接预测日SWT的更复杂统计模型，但我们注意到这种折衷在计算效率和可解释性方面有显著代价。SCHEMA在外推方面也表现良好。统计模型通常优于基于过程的DynWat，尽管研究DynWat（如Lee等人，2020年提出的校准基于过程的模型）是否在预测变化的热状况和SWT异常方面更有效会很有启发性。TempEst 2和TempEst-NEXT之间的性能差异可能是由于点定向与流域定向、系数估计架构或温度强迫数据的差异所致。如果TempEst 2的优势在于点定向，那么最佳输入区域可能位于感兴趣点与整个流域之间，这意味着使用流域的一部分可能会提高性能。

对于美国本土范围内的应用，据我们所知，TempEst-NEXT是性能最好的日无测量站SWT模型，适用于高海拔地区和区域外推，非常适合在次大陆范围内应用到各种无测量站的流域。它也是适用于整个美国本土的第三好模型，日分辨率下的中位数RMSE为2.1摄氏度，而TempEst 2和NSTM为2.0摄氏度（Philippus等人，2025年；Diaz等人，2025年），DynWat为3.2摄氏度（Wanders等人，2019年），尽管较小规模的（区域到局部）模型在各自的领域可能表现更好（例如，Siegel等人，2023年；Topp等人，2023年）。因此，TempEst-NEXT目前不仅作为预测工具表现出色，还特别适用于美国本土的历史分析。

4.2. 模型组件的影响
某些输入特征的存在或缺失可能对特定的TempEst-NEXT应用感兴趣。例如，处理建成的土地覆盖会影响城市化的建模，而忽略河道特征则无法模拟水力变化。关于几种部分依赖性的影响及其与文献的比较的详细讨论包含在补充信息（SI第2节）中。我们在这里指出，TempEst-NEXT处理冷天降水（作为降雪的替代指标）的方法对于表示气候驱动的制度转变很有前景，这是统计模型面临的挑战（Lee等人，2020年），但需要进一步的研究来确认这一潜在优势。亚冻结降水与春季/夏季系数之间的正相关关系（SI图9）也支持了这样的假设：春季/夏季异常部分是由融雪驱动的，而且除了降雪之外，高海拔、寒冷、多雪的流域中系数通常最高（Philippus等人，2024a，SI图31）。

4.3. 模型限制
虽然TempEst-NEXT在公里级分辨率下有效，并且能够表示广泛的热状况，但它不是一个基于过程的模型，因此无法详细考虑河道内的行为，例如河道形态（如急流-深潭结构）对地下水流层（hyporheic zone）的热交换的影响（Gariglio等人，2013年）。此外，地下水流（包括地下水和地下水流层相互作用）的影响可以通过模型系数来近似，例如降低年度SWT幅度或大气温度（AT）敏感性，但不能明确考虑。最后，由于TempEst-NEXT是为美国本土范围的应用设计的，它没有利用高度详细的本地数据集，这些数据集在美国本土并不可用，例如高分辨率植被图或详细的河道形态数据。这些限制表明，在某些情况下应使用基于过程的或定制的本地统计模型来替代或补充TempEst-NEXT。例如，TempEst-NEXT/NEWT可能无法捕捉到洛杉矶河恢复情景中增加的粗糙度和地下水上升的影响（Abdi等人，2022年）或自然或工程热避难所（Quilbé等人，2025年）。

将基于过程的或本地统计模型与TempEst-NEXT结合使用将受益于标准化的模型互操作性工具。特别是，兼容Basic Model Interface（Hutton等人，2020年）的模型可以通过NextGen（NOAA/NWS Water Prediction办公室，2020年）等建模框架自动与TempEst-NEXT耦合。通过NextGen将TempEst-NEXT与本地模型耦合对于改进国家水资源建模中的局部表示特别有用。由于TempEst-NEXT是完全自动化的，因此也可以将其轻松地集成到其他（非NextGen）模型组合程序中，例如为另一个SWT模型自动生成上游边界条件输入文件。无论是独立使用还是通过NextGen，混合方法都可以利用TempEst-NEXT来表示长距离的河流并提供边界条件，从而为更精细的模型提供支持，这些模型又可以表示河道情景或热避难所。在无测量站的背景下，TempEst-NEXT的输出也可以用来粗略校准特定站点的模型，尽管应谨慎使用这种校准的结果。

TempEst-NEXT训练的一个限制是，美国地质调查局（USGS）的SWT测量站网络不包括一级高海拔河流。因此，模型训练不包括平均海拔3500米的流域。虽然GAM实现（Servén和Brummitt，2018年）能够进行线性外推，但在训练覆盖范围之外，这种方法的准确性可能无法保证。幸运的是，大规模外推仅可能发生在非常高的海拔（平均海拔3500米）或非常小的（1平方公里）流域，因为这两个变量受到USGS测量站网络的限制。如果用于十年尺度的预测，极端年度平均大气温度（年均日最大温度30摄氏度）可能是一个问题，但两个主要受大气温度影响的系数（平均SWT和春季/夏季系数）在整个范围内都大致呈线性关系，应该能够很好地外推。为了预测超过40摄氏度的SWT，我们建议禁用异常GAM并使用线性异常（通过设置参数‘use_anomgam=False’）以避免外推问题。有关更多方向和解释，请参阅TempEst-NEXT文档（见数据可用性）。

更广泛地说，SCHEMA的设计过程通过分别分析每个模型组件，指出了模型中的两个一般弱点，尽管这不能与其他模型架构进行比较，因为通常不会报告这种分解（TempEst 2也是SCHEMA，具有非常相似的特性；Philippus等人，2025年）。首先，日异常性能——即偏离季节性正常值的情况——明显低于全时间序列性能，校准后的中位数NSE为0.61，无测量站情况下的中位数NSE为0.48。我们注意到TempEst-NEXT的异常性能优于TempEst 2，其中位数NSE为0.48，而TempEst 2为0.45。一个可能的解释是TempEst-NEXT的异常模型允许非线性响应，并与季节性SWT相互作用，而TempEst 2全年使用恒定的S型响应，可能忽略了异常敏感性的时间变化。据我们所知，非SCHEMA无测量站SWT模型尚未报告仅异常性能的数据，因为其他模型架构不需要分别分析季节性和异常。仅异常的NSE与Piccolroaz等人（2016年）报告的校准模型的NSE*统计量大致相当，后者用于比较完整模型与仅季节性的基线，整体验证NSE*为0.49。由于仅异常值的NSE或NSE*很少被计算，我们不了解已建立的性能阈值。根据air2stream、TempEst 2和TempEst-NEXT报告的指标，我们认为“可接受”的最低仅异常值NSE范围在0.40–0.45之间，而0.50（未观测数据）或0.60（特定流域）的仅异常值NSE则属于“优秀”水平，超过了大多数现有模型。第二个普遍的弱点是由于大多数季节性系数的表现相对较差（0.22–0.62，截距除外），导致未观测模型的性能受到惩罚，同时空间方差捕获率仅为80%。大多数模型没有报告空间方差的捕获情况，但在那些报告的模型中，捕获比例也通常较低，例如Isaak等人（2020年）模型捕获了总方差的58%（两个主成分分别解释了46%和28%），Segura等人（2015年）模型捕获了热敏感性的54%以及SWT-AT回归中截距项的25–47%的方差。我们注意到，Isaak等人（2020年）的87%和63%与TempEst-NEXT在截距和振幅方面的空间捕获率（分别为92%和62%）非常接近，尽管它们的建模方法不同。由于这两种方法都强调了季节性热模式，尽管描述方式不同，我们推测这可能反映了可预测性的一般趋势。NorWeST（Isaak等人，2017年）捕获了8月平均SWT变化的91%，与TempEst-NEXT在年平均SWT（截距）方面的空间捕获率相当。根据与其他模型的比较，我们确定了四个潜在的误差来源，这些来源可能共同作用：（1）一般站点数据是可用的或可以收集到更多方差，但未被TempEst-NEXT及其类似模型使用；（2）现有数据可以捕获更多方差，但需要更复杂的建模方法，特别是具有更多特征交互作用的方法；（3）在汇总模型中，热模式的可预测性显著受限；或者（4）在没有局部观测数据的情况下，热模式的可预测性显著受限。如果（1）是主要限制因素，那么随着高分辨率、大范围数据集的可用性增加，未观测模型的性能应该会趋近于校准模型的性能。如果（2）是主要限制因素，那么使用能够处理高维和非线性交互作用的架构（例如深度神经网络，Topp等人，2023年）应该能够取得显著进展，但我们在这里为了避免可解释性和效率问题而避免了这种方法。如果（3）是主要限制因素，那么在没有新的分布式统计建模技术或改进的过程基础建模的情况下，未观测模型的性能将趋于平稳。如果（4）是主要限制因素，那么未观测模型的性能将达到理论上的最优值并趋于平稳。对于有树篱的渠道，由于树篱有助于减少阴影条件的不确定性（在没有局部观测数据的情况下无法确定这些条件），其性能的提高是一个简单的例子，而NSTM（Diaz等人，2025年）和TempEst-NEXT的相似性能表明（2）不是主要限制因素，这支持了我们选择相对简单模型架构的决定。

4.4. 模型调整和用例建议
我们提供了一个完全训练好的TempEst-NEXT模型，可以立即在美国本土使用。然而，许多应用可能会从定制的变体中受益，这取决于具体目标和感兴趣的区域（如果不是整个美国本土的话）。调整模型行为通常不需要重新训练模型，尽管某些选项可能需要重新训练。特别是，修改引擎可以进行调整，并且可以在不修改模型实现的情况下作为新的Python类提供新的修改引擎。我们注意到，该模型可以配置为在模型历史中存储额外的数据，这些数据可以被修改引擎使用。一般来说，修改引擎可以自由调整模型系数，并且可以配置多个修改引擎以自定义间隔运行。例如，气候引擎的回顾期决定了模型系数对流域气候近期变化的响应速度。如果设置了回顾期，则每年将仅使用指定回顾期内的数据重新估计系数，即如果回顾期设置为五年，则模型系数将反映流域气候的滚动五年平均值。否则，模型系数将从第十年开始每年更新一次（这是一个半任意的默认设置，以避免前几年的过度波动），以使用迄今为止的所有数据。更改回顾期不需要重新训练模型。对于关注气候影响的应用，我们建议指定一个回顾窗口，以便早期的气候不会对后续预测产生太大影响。考虑的回顾期越短，模型反映气候变化的速度和强度就越大，但在气候高度波动的地区应谨慎处理，因为这可能会高估年度温度或降水量波动的影响。

其他修改引擎可以设计来支持各种用例。例如，对于以积雪为主的站点或地区，可以使用每年运行一次的修改引擎来调整高雪年和低雪年的季节性和敏感性项；而在观测到融雪高峰时，可以使用频率更高的修改引擎来降低温度敏感性。在有SWT观测数据的站点，可以使用高频修改引擎进行数据同化，将“昨天的观测数据”添加到模型历史中并用于动态调整系数。

4.5. 未来研究
TempEst-NEXT是为美国本土开发和测试的。然而，该模型架构具有灵活性，可以扩展到其他地理区域。TempEst-NEXT中使用的所有数据集（树冠覆盖除外）都适用于阿拉斯加和夏威夷，因此可以将没有河岸缓冲树冠覆盖的版本扩展到所有50个州。此外，所使用的输入数据集也有全球范围的对应数据集，因此通过替换相应的数据集，TempEst-NEXT可以扩展到任何区域。我们注意到，目前用于SCHEMA的三正弦（Philippus等人，2024a）软件包版本包含了北半球的季节性特征，需要针对南半球应用进行修改。

SCHEMA实现的详细性能特征指出了未来SWT可预测性研究的两个方向。总体而言，对于季节性异常特征，系数估计的性能表现中等；对于大多数异常峰值日期，性能较差；而每日异常预测的性能尚可，但仍有改进空间。为了提高季节性异常的预测能力，应该计算其他未观测SWT模型的季节性系数空间性能（即季节性系数的空间分布），并将其与模型结构进行比较。这可以为TempEst-NEXT或其他模型的季节性预测提供新的方法。关于每日异常，即使针对特定流域的模型也表现出有限的性能，这种缺陷是结构性的。通过检查具有不同架构的现有模型以及新的实验，可以揭示是否可以通过汇总的未观测模型实现改进，或者是否需要特定流域和/或分布式建模。总体而言，量化（1）不同热模式特征下的详细空间性能（即三正弦季节性系数或等效物；Philippus等人，2024a）以及（2）未观测模型架构下的异常性能，可能对未来的SWT建模研究具有启发性。这样的知识可以使未来的SWT模型明确考虑不同模型架构的详细优势和劣势。

5. 结论
最近的进展使得能够对未观测流域的历史SWT条件进行建模，范围涵盖各种尺度（最高达到全球范围）和分辨率（最高达到每天1公里）（例如，Wanders等人，2019年；Segura等人，2015年；Philippus等人，2025年；Jackson等人，2018年；Siegel等人，2023年）。TempEst-NEXT将大范围（美国本土）、未观测、高分辨率（每天1公里）的SWT建模提升到了包括短期预测能力（测试范围为1-16天），成为首个在此角色中展示此类能力的模型。此外，TempEst-NEXT遵循完全自动化的流程，从数据收集到预测。TempEst-NEXT在多种流域上都具有很高的鲁棒性，时空外推的误差较小（RMSE +0.1°C），并且在该用例中测试的任何模型中，其高海拔外推性能最佳。通过引入强大的新预测能力，TempEst-NEXT有望大幅推进美国本土的实时水资源管理，包括使用NextGen进行操作性国家水资源建模，并且在适当的训练和验证下，也可以在全球范围内应用。

6. 数据和模型的可用性
TempEst-NEXT、TempEst-NEWT和LibSCHEMA可以在Python包索引中通过相应的名称找到（在Python中分别为NEXT、NEWT、libschema）。TempEst-NEXT/NEWT和LibSCHEMA的教程和文档可以在RiverTempest.org上找到。TempEst-NEXT/NEWT模型的源代码和可复现的验证Jupyter Notebook（Philippus等人，2026年）可以通过CUAHSI HydroShare在https://www.hydroshare.org/resource/abdb4e52147e408f9e328a5ba2a155f8/公开获取。源代码也可以在https://github.com/mines-ciroh/TempEst-NEXT/和https://github.com/mines-ciroh/TempEst-NEWT/找到，LibSCHEMA则在https://github.com/mines-ciroh/libSCHEMA/找到。代码可以根据GNU通用公共许可证v3的条款进行重用、修改、扩展和重新分发。

CRediT作者贡献声明：
Daniel Philippus：撰写 – 审阅与编辑、撰写 – 原始草稿、方法论、调查、数据整理、概念化。
Claudia R. Corona：撰写 – 审阅与编辑、方法论、概念化。
Terri S. Hogue：撰写 – 审阅与编辑、监督、方法论、资金获取、概念化。

热点排行