CoastalBench-downscaling：一种用于从地表数据重建高分辨率三维海岸场的机器学习基准测试

《Ocean Engineering》：CoastalBench-downscaling: a machine learning benchmark for reconstructing high-resolution three-dimensional coastal fields from surface data

【字体：大中小】 时间：2026年05月04日 来源：Ocean Engineering 5.5

编辑推荐：

　　**Bing Yuan | Johannes Pein | Matthias Berg | Joanna Staneva** **德国亥姆霍兹中心Hereon海岸系统-分析与建模研究所，流体力学与数据同化部门** **Max-Planck-Str. 1, 21502, G

　　**Bing Yuan | Johannes Pein | Matthias Berg | Joanna Staneva**
**德国亥姆霍兹中心Hereon海岸系统-分析与建模研究所，流体力学与数据同化部门**
**Max-Planck-Str. 1, 21502, Geesthacht**

**摘要**
海岸系统面临着由气候变化和人类活动驱动的多种挑战。高分辨率的海岸数据对于应对这些挑战至关重要。机器学习（ML）因其高效性和捕捉时空模式的能力而越来越多地被应用于物理场的降尺度处理。然而，利用ML从表面数据降尺度处理三维（3D）海岸场的研究仍然有限。此外，还需要基准测试来确保ML应用的可重复性和客观性比较。本研究介绍了CoastalBench-Downscaling——一个用于从表面数据降尺度处理3D海岸场的ML基准测试工具。该研究重点关注具有移动海岸线的动态海岸区域中的关键海洋变量，包括流速、盐度和温度。评估了多种模型，从传统的ML算法（线性回归、随机森林、多层感知器）到深度神经网络（DNN）。从低分辨率的表面输入数据有效重建了高分辨率的3D海岸场。在边界移动的区域，排除陆地区域的损失函数的DNN性能优于传统模型。空间特征对模型性能有显著影响。DNN在具有精细局部空间特征的场中表现优异（例如流速和盐度），而对于平滑场（例如温度），较简单的模型就足够了。CoastalBench-Downscaling为海洋科学和工程中的ML模型评估提供了一个透明且可重复的参考，支持新的架构设计，并促进跨学科研究。

**符号和缩写列表**
**符号**
- C：神经网络中的通道数（物理场）
- CI, CO：神经网络中的输入和输出通道数（物理场）
- H, W：纬度和经度方向上的点数（2D图像的高度和宽度）
- HI, WO：输入数据的纬度和经度方向上的点数
- HO,WO：输出数据的纬度和经度方向上的点数
- NI, NO：输入和输出变量数，NI=CI×HI×WI，NO=CO×HO×WO
- Npi, Npo：输入和输出网格点数，Npi=HI×WI，Npo=HO×WO
- Ns：预测变量和目标变量的样本/时间数
- R2：决定系数
- u, v：东向和北向流速分量
- w, y, y?：输入、目标和预测数组

**缩写**
- CNN：卷积神经网络
- DNN：深度神经网络
- GAN：生成对抗网络
- LR：线性回归
- MAE：平均绝对误差
- MAE99, MAE01：第99百分位和第1百分位的空间平均绝对误差，以及整个测试期间的时间平均误差
- ML：机器学习
- MLP：多层感知器
- NLP：自然语言处理
- NN：神经网络
- PSNR：峰值信噪比
- RBF：径向基函数
- ReLU：修正线性单元
- RFR：随机森林
- RMS：均方根误差
- RMSE：归一化均方根误差
- RMSE99, RMSE01：第99百分位和第1百分位的空间平均均方根误差，以及整个测试期间的时间平均误差
- SRCNN：超分辨率卷积神经网络
- SRGAN：超分辨率生成对抗网络
- SRResNet：超分辨率残差网络
- SRUNet：超分辨率U-Net
- SSH：海表面高度
- SSIM：结构相似性指数
- SST：海表面温度
- SwinIR：使用Swin Transformer的图像修复
- SwinTVision：使用移位窗口的视觉Transformer

**1. 引言**
海岸系统是陆地和海洋之间的动态界面，提供重要的生态、经济和社会服务（Barbier等人，2011年）。然而，这些系统面临着包括气候变化和人类活动在内的多种挑战（Neumann等人，2015年；Toimil等人，2020年）。高分辨率的海岸时空数据对于应对这些挑战至关重要，并广泛应用于海岸风险管理、海洋水产养殖和环境监测（McCarthy等人，2017年；Murray等人，2022年）。基于物理的数值模型的动态降尺度可以生成高分辨率数据，但这些模型通常计算成本较高。近年来，由于计算效率高和能够表示非线性过程，机器学习（ML）模型在气候和海洋科学中越来越受欢迎（Bracco等人，2025年；Dong等人，2022年；Portillo Juan和Negro Valdecantos，2022年；Sonnewald等人，2021年）。各种ML模型已被应用于海岸动力学研究（Abouhalima等人，2024年；Goldstein等人，2019年）。然而，不同研究之间的数据集、ML模型和评估指标的多样性阻碍了直接比较，并减缓了模型发展。关于选择适合海岸应用的模型的指导仍然有限。此外，可重复性是一个关键瓶颈，因为由于数据访问受限、模型细节缺失或数据处理程序不明确，很少有研究可以重复或复现（Goldstein等人，2019年）。ML应用中的上述问题不仅限于海岸动力学，而在许多科学领域都很普遍。这突显了在科学应用中需要ML基准测试的必要性（Abouhalima等人，2024年；Goldstein等人，2019年；Irrgang等人，2021年；Nguyen等人，2024年；Rubbens等人，2023年；Thiyagalingam等人，2022年）。ML基准测试包括数据集、基线模型和统一的评估程序（Thiyagalingam等人，2022年）。应明确定义关键要素，如输入变量、数据量、基线模型和评估指标（Abouhalima等人，2024年；Nguyen等人，2024年）。然而，鉴于科学问题的复杂性，基准测试本身是一个具有挑战性的过程（Thiyagalingam等人，2022年）。主要挑战包括：(1) 大规模数据集的整理、维护和公开使用；(2) 方法和目标的充分覆盖；(3) 确保基准测试的可扩展性，以最小化代码重构。已有针对天气和气候预测（Rasp等人，2020年，2024年；Watson-Parris等人，2022年；Witt等人，2021年）、海洋预测（Aouni等人，2025年，Johnson等人，2023年；Shi等人，2024年）以及一般时空场预测（Tan等人，2023年；Wang等人，2025年）的ML基准测试示例。ML模型已被应用于降尺度处理各种海洋场，包括流速、盐度、水温以及其他生物地球化学变量，如叶绿素、硝酸盐和磷酸盐（Adobbati等人，2025年；Kuehn等人，2023年；Thiria等人，2023年）。表A1总结了关于三个基本海洋场（流速、盐度和水温）的统计空间降尺度研究。大多数研究关注表面场，只有少数研究涉及3D重建（Adobbati等人，2025年；Su等人，2021年；Tian等人，2022年；Wu等人，2025年；Xie等人，2025年）。例如，Su等人（2021年）使用卷积神经网络（CNN）和基于树的ML模型，利用1°分辨率的表面卫星数据和Argo基于的ST剖面，以1/4°的分辨率重建了全球地下温度（ST），而Tian等人（2022年）使用多层感知器（MLP）以类似的输入配置重建了全球地下盐度（SS）。Adobbati等人（2025年）将这种方法扩展到沿海区域，使用基于U-Net的CNN架构，在北亚得里亚海以1/128°的分辨率生成了3D海岸生态系统场。这些研究使用低分辨率的地下场作为高分辨率3D场重建的输入。Xie等人（2025年）和Wu等人（2025年）后来使用基于Transformer的模型，仅利用表面卫星观测数据，在南海以1/12°的分辨率重建了3D盐度、温度和流速。从表面数据重建3D海洋场非常有价值，因为表面信息（例如来自遥感的数据）比地下数据更容易获取。许多研究利用表面场通过ML模型重建或预测地下条件（Chen等人，2025年；Jiang等人，2024年；Liu等人，2024年；Qi等人，2023年；Su等人，2024年；Wu等人，2025年；Xie等人，2025年；Yang等人，2024年）。然而，大多数这些研究使用的表面场与地下场具有相同的空间分辨率，Xie等人（2025年）和Wu等人（2025年）是例外。利用ML从低分辨率表面信息降尺度处理3D海岸场的系统研究仍然非常有限。与开阔海洋相比，海岸区域的横向边界更为复杂，这些边界由于浅水区和频繁的洪水与干旱而动态变化。一个典型的区域是德国湾，它是北海的东南部，毗邻荷兰、德国和丹麦的海岸。沿这条海岸线是瓦登海，世界上最大的连续潮滩系统，也是联合国教科文组织世界遗产地。瓦登海的潮差约为2至4米（Jacob和Stanev，2021年），表明海岸线不断移动。这些移动的边界显著增加了统计空间降尺度的复杂性。此外，目前还没有针对海岸降尺度的ML基准测试，这限制了模型之间的比较。ML基准测试可以根据任务进行分类，如降尺度、间隙填充（Johnson等人，2023年）和时空预测（Aouni等人，2025年；Shi等人，2024年）。Johnson等人（2023年）提出了一个框架，为ML研究人员提供了标准化的数据处理步骤，用于基准测试他们的模型，该框架被应用于从遥感数据重建海表面高度。Shi等人（2024年）提出了一个用于预测海洋表面变量（流速、温度和盐度）的ML基准数据集，该数据集使用过去的海洋状态来预测接下来的几个时间步长。Aouni等人（2025年）引入了OceanBench，用于评估全球短期（1-10天）数据驱动的海洋预报，使用初始的3D海洋状态变量和变化的大气强迫作为输入。这些研究都假设研究人员具备应用ML模型的基本知识，并且ML模型通常没有包含在在线存储库中。尽管可能提供这些模型的参考，但应用细节的差异可能导致结果的显著差异。因此，需要更基础的海洋ML基准测试，不仅包括数据，还包括ML模型的详细说明。

**2. 材料和方法**
数据集首先在第2.1节中介绍，该节涵盖了具有移动海岸线的动态海岸区域。第2.2节介绍了用于空间降尺度的传统ML模型，第2.3节介绍了从传统ML模型到现代深度学习模型的深度学习模型。第2.4节介绍了用于解决神经网络预测不确定性的集成方法。第2.5节介绍了移动海岸线的预处理和训练策略。第2.6节介绍了评估指标，第2.7节展示了计算环境和模型设置。考虑了广泛的ML模型，从传统的线性回归、基于树的模型（随机森林）和MLP，到现代深度学习架构，包括CNN和基于Transformer的模型。第3节展示了结果，第4节讨论了模型选择和更广泛的影响。第5节总结了结论。数据来源：考虑了多个基本的海洋场，包括流速、盐度和水温。选择了德国湾一个1°×0.5°的沿海区域（图1）。该区域代表了一个典型的潮间带系统，带有河口。该地区的潮差约为2-4米（Jacob和Stanev，2021年），并且大部分海底位于-2米以上（图1），表明这里经常发生湿润和干燥现象，海岸线非常动态（Jacob等人，2016年；Stanev等人，2019年）。下载：下载高分辨率图像（525KB）下载：下载全尺寸图像。图1. 德国湾选定的沿海区域。标出了六个参考点（P1-P6）：P1-P3位于从河口到沿海海域的横断面上，而P4-P6代表经常经历湿润和干燥的潮间带位置。这些位置的坐标和深度在表A3中提供。使用高分辨率的区域模型数据来训练机器学习（ML）模型。该区域水动力模型采用了半隐式跨尺度水科学集成系统模型（SCHISM，Zhang等人，2016年）与波浪模型WWMIII（Roland等人，2012年）相结合，该模型明确考虑了淹没和干燥过程（Zhang等人，2020年）。更多模型细节和与观测结果的验证在Hosseini等人（2025年）的论文中有描述。水平计算网格采用三角形，模型输出通过重心加权方法插值到低分辨率和高分辨率的矩形网格上。低分辨率网格的大小为1/8°×1/16°（8×8个网格点），高分辨率网格的大小为1/128°×1/256°（128×128个网格点），相当于16倍的降尺度因子。对于垂直网格，使用了带有削薄单元的局部Sigma坐标，这使得浅水区域的层次较少。总共展示了21个垂直层次。在这项研究中，使用了表层、中层和底层的数据来评估ML模型从表层信息降尺度三维场的能力。对于流速数据，由于底层流速为零，因此用近底层数据代替。使用了2020年的一年内每小时数据，其中75%用于训练，25%用于测试。表A2总结了高分辨率沿海场的基本特征：流速u（东西方向）、盐度、水温以及海表面高度（SSH），前三个变量考虑了三个垂直层次。主要的降尺度配置采用自变量方法，即每个变量都从其自己的低分辨率场进行降尺度。此外，还进行了跨变量实验，使用低分辨率的SSH来降尺度三维流速u。为了便于模型比较，选择了六个代表性位置（图1和表A3）：三个位于从河口到沿海海域的横断面上，另外三个位于经常发生湿润和干燥的区域。

2.2. 用于空间降尺度的传统ML模型
统计空间降尺度可以表述为一个回归问题，其目标是估计预测变量（粗网格上的值）和目标变量（细网格上的值）之间的关系。几种广泛使用的传统ML模型可以完成这项任务，包括线性回归、基于树的模型（如决策树和随机森林）以及MLP。如果MLP包含超过两个隐藏层，则通常被视为深度学习模型。

2.2.1. 多变量线性回归
多变量线性回归（LR）估计预测变量x与多个目标变量y之间的线性关系。这种方法已应用于包括波浪场在内的海洋场的降尺度（Chen等人，2021年；Yuan等人，2025年）。LR的一般形式用矩阵表示为：
(1) y = wx，
或者用分量形式表示为
(2) ysj = w0jxs0 + w1jxs1 + w2jxs2 + … + wNIjxsNI，
其中xs0 = 1, s = 1, …, NS, j = 1, …, NO。
这里，y是目标数组，维度为(NS, NO)；x是预测数组，维度为(NS, NI+1)，包括一个辅助列向量x0 = [1, 1, …, 1]T；w是未知系数数组，维度为(NI+1, NO)，包括截距项w0j。数字NI和NO（NO>1）分别对应预测变量（输入）和目标变量（输出）的数量，下标I/O表示输入/输出。数字Ns对应样本数量，即单时间步空间降尺度的时间步数。对于单时间步的统计空间降尺度，NI = CIHIWI。这里，H和W分别是纬度和经度方向的网格点数量，CI是预测物理场的数量（例如，如果同时使用盐度和温度作为输入，则CI=2）。同样，NO = COHOWO，其中CO是目标物理场的数量，HOWO是高分辨率输出网格中的总网格点数量。LR允许在粗略和精细的空间表示之间进行直接的线性映射，并为更复杂的ML模型提供了有用的参考基线。

2.2.2. 随机森林
随机森林（RF）是一种用于分类和回归的集成ML算法（Breiman，2001年）。它已被应用于多种变量的降尺度，如沿海叶绿素-a（Mohebzadeh和Lee，2021年）、波浪（Chen等人，2021年）和降水（He等人，2016年，He等人，2016年）。RF通过结合多个决策树来产生比单个树更稳健和准确的预测，利用了自助聚合（bagging）和随机特征选择（图A1）。基于树的模型的关键原理是递归地将输入空间划分为目标值尽可能均匀的子空间。在测试过程中，样本被路由到其中一个子空间，模型输出属于该子空间的训练样本的目标值平均值。
对于每个决策树，首先对所有样本的输入特征进行排序，并确定相邻值之间的潜在分割点（图A1）。例如，对于一个样本值为[0, 3, 6, 6, 6]的特征，潜在的分割点是1.5和4.5。每个候选分割点将样本分为两个子节点，保持父节点的总样本数量不变（例如，在上述例子中，如果分割点是1.5，则分为一个和四个样本）。接下来，根据父节点处排序后的输入特征对所有目标样本进行排序，并计算每个潜在分割点的目标值异质性或纯度。对于回归，纯度通常通过目标值的均方误差或平均绝对误差来衡量，例如：
(3) Imp = 1/NI ∑j=1 to NO (1/NSc ∑s=1 to NSc (ysj ? y?j)2)，
其中ysj是第j个输出特征在NSc个子样本集中的目标值，y?j是该子集的平均值，NO是输出特征的总数。例如，在预测波高、周期和方向时，NO=3。使用两个子节点的加权平均纯度来评估每个潜在分割点：
(4) Imp_split = (NSc1/NSc1 + NSc2/NSc2) × Impc1 + (NSc1/NSc2 + NSc2/NSc2) × Impc2，
其中NSc1和NSc2分别是子节点c1和c2的样本数量。对于空间降尺度，输入特征的数量NI和输出特征的数量分别为CIHIWI和COHOWO。
对当前节点的所有特征重复纯度估计，并选择产生最低纯度的分割点作为真正的分割点。这个过程对每个子节点重复进行，直到满足停止条件，例如达到最大树深度（路径上的最大分割次数）、分割内部节点所需的最小样本数量或终端（叶子）节点的最小样本数量。随着树深度的增加，每个节点的样本数量减少，叶子节点通常只包含少数样本。对于预测，新样本被路由到一个叶子节点，模型输出该节点中训练样本的目标值平均值。在RF中，每个节点通常只考虑随机子集的特征（例如NI或NI/3）进行分割，而不是像标准决策树中的所有NI特征。这种随机化引入了树木之间的多样性，减少了它们之间的相关性，从而减少了过拟合并提高了聚合预测的稳健性。在这里，对于降尺度，输入特征的数量（CIHIWI）相对于输出特征的数量较小，所有输入特征都被考虑用于分割。
Bagging是ML中的一种集成方法，它结合了自助法和聚合。自助法通过从原始数据集中有放回地抽样生成多个数据集。例如，给定一个包含三个样本的数据集[1, 2, 3]，一个大小为三的自助样本包含从原始样本中随机选择的三个样本，可能是索引为[1, 2, 1]的样本。未在自助法中选中的样本称为袋外（OOB）样本，可用于训练过程中的快速误差估计。OOB样本与总样本数Ns的平均比例为(1?1/Ns)Ns，对于较大的Ns，这个比例大约为1e（约0.37）。每个自助数据集被输入到一个模型（例如决策树）中，所有模型的预测结果被聚合起来形成最终预测：
(5) y? = 1/B ∑b=1 to B y?b(x)，
其中y?b(x)是第b个模型的预测结果，B是集成中的模型总数。

2.2.3. 多层感知器
MLP是一种由多层全连接人工神经元组成的前馈神经网络。它已被广泛应用于各个领域，包括大气科学（Gardner和Dorling，1998年）、环境科学（Zhu等人，2023年）和海洋科学（Sonnewald等人，2021年）。MLP构成了现代深度学习架构的基础，因为它引入了通过反向传播训练的多层非线性变换的概念（Goodfellow等人，2016年；Rumelhart等人，1986年）。图2展示了MLP及其神经元的结构。通常，MLP包括一个输入层、一个输出层和至少一个隐藏层，每层包含一些神经元，这些神经元与前一层的所有神经元相连（图2a）。术语“前馈”指的是数据从输入流向输出，没有从深层到浅层的反馈（例如，从隐藏层2到1层），这与循环神经网络不同。每个神经元的值是通过加权求和得到的，然后进行非线性投影：
(6) zj(l) = ∑iai(l?1)wij(l) + bj(l)，
(7) aj(l) = ?(l)(zj(l))，
其中ai(l?1)是第(l?1)层中第i个神经元的值，aj(l)是第l层中第j个神经元的值，上标l表示隐藏层/输出层的索引，wij是可学习的权重，bj是未知的偏置项，?是激活函数。常用的激活函数包括修正线性单元（ReLU：max?(0, x)）、逻辑函数（1/(1+e?x)）和双曲正切（(ex?e?x)/(ex+e?x)）。在没有偏置项的情况下，经过几层后的预测值y?可以表示为嵌套函数：
(8) y? = ?(L) (w(L)?(L?1)(w(L?1)??(2)(w(2)?(1)(w(1)x))?)。
下载：下载高分辨率图像（356KB）下载：下载全尺寸图像。
图2. (a) 三层多层感知器（两个隐藏层和一个输出层）的示意图，以及(b) 隐藏层或输出层中的单个神经元，其中?是激活函数。图(a)中的网络是使用NN-SVG（LeNail，2019年）生成的。
神经网络（NN）通过训练从数据中学习以逼近目标。在训练过程中，网络的参数（权重和偏置）被优化以最小化预测输出与目标之间的距离。这个距离通过损失函数来衡量。对于回归任务，通常使用均方误差作为损失函数，定义为：
(9) ε = 1/Ns ∑s=1 to NS (1/NO ∑j=1 to NO (y?sj ? ysj)2)，
其中ysj和y?sj分别是第s个样本在第j个输出神经元处的目标和预测值，NO是输出神经元的总数，Ns是用于估计损失的样本数量。在涉及C个物理场（通道）的空间降尺度背景下，输入层和输出层的神经元数量分别对应CIHIWI和COHOWO。
通常，训练过程如下：给定一个输入后，网络参数首先随机初始化或根据某些规则初始化（例如，He等人，2015a，He等人，2015b）。然后计算隐藏/输出层中神经元的值，接着评估损失函数。根据计算出的损失，更新参数，并迭代这个过程，直到损失满足某些标准（例如，Prechelt，1998年）。为了最小化损失函数ε，通常使用基于梯度的优化方法，如反向传播。这些方法通过使用正的学习率α，迭代地沿着ε对参数的负梯度方向更新参数，具体步骤如下：
\(w_{ij}(l) = w_{ij}(l) - \alpha \frac{\partial \epsilon}{\partial w_{ij}(l)}\)，
\(b_{j}(l) = b_{j}(l) - \alpha \frac{\partial \epsilon}{\partial b_{j}(l)}\)，
其中梯度 \(\frac{\partial \epsilon}{\partial w_{ij}(l)}\) 和 \(\frac{\partial \epsilon}{\partial b_{j}(l)}\) 是通过从输出层向输入层反向传播误差并使用链式法则计算得出的。在实践中，最常用的优化策略是小批量梯度下降（mini-batch gradient descent），它使用一小部分样本（例如16个样本）来更新参数。与批量梯度下降（每次更新使用整个数据集）和传统的随机梯度下降（每次更新使用单个样本）相比，这种方法平衡了计算效率和收敛稳定性。这个更新过程会在整个数据集上重复多次，每次完整的迭代称为一个周期（epoch）。

在训练过程中，训练好的模型（模型参数）可以多次保存为检查点（checkpoint），例如在几次迭代后、每个周期结束后或几个周期后。根据停止准则（如提前停止策略）保存最终检查点也是常见的做法，当验证集（与训练集分离的数据集）上的损失开始增加时，训练就会停止，这表明可能存在过拟合。训练完成后，使用选定的检查点或一组检查点来评估模型在测试数据集上的性能，该测试数据集也与训练集不同。上述概念广泛适用于神经网络（NNs），并自然扩展到机器学习（ML）的一个子领域——深度学习（deep learning）。

**2.3 深度学习模型用于空间降尺度**
深度学习（DL）是一类利用深度神经网络（DNNs）来学习数据表示的机器学习方法（LeCun等人，2015年）。这里的“深度”指的是包含多个隐藏层（通常超过两到三层）的架构。深度学习模型包括多种架构类型，如全连接神经网络（fully connected neural network）、卷积神经网络（convolutional neural network, CNN）、图神经网络（graph neural network, GNN）、循环神经网络（recurrent neural network, RNN）和变换器（transformer）。CNN特别适用于像图像这样的空间网格化数据，而GNN则适用于社交网络等类似图的非结构化数据（Khemani等人，2024年）。RNN和变换器适用于时间序列和文本等序列数据，后者在处理长序列时尤其有效（Vaswani等人，2017年）。由于本工作的重点是空间数据，我们主要考虑基于CNN的模型，包括基本架构和成熟的设计，如残差网络（residual network, He等人，2015a）和U-Net（Ronneberger等人，2015年）。此外，我们还考虑了一个基于变换器的模型（Liang等人，2021年）进行比较。以下小节描述了四种使用的架构：
（1）超分辨率卷积神经网络（Super-resolution convolutional neural network, SRCNN），
（2）超分辨率残差网络（Super-resolution residual network, SRResNet），
（3）超分辨率U-Net（Super-resolution U-Net, SRUNet），
（4）超分辨率视觉变换器（Super-resolution vision transformer）。超分辨率（SR）是从低分辨率输入重建高分辨率数据的过程，起源于经典的图像和信号处理技术。通过深度学习技术，在SR领域取得了显著进展（Wang等人，2020年）。空间降尺度与SR具有相同的概念，即提高数据分辨率。

**2.3.1 超分辨率卷积神经网络**
CNN适用于以多个数组形式存在的数据，如图像（LeCun等人，2015年）。CNN的核心组件是卷积层，它通过一组共享的滤波器或核在层间进行局部卷积操作来连接数据。与MLP类似，CNN也结合了非线性激活函数以引入模型的非线性。CNN中的另一个重要层是池化层，它通过例如用该块中的最大值替换网格值来合并相邻单元的特征（最大池化）。池化减少了数据的空间维度，使得特征图对输入中的小位移和失真不那么敏感。

图3展示了一个卷积层的示例。给定一个输入张量x，表示单个时间步长的温度和盐度二维场，其中纵向和纬度方向各有4个网格点，输入数组的维度（C, H, W）为（2, 4, 4）。这里，C是通道维度，对应于2D物理场的数量，H和W分别表示高度（纵向）和宽度（纬度）方向的网格点数量。核K用于与输入x进行互相关（翻转卷积），即计算\(\sum_{i}\sum_{j}\sum_{k}x_{ijk}K_{ijk}\)，对于核大小在x的空间维度上滑动的每个块。核的通道维度与前一层相同，通常空间大小较小，例如3×3或5×5。每个核的卷积都会产生一个新的特征图，其中每个单元连接到局部感受野（例如，核大小的3×3区域），而不是前一层的整个区域。通过填充输入（例如用零填充）并在卷积过程中以特定步长滑动，可以控制特征图的空间维度。例如，使用3×3的核，填充1个单位，在两个空间方向上步长为1，会产生一个与前一层相同空间尺寸的新特征图。感受野，即影响特征图中某个单元的输入区域，随着网络深度的增加而扩大。例如，如果在每一层都使用3×3的核，第二隐藏层中的感受野将覆盖原始输入的5×5区域。

**下载：** 下载高分辨率图像（504KB）
**下载：** 下载全尺寸图像

图3. 卷积层的示意图。给定一个输入张量x，其维度为（2, 4, 4），表示4×4空间网格上的两个通道（例如温度和盐度），应用Nk个大小为（2, 3, 3）的核进行互相关，步长为1，两个空间方向上的填充为1，会产生一个维度为（Nk, 4, 4）的输出张量，对应Nk个特征图。

在基于深度学习的SR中，提出了多种上采样方法来提高分辨率，这些方法大致可以分为基于插值的方法和基于学习的方法。基于插值的上采样方法（如双线性插值）仅依赖于输入数据，不涉及学习过程，可能会引入伪影，如噪声放大和模糊。基于学习的上采样方法包括转置卷积（也称为反卷积）和带像素重排的卷积（亚像素上采样）。这些方法在提高分辨率时使用可学习的参数，并因其更好的性能而越来越受欢迎。这些方法的详细描述可以在Wang等人（2020年）的论文中找到。SRCNN最初是为图像增强开发的（Dong等人，2016年），已成功应用于医学成像、遥感和科学降尺度（Sun等人，2024年；Umehara等人，2018年；Wang等人，2022年）。原始网络包含两个隐藏层（分别使用64个9×9和32个1×1的核），以及一个具有三个5×5核的输出层。该研究中使用了双三次插值进行上采样。这里提出了一种通用的SRCNN架构（图A2），其中所有卷积层都使用相同的3×3核大小，并在卷积块之后应用亚像素上采样来提高空间分辨率。

**2.3.2 超分辨率残差网络**
在深度神经网络中，随着网络深度的增加，由于梯度消失和优化困难等原因，训练误差可能会饱和并恶化。为了解决这个问题，引入了带有跳跃连接的残差块（He等人，2015a）。其核心思想是创建一个快捷连接，将输入特征图x直接添加到卷积块的输出，从而得到从x到\(f(x) - x\)的残差映射，而不是原始映射f(x)。新的映射确保了残差块内的恒等映射，即当残差为零时，该块成为一个恒等函数。这促进了信息在深层之间的直接传播，有助于在反向传播过程中缓解梯度消失问题（K. He等人，2016年）。

SRResNet（Ledig等人，2017年）是一种使用残差块的深度学习模型，作为超分辨率生成对抗网络（SRGAN）中的生成器模型，在均方误差方面表现出色。SRResNet已有效应用于大气（Murukesh等人，2023年；Wang等人，2021年）和海洋降尺度（Yuan等人，2024年；Yuan等人，2024年；Yuan等人，2025年）领域。其架构结合了用于特征提取的残差块和用于空间增强的亚像素上采样块。图A3展示了本研究中使用的SRResNet架构。

**2.3.3 超分辨率U-Net**
U-Net架构最初是为生物医学图像分割开发的（Ronneberger等人，2015年），此后已成为医学和卫星图像分析等任务中最广泛采用的CNN结构之一（Azad等人，2024年；Wu等人，2024年）。U-Net也被扩展用于SR应用，包括海洋场降尺度（Adobbati等人，2025年；Kugusheva等人，2024年）。图A4展示了本研究中使用的基于U-Net的SR架构（SRUNet）。U-Net的特点是U形布局，包含收缩路径和扩展路径。在收缩路径中，通过下采样（例如最大池化）降低空间分辨率；在扩展路径中，通过上采样（通常是反卷积）恢复分辨率，同时连接来自收缩路径的相应特征图。在本研究中，U-Net的下采样通过最大池化实现，上采样通过反卷积实现。为了提高空间分辨率，在U-Net组件之前应用了上述两种DNN中的亚像素上采样块。

**2.3.4 超分辨率视觉变换器**
变换器架构最初是为序列数据开发的，它基于自注意力机制而不是循环或卷积结构（Vaswani等人，2017年）。它在自然语言处理（NLP）等任务中取得了巨大成功，并推动了大型语言模型（包括生成预训练变换器GPTs）的发展。随后，视觉变换器（ViT）被开发用于视觉任务，通过将图像分割成小块并将其嵌入为一维序列（Dosovitskiy等人，2021年）。最近，开发了一种新的视觉变换器Swin Transformer（SwinT），它采用移动窗口进行自注意力计算（Liu等人，2021年）。与原始的ViT不同，SwinT将自注意力限制在非重叠的局部窗口内，从而提高了效率。窗口移动（层与层之间窗口大小的一半）使得跨窗口通信成为可能，并通过多层逐渐建立全局连接，类似于深度卷积网络中的感受野扩展。

使用Swin Transformer（SwinIR）进行图像恢复被提出用于SR（Liang等人，2021年）。该模型在这里被作为一个基于变换器的SR模型使用，并进行了少量修改。图A5展示了SwinIR的架构。与上述DNN类似，上采样块被调整以支持任意整数比例因子，并在最后一个卷积层之后添加了一个激活函数。该模型使用多个残差SwinT块（RSTB）进行特征提取。每个RSTB由几个SwinT层组成，这些层在局部窗口内的嵌入块上计算自注意力。这些窗口在SwinT层之间移动以实现跨窗口连接。SwinT层具有与原始变换器自注意力块相同的结构，不同之处在于输入是嵌入在类似图像的数据的局部窗口中。

自注意力块主要由多头自注意力（MSA）层和MLP组成。对于输入序列中的每个元素，自注意力通过评估序列中所有其他元素的相关性来计算加权表示，从而捕捉元素之间的长距离依赖性。从概念上讲，自注意力可以理解为序列上的全局互相关形式。带有非线性激活函数的MLP将非线性引入模型。通常，MLP的输入和输出维度与嵌入维度De相匹配，并使用一个具有多个De神经元的隐藏层。在SwinIR中，MLP使用一个具有4De神经元的隐藏层。

图像数据首先被嵌入到序列数据中。在ViT中，每个尺寸为（C, H, W）的图像输入首先被分割成不重叠的P×P大小的块，并扁平化为形状为（Np, Dp）的序列，其中Np=HP×WP是块的数量，Dp=P×P×C是每个块的像素数量。例如，一个尺寸为（3, 16, 16）的图像，如果块大小为2×2，则Np=8×8，DP=2×2×3。序列被线性投影到一个新的形状（Np, De），其中De是嵌入维度，然后对所有元素（块）应用自注意力。自注意力块的输出通常保持与输入相同的维度（Np, De），这可以重新嵌入回原始的输入维度，对应于嵌入过程。在SwinT中，卷积操作取代了ViT中使用的初始展平和线性投影，从而得到一个维度为（De, H/P, W/P）的特征图。然后这个特征图被重新组织成一个形状为（Np, De）的序列，以输入到自注意力中。与ViT不同，SwinT对局部不重叠窗口内的块应用自注意力，而不是全局块，并且这些窗口在SwinT层之间移动。在SwinIR中，默认的块大小是1×1，初始嵌入是使用大小为3×3的卷积核、步长为1和1的零填充来执行的。图4展示了多头自注意力的主要工作流程。给定一个具有Np个元素的嵌入输入序列xe（例如，在ViT中的图像块数量或在NLP中的令牌数量），每个元素由一个长度为De的向量表示，该序列的维度为（Np, De）。这个输入被线性投影成三个向量：查询（Q∈RNp×dk）、键（K∈RNp×dk）和值（V∈RNp×dv）。下载：下载高分辨率图像（399KB）下载：下载全尺寸图像图4. 多头自注意力的主要工作流程。Q=xew，K=xew，V=xew，（11）其中wQ和wK是维度为（De, dk）的可学习权重矩阵，wV是维度为（De, dv）的权重矩阵。自注意力的核心计算是缩放后的点积，如下所示：（12）ySA=softmax(QKTdk)V。点积QKT返回一个维度为（Np, Np）的注意力分数矩阵，该矩阵量化了序列中元素之间的成对关系。softmax函数将这些分数规范化为概率，产生范围在（0, 1）内的注意力权重，每行的总和为1。自注意力的最终输出是值向量V的加权和，反映了每个元素的上下文重要性。实际上，使用的是多头注意力。这涉及并行计算多组Q、K和V的投影，每个的dk=dv=Deh，其中h是注意力头的数量。所有头的输出被连接起来，得到一个维度为（Np, De）的输出。

2.4. 神经网络的集成方法
DNN在高维参数空间中运行，通常包含许多局部最优解。它们的训练过程是随机的，受到随机初始化和随机数据洗牌以及超参数选择（例如，学习率、训练周期数和批量大小）等因素的影响（Gawlikowski等人，2023年）。因此，即使使用相同的数据和模型架构，不同的训练运行也可能收敛到不同的局部最优解，从而引入预测不确定性（Bhojanapalli等人，2021年；Gawlikowski等人，2023年）。这种不确定性使得模型性能的客观评估和直接模型比较变得复杂。一种广泛使用的方法是使用集成方法，它结合了多个模型的预测（Gawlikowski等人，2023年；Lakshminarayanan等人，2017年）。集成还可以提高整体准确性，因为单个预测往往犯不相关的错误（Ganaie等人，2022年；Goodfellow等人，2016年）。集成预测可以来自具有不同架构的多个DNN、单个模型的多次训练运行（Lakshminarayanan等人，2017年），以及单次训练运行中的多个检查点（Huang等人，2017年；Izmailov等人，2019年；Xie等人，2013年）。在这些方法中，多个DNN的集成通常计算成本最高。相比之下，单个模型的多次运行与随机初始化和数据洗牌的集成已被证明表现得与贝叶斯近似相当或更好，后者是一种广泛用于预测不确定性估计的方法（Lakshminarayanan等人，2017年；Ovadia等人，2019年）。第三种方法是最高效的，因为它避免了重新训练，也不需要多个深度模型。这种方法使用单一的训练轨迹，集成成员在参数空间上可能是相似的，而第二种方法使用多个具有随机初始化的轨迹，这往往会产生偏离的集成成员（Fort等人，2020年）。在这项研究中，采用了一种简单且高效的集成方法（Xie等人，2013年）。该方法汇总了单次训练运行中多个检查点的预测，其中检查点在指定的训练周期开始时保存，不使用循环学习率计划（Huang等人，2017年）。具体来说，从最后20个训练周期（81-100）保存的检查点中获取原始预测，当训练损失稳定时，对这些预测进行平均以产生集成输出。此外，对每个基于NN的模型进行了三次独立的训练运行，以估计预测不确定性并评估集成的一致性。

2.5. 移动边界的数据处理和训练策略
在训练之前，所有输入数据都根据每个物理变量的预定义值区间被规范化到[0,1]的范围。这些规范化范围不限于数据集的绝对最大值和最小值，而是选择来代表现实的物理极限。具体应用的范围如下：速度为[-3, 3] m/s，盐度为[0, 35] g/kg，温度为[0, 22] °C。训练之后，模型在测试集上的预测使用相同的规范化因子重新缩放到原始的物理范围。

沿海地区如潮滩由于频繁的淹没和干燥而具有强烈的时间依赖性海岸线。这些动态边界创建了具有未定义物理值的干燥区域，这些区域被标记为“Not a Number”（NaN）。这对大多数机器学习模型（包括线性回归、基于树的模型和DNN）来说是一个挑战，因为它们通常需要完整的数值输入。在海洋学机器学习应用中，一种常见的方法是用某些常数值（如零或可用数据的平均值）填充干燥区域的缺失值。初步测试表明，对于海面高度和当前速度等平均值接近零的变量，用零进行掩码处理是有效的。然而，对于温度和盐度，在动态边界存在的情况下，填充值的选择显著影响了模型性能，用训练数据集中的有效值的平均值填充通常会产生显著更好的性能。由于填充动态边界的选择显著影响性能，因此对所有NN模型应用了掩码损失函数：（13）ε=1/Ns∑s/Ns(1/NO∑j/NO(y?sj?ysj)2×maskj)，其中maskj是样本s中第j个输出特征的湿/干掩码，当mask=1表示湿润（有效）区域，当mask=0表示干燥（NaN）区域，ysj和y?sj分别代表样本s中输出特征j的目标值和预测值。这种公式确保了干燥网格点被排除在损失计算之外，使得训练过程对填充值的选择不敏感。对于传统的机器学习模型LR和RF，缺失值使用来自高分辨率训练数据集的平均表面值进行填充：速度为0 m/s，盐度为28 g/kg，温度为11 °C（表A2）。

2.6. 评估指标
使用两组互补的指标来评估模型性能，同时考虑了整体准确性和再现统计极端值和平均值的能力。在估计这些指标时（如方程（13）中所述），会排除干燥区域。第一组指标包括全局平均绝对误差（MAE）、均方根误差（RMSE）、标准化RMSE和决定系数（R2），计算公式如下：（14）MAE=1/Ns∑s/Ns(1/Npo∑j/Npo|y?sj?ysj|），（15）RMSE=(1/Ns∑s/Ns(1/Npo∑j/Npo(y?sj?ysj)2))0.5，（16）RMSEr=RMSE/σ，（17）R2=1?RMSE/σ2，其中σ=1/Ns∑s/Ns(1/Npo∑j/Npo(ysj?y?j)2)是测试数据集中目标y的标准差（表A2），上划线表示样本的平均值，Npo是输出网格点的总数。在第二组指标中，计算了时间平均值、第99百分位数和第1百分位数的空间平均MAE和RMSE。这些指标首先计算每个网格点上测试数据和重构数据的平均值和百分位数，然后对结果误差进行空间平均。例如，时间平均值的空间平均MAE和RMSE表示如下：（18）MAEm=1/Npo∑j/Npo|y?j?y??j|，（19）RMSe=(1/Npo∑j/Npo(y?j?y??j)2)0.5。除了机器学习模型外，还应用了基于插值的方法来比较表面层，包括最近邻插值和带有线性核的径向基函数（RBF）插值。RBF插值能够从分散的数据中进行外推。对于这些插值方法，不使用干燥区域中的网格点。

2.7. 计算环境和模型设置
径向基函数插值是使用SciPy库实现的（Virtanen等人，2020年）。对于线性回归（LR）和随机森林（RF）模型，使用Scikit-learn Python包（Pedregosa等人，2011年）。所有基于NN的模型，包括MLP和DNN，都是使用PyTorch框架开发和训练的（Paszke等人，2019年）。LR和RF的训练和测试是在单个CPU核心（AMD 7763）上进行的，而基于NN的模型则在德国气候计算中心（DKRZ）的Levante超级计算机上可用的单个GPU（NVIDIA A100）上进行训练和评估。表1列出了用于3D空间降尺度的关键模型配置，包括主要超参数、可训练参数的数量以及平均训练和测试时间。输入维度为（1, 8, 8），输出维度为（3, 128, 128），对应于每个时间步的64个输入变量和49152个输出变量。对于LR，这种配置产生的权重矩阵大约有319万个参数。与LR和RF不同，基于NN的模型在训练过程中具有可训练参数，这些参数会迭代优化。对于MLP，初步的网格搜索实验（使用一个和两个隐藏层）表明，随着每层神经元数量的增加（从10到400），训练损失通常会减少。出于存储考虑，选择了具有两个隐藏层（每层100个神经元）的配置，大约产生498万个参数。

表1. 用于统计3D空间降尺度的ML模型的信息：关键设置、可训练参数的数量以及平均训练时间和测试时间。
模型关键超参数可训练参数（百万）训练时间（小时:分钟:秒）测试时间（小时:分钟:秒）
LR -- 0:01:32 0:03:19
RF 树的数量：10 0:43:51 0:03:07
最大树深度：10 4.98 1:39:10 0:18:25
SRCNN 隐藏层的数量：100 0.93 1:45:06 0:17:11
每个隐藏层的通道数：64 0.93 1:45:06 0:17:11
SR 残差块的数量：40 0.93 1:52:57 0:19:20
SRUNet 隐藏层中的通道数：[32, 64, 96, 128] 0.93 1:49:20 0:17:02
SwinIR 窗口大小：4×4 0.95 1:38:54 0:17:27
嵌入维度：48 0.95 1:38:54 0:17:27
SwinT块的数量：[2, 2, 2, 2] 0.95 1:38:54 0:17:27
头部的数量：[6, 6, 6, 6] 0.95 1:38:54 0:17:27
注意：测试时间包括预测和误差指标的估计。对于基于NN的模型，测试时间涉及从最后20个训练周期的20个检查点中平均预测。训练和测试时间是从所有运行的所有物理字段中平均得出的。

为了确保DNN模型之间的公平比较，选择了关键超参数，使得可训练参数的总数相似（大约930万）。选择这个约束是为了强调架构差异而不是参数数量作为主要性能因素。这些DNN模型被认为是轻量级的（参数少于100万），便于高效训练。作为参考，“tiny”和“base”版本的Swin Transformer的嵌入维度分别为96和128，SwinT块的数量分别为[2, 2, 6, 2]和[2, 2, 18, 2]（Liu等人，2021年），分别相当于当前输入输出配置下SwinIR参数数量的约2.5倍和6.6倍。对于所有基于NN的模型，使用梯度下降方法Adam优化算法（Kingma和Ba，2017年），学习率为0.0001。批量大小设置为12，训练周期数设置为100。这些设置基于计算时间的考虑以及使用不同周期数（50到150）、学习率（0.00001到0.001）和批量大小（8到16）的敏感性测试结果（表S8）。使用最后20个周期的检查点中的原始预测作为每次训练运行的最终预测。此外，每个模型都进行了三次随机初始化的训练。结果显示，每次运行中集成的误差指标相似（补充材料中的表S1-S4）。因此，除了展示误差指标的图表外，其他图表都显示了单次运行的结果。

3. 结果
从低分辨率的表面数据重建了从表面到接近底部层的高分辨率3D场。对于盐度和温度，应用了自变量重建方法（例如，盐度是从盐度重建的）。对于水平流，除了自变量方法外，还测试了仅使用低分辨率SSH的跨变量方法。首先，评估了全球重建误差，然后在选定的地点进行了半个月的时间序列分析，并对重建值和参考值的第99百分位数进行了空间比较。3.1. 通过使用低分辨率表面流或SSH，可以有效地重建从表面到近底部层的高分辨率3D水平流速u。包括SRResNet、SRCNN和SwinIR在内的DNNs比传统方法表现出更强的能力。图5和图6分别展示了使用低分辨率表面流和SSH作为输入时，不同层次重建流速u的全球误差。详细指标总结在表S1-S2中。下载：下载高分辨率图像（472KB）下载：下载全尺寸图像图5. 使用低分辨率表面流速u作为输入时，不同层次重建流速u的平均误差指标：(a) 表层，(b) 中间层，(c) 底层。误差条表示三次运行的标准偏差。下载：下载高分辨率图像（526KB）下载：下载全尺寸图像图6. 与图5相同，但使用低分辨率SSH作为输入。在自变量降尺度方法中，所有ML模型的全球误差均低于0.05 m/s，标准化RMSE值低于0.11，决定系数R2高于0.99。相比之下，当使用SSH作为输入时，误差大约翻倍，尽管DNNs的R2仍高于0.98。单独使用SSH仍然可以有效重建速度场。可能的原因是SSH和速度通过质量和动量平衡紧密相关。在平静条件下的浅水区域，主要驱动力是与表面高度相关的水平压力梯度。主要的耗散项是底部摩擦力，其与速度的平方成正比。非线性ML模型具有重建表面高度和速度之间非线性关系的潜力。相比之下，线性模型在捕捉非线性关系方面的能力有限，通常会导致更高的误差，如图6中的LR所示。在模型中，SRResNet在自变量情况下实现了最低的全球误差，而SRCNN在交叉变量情况下实现了最低的全球误差。总体而言，SRResNet、SRCNN和SwinIR的表现相当。在整个测试期间，所有层次上重建的u的分布大致对称，集中在零附近，并略有偏斜，与参考数据非常吻合（图S1和S6）。图7显示了基于低分辨率表面流的选定位置重建的表面层流速u的时间序列。RMSE值在表S5中给出。ML模型很好地捕捉到了u的半日振荡和振幅变化，这对于中间层和近底部层也是如此（图S2和S3）。值得注意的是，在发生洪水和干燥的位置（P4-P6），速度幅值被准确再现，SRResNet、SRCNN和SwinIR在选定期间的RMSE值分别低于0.07 m/s和0.03 m/s。交叉变量方法也得到了类似的结果，尽管误差略大（图S7-S9）。仅提供表面信息时，从表面到底部的速度减小趋势也被很好地表示出来。相比之下，用于表面层的插值方法RBF在近岸位置倾向于低估振幅，在洪水和干燥位置则高估振幅（P4-P6）。与DNNs相比，RBF插值在P1和P3-P6位置的误差大约是前者的两到七倍，在P2位置则超过十倍。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像图7. 使用低分辨率表面流速u重建的选定位置的表面层流速u的时间序列。此外，ML模型重建的99百分位数、1百分位数和平均流速u与参考值吻合得很好。图8显示了使用表面u重建与参考值在三个层次上的第99百分位数的空间差异。除了表层上的RF外，所有模型的RMSE99都低于0.04 m/s。对于1百分位数和平均值也有类似的一致性（图S4-S5）。在表层，与DNNs相比，传统的ML模型LR和RF倾向于低估第99百分位数（图8a），并在靠近海岸线的地方高估第1百分位数（图S4a）。这种偏差是因为LR和RF在计算中包含了干燥区域（填充为零），而基于NN的模型在损失估计时排除了干燥区域。对于中间层和底层，由于干燥掩码是固定的，所有模型在靠近海岸线的误差相当。当使用SSH作为输入时，也观察到了相同的性能模式（图S10-S12）。下载：下载高分辨率图像（2MB）下载：下载全尺寸图像图8. 使用低分辨率表面流速u重建与参考值在各个层次上的第99百分位数（2020.10.1–2020.12.31）的差异：(a) 表层，(b) 中间层，(c) 底层。除参考值（“Ref”）外的所有面板都与SRResNet（“Res”）的输出共享颜色条。3.2. 重建的盐度DNNs能够有效地从表面到底部层重建3D盐度，而传统的ML模型产生的误差显著更高（图S13和表S3）。对于DNNs，全球误差通常低于0.2 g/kg，除了表层上的RMSE01。标准化RMSE低于0.1，R2超过0.99，表明具有高保真度。在模型中，SRResNet在地下层实现了最低的RMSE和最高的R2，而SRUNet在表层实现了最低的RMSE。在百分位数和平均误差方面，DNNs和LR中的值最低，其中SRResNet的出现频率最高，其次是SRUNet和SwinIR。在测试期间，DNNs在所有层次上重建的盐度分布（严重左偏）被很好地再现（图S14）。DNNs还成功地重建了从河口到沿海海域的盐度振幅和空间过渡特征。具体来说，从河流到开阔海域，振幅减小而平均盐度增加。图9显示了选定位置重建的表面盐度时间序列。RMSE值在表S6中给出。从河口到开阔海岸（P1-P3），表面盐度在P1为18–26 g/kg，在P2为25–29 g/kg，在P3为29–31 g/kg。在中间层和底层也发现了类似的模式（图S15和S16），靠近河口的最低盐度略有增加，反映了淡水影响的减少。DNNs准确地再现了这些动态变化。在洪水和干燥位置（P4-P6），RMSE值分别保持在0.18、0.14和0.06 g/kg以下（SRCNN除外）。相比之下，传统的ML和插值方法产生的误差要大得多。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像图9. 使用低分辨率表面盐度重建的选定位置的表面盐度时间序列。DNNs重建的99百分位数、1百分位数和平均盐度与参考值非常吻合。图10显示了三个层次上重建与参考值在第99百分位数上的空间差异。SRResNet、SRUNet和SwinIR在所有深度上都实现了最低的误差（表S3）。传统的ML模型（LR和RF）在表层倾向于高估盐度，这是由于动态掩码的填充值（训练数据的平均值，28 g/kg）是固定的。RF和MLP也在离岸区域高估了第99百分位数，而插值方法在数据稀疏的靠近海岸线的区域表现不佳。这些观察结果对于1百分位数和平均值也是如此（图S17和S18）。下载：下载高分辨率图像（2MB）下载：下载全尺寸图像图10. 使用低分辨率表面盐度重建与参考值在各个层次上的第99百分位数（2020.10.1–2020.12.31）的差异：(a) 表层，(b) 中间层，(c) 底层。除参考值（“Ref”）外的所有面板都与SRResNet（“Res”）的输出共享颜色条。3.3. 重建的海水温度对于海水温度，SwinIR在表层实现了最低的全球误差，而LR在地下层表现最好（图S19，表S4）。在表层，SRResNet和SwinIR实现的全球误差低于0.2°C（RMSE01除外），标准化RMSE低于0.1，R2高于0.99。在地下层，较简单的模型LR和MLP通常表现更好。在测试期间重建的温度分布（宽且多模态，峰值接近5°C和10°C）与参考值非常吻合，除了RF和SRCNN（图S20）。从河口到沿海海域的观测到的变暖趋势被准确再现。图11显示了选定位置的表面温度时间序列。RMSE值在表S7中给出。在相对较深的水域（P1-P3），大多数ML模型（除了RF和SRCNN）很好地再现了温度变化。在地下层也发现了类似的准确性（图S21和S22），其中LR表现最好。在浅水区域（P4-P6），基于NN的模型（除了SRCNN）重建的表面温度与参考值最为接近，而LR和RF的偏差较大，尤其是在振幅方面。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像图11. 使用低分辨率表面水温重建的选定位置的表面水温时间序列。使用基于NN的模型（除了SRCNN）重建的99百分位数、1百分位数和平均温度与参考值非常吻合。图12显示了三个层次上重建与参考值在第99百分位数上的空间差异。与盐度类似，传统的ML模型LR和RF在浅水区域系统性地高估了表层温度，这是由于动态掩码使用了11°C的填充值。在表层，基于NN的模型的空间平均RMSE99低于0.2°C，在地下层低于0.1°C（除了SRCNN）。对于RMSE01和RMSEm，SwinIR在表层实现了最低的误差，而LR在深度上表现最好（图S23-S24，表S4）。下载：下载高分辨率图像（2MB）下载：下载全尺寸图像图12. 使用低分辨率表面水温重建与参考值在各个层次上的第99百分位数（2020.10.1–2020.12.31）的差异：(a) 表层，(b) 中间层，(c) 底层。除参考值（“Ref”）外的所有面板都与SRResNet（“Res”）的输出共享颜色条。4. 讨论4.1. 模型选择使用ML模型从低分辨率表面数据成功重建了高分辨率的3D沿海场。当前分析为选择适合动态沿海系统中具有不同物理特性的变量的统计空间降尺度的适当模型提供了新的见解。在存在移动边界（如洪水和干燥）的情况下，使用掩码损失函数的DNNs特别有效。当用用户定义的恒定值掩盖陆地区域时，传统的ML模型如LR和RF在靠近海岸线的位置会产生偏差估计（参见图10、图12、S17、S18、S23和S24中的盐度和温度表层结果）。对于像速度这样的物理变量，其在边界附近接近零，用平均值填充缺失值可以减少全球误差。然而，对于传统的ML模型，第1百分位数和第99百分位数的偏差仍然存在（图8，S4）。相比之下，使用排除陆地区域的掩码损失函数的DNNs对填充值的选择不敏感。这种方法在移动边界附近实现了更高的准确性，并且与包含陆地区域的模型相比，全球误差更低（例如，参见图S19a和S25a中的表面温度）。当边界固定如地下层时，填充值的影响在所有ML模型中都很小。此外，在应用结构相似性指数（SSIM）作为评估指标时应谨慎，因为它对填充值敏感，可能会误表示模型的能力。目标场的空间特性对ML模型在降尺度任务中的性能有很大影响。DNNs在再现具有尖锐和多样化梯度的复杂空间结构方面表现出色，而简单的传统模型对于具有平滑空间梯度的场可能就足够了。前一个观察结果与DNNs随着数据复杂性（就频率/梯度的变化性而言）的增加而更有效地学习更高频率（尖锐梯度）的发现一致（Rahaman等人，2019年）。图13显示了训练和测试数据集中表层水平梯度的分布。在地下层也发现了类似的模式。速度和盐度表现出尖锐和多样的空间梯度（图13a和b），与非线性变化性相关，例如局部峰值和尖锐前沿（参见例如图8、图10）。DNNs能够更有效地捕捉这些细微的空间特征，从而实现比传统模型更低的整体RMSE和基于百分位数的误差（见图5、图6、S13以及表S1–S3）。下载：下载高分辨率图像（452KB）；下载全尺寸图像。图13显示了训练和测试数据集在表层对于速度u（顶部）、盐度（中间）和水温（底部）的水平梯度分布。这些梯度是通过计算相邻网格之间标准化场值的差异来估计的。场值是使用相应数据集的最大值和最小值进行标准化的。“gdx”和“gdy”符号分别代表东西方向和南北方向的梯度。相比之下，温度的空间梯度较为平滑（见图12和图13c），低分辨率和高分辨率温度之间的关系大致呈线性。在这种情况下，像LR或浅层MLP这样的简单模型也可以达到与DNN相当的准确性。在没有移动边界的情况下，LR和MLP在整体RMSE以及空间平均第1百分位数和平均误差方面表现优于DNN，而SRResNet或SwinIR在表示第99百分位极值方面略胜一筹（见图S19和表S4）。这一结果与大气研究中的发现一致，即线性模型能够有效再现平滑的温度场，而深度CNN主要在捕捉极端值方面具有优势（Ba?o-Medina等人，2020年）。SRCNN在温度方面的表现不如SRResNet，可能是因为它缺乏跳跃连接，这增加了在深层反向传播过程中梯度消失的风险。

上述分析表明，动态边界和空间特征会影响模型选择。在存在动态边界的情况下，建议使用带有掩码损失函数的DNN以获得更高的准确性。对于具有复杂空间结构的场，也推荐使用DNN。就效率而言，在当前设置下，基于神经网络的模型的平均训练时间相似（1.6到2小时），而RF约为45分钟，LR为1.5分钟（见表1）。基于神经网络的模型的平均测试时间约为18分钟（20个周期的平均值），而LR和RF为3分钟。LR适用于快速的空间重建，尤其是在具有平滑空间梯度和固定边界的场中。尽管LR在当前的降尺度任务中效率较高，但其计算成本会随着输入维度的增加而呈非线性增长。

4.2. 启示
CoastalBench-Downscaling为方法评估和沿海研究中的实际应用提供了一个有价值的框架。它证明了基于机器学习的重建可以从低分辨率的表面数据有效生成3D场，为遥感数据和数值模型之间的融合提供了基础，从而增强了海洋变量的空间细节。此外，该基准测试为评估当前沿海科学中机器学习技术的状态以及权衡新模型架构带来的好处与它们所增加的复杂性提供了参考（Rubbens等人，2023年）。这为未来针对更具体主题的机器学习基准测试奠定了基础，例如现场数据和遥感数据的时空填充、极端海平面和波浪的预测，以及与沿海洪水和侵蚀相关的风险评估。重要的是，CoastalBench-Downscaling有助于促进机器学习在沿海监测和管理工作流程中的整合，并可以帮助研究人员确定机器学习研究的进一步方向（Thiyagalingam等人，2022年）。

这个机器学习基准测试解决了Thiyagalingam等人（2022年）指出的几个挑战：
(1) 轻量级数据集（每个变量少于2GB），可以轻松下载和测试。
(2) 模型覆盖范围广泛，从传统的机器学习模型（LR、RF、MLP）到先进的DNN（SRCNN、SRResNet、SRUNet、SwinIR）。
(3) 模块化且可扩展的代码结构，允许高效集成新的模型和数据集。

代码结构具有几个优点：
(a) 基于神经网络的模型之间的统一架构使得模型切换简单，新算法的集成也很容易；
(b) 模型和数据参数的分离便于在不同数据集和物理领域中进行测试；
(c) 灵活的机器学习超参数配置允许通过输入模型参数文件调整关键模型设置；
(d) 灵活的数据参数设置使得可以轻松扩展到多层和多变量数据，并且使用标准的NetCDF文件确保了在海洋和气候科学中的兼容性。同样的框架可以扩展到其他任务，例如空间物理场的仿真和修复（比例因子为1），以及时空预测（在调整数据集和模型之后）。因此，CoastalBench-Downscaling不仅为初次接触机器学习的研究人员提供了一个坚实的起点，也为高级模型开发和基准测试提供了基准。

4.3. 局限性
尽管这个机器学习基准测试解决了几个挑战，包括提供便于评估的轻型数据集和广泛的基线模型覆盖范围，但仍存在一些局限性。轻型数据集是通过插值未结构化的数值模型输出获得的，这些模型具有年度覆盖范围和三个层次的选择。虽然这些数据集在层次（特别是速度u）和变量（见图S1、S6、S14、S20和S26）上显示出很高的多样性，但数据长度限制了评估模型捕捉年际变异性和每年到十年时间尺度上发生的罕见极端事件的能力。然而，模块化和可扩展的代码结构使得可以轻松扩展到其他公开可访问的多年海洋和气候数据集（通常具有固定的陆地掩码），例如来自哥白尼海洋环境监测服务的数据集（例如Yuan等人，2025年）。这可以通过在下载相应的NetCDF文件后简单地修改数据参数文件来实现。未来可以通过更全面的研究来探索多年数据。利用这个长期数据集，可以研究年际变异性和极端事件。此外，使用机器学习模型重建极端事件需要特别关注（Watson，2022年），可能不仅需要专用的数据集，还需要专门为极端事件设计的机器学习模型。对于这个主题，需要不同的基准测试。选择三个层次很好地代表了从表面到底部的变化，并保证了模型的易于评估。然而，这禁止了检查质量和动量的全列守恒，这需要使用所有层次和大量的计算资源。这个主题可以在更全面的研究中探讨，重点关注机器学习模型在近似物理守恒定律方面的表现。

这个基准测试包括了从简单的多变量线性回归到更复杂的视觉变换器等各种传统模型和DNN。包含在特定任务中探索较少使用的简单模型是一个好习惯，因为增加复杂性并不总是能保证更好的模型性能（见表S4中某些误差指标）。尽管当前的模型覆盖范围广泛，但这些模型是确定性的，因为它们从输入到输出学习了一个固定的映射，并为给定输入产生单一预测，而没有明确地对数据分布的不确定性进行建模。为了明确地对数据分布的不确定性进行建模，可以使用生成模型，如变分自编码器（Kingma和Welling，2013年）和扩散模型（Ho等人，2020年）。这些生成模型是概率性的，旨在明确学习数据分布并生成类似于原始训练数据的样本。它们通常涉及更复杂的训练和推理过程，特别是扩散模型。需要对这些生成模型进行更全面的比较。

这个基准测试中的模型是数据驱动的，它们在特定的潮间带区域建立了2D低分辨率和3D高分辨率数据之间的非线性统计关系。虽然这些模型可以应用于其他沿海系统，但它们的性能可能会根据潮汐、波浪、淡水排放和地形等复杂因素的不同而有所不同。因此，建议在各种沿海系统中检验这些模型。此外，这个基准测试基于动态降尺度的输出。尽管它可以加速降尺度过程，但在当前设置下，它只能近似动态降尺度的输出，可能无法很好地表示未见的极端情况。为了实现比传统动态降尺度更高的性能，可以将多个数据源（如卫星数据和现场数据）集成到机器学习模型中。

5. 结论
本研究介绍了CoastalBench-Downscaling，这是一个用于使用低分辨率表面数据对3D沿海场进行降尺度的机器学习基准测试。考虑了具有动态海岸线的沿海区域中三个垂直层的当前速度、盐度和水温。评估了传统的机器学习模型（LR、RF、MLP）和现代的DNN（SRCNN、SRResNet、SRUNet、SwinIR）。这些3D场成功地从表面输入重建出来，实现了低于0.1的标准化RMSE和高于0.98的确定系数。模型性能受到移动海岸线和场空间特征的影响很大。在存在移动海岸线的情况下，使用带有掩码损失函数的DNN（该函数排除了陆地区域）显著优于不使用掩码的机器学习模型。对于具有精细局部空间特征的场，如局部速度峰值和尖锐的盐度前沿，DNN的表现优于传统模型。相反，对于具有平滑空间梯度的场，如水温，传统机器学习模型能够达到足够的准确性，甚至在固定干燥掩码的情况下也能胜过DNN。CoastalBench-Downscaling作为评估物理场空间3D降尺度的机器学习工具的参考，并用于评估模型复杂性和性能之间的权衡。建议将这个基准测试扩展到长时间序列、极端事件和各种沿海系统，以评估这些基线模型捕捉多时间尺度变异性、极端事件和沿海区域多样化的动态特征的能力。它的简单性和灵活性使其易于海洋研究人员使用，促进了机器学习工具的更广泛采用，并促进了跨学科合作。

CRediT作者贡献声明
Yuan Bing：写作——审阅与编辑、撰写原始草稿、验证、方法论、概念化。
Pein Johannes：写作——审阅与编辑、数据管理。
Berg Matthias：写作——审阅与编辑、数据管理。
Staneva Joanna：写作——审阅与编辑、资金获取。

数据和源代码的可用性
数据可从https://doi.org/10.5281/zenodo.17006043获取。源代码可从https://github.com/B-Yuan2023/CoastalBench_downscaling获取。

热点排行