提升OceanCastNet的长期预测稳定性：通过时间变化损失函数实现高效微调

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ocean Engineering》：Improving long-term forecast stability of OceanCastNet: Efficient fine-tuning via a temporal change loss function

【字体：大中小】 时间：2026年03月07日 来源：Ocean Engineering 5.5

编辑推荐：

　　本文提出基于时间变化损失函数的优化方法，有效提升海洋波浪预测模型在数据有限情况下的长期稳定性与精度。该方法通过监督物理变量动态演化，抑制误差累积，在数据量减半时仍能超越基线模型，尤其对台风等极端天气事件预测效果显著。

张子良|余华明|齐鑫|李倩|叶家成|乔守文|赵晓萍|李格

摘要

本文介绍了一种高效的微调方法，用于提高深度学习波浪预测模型的长期稳定性和准确性，特别是在数据受限的情况下。通过将时间变化损失函数（Temporal Change Loss）融入OceanCastNet（OCN）模型中，我们引导训练过程学习稳健的物理动态，而不仅仅是拟合静态状态。这种方法的主要优势在于数据效率。即使训练数据集减少了一半，微调后的模型不仅恢复了性能，而且在中长距离预测方面也超过了基于完整数据集训练的基线模型。此外，该方法还保留了捕捉极端事件的能力，这一点通过超级台风Goni的案例研究得到了证明。它还有效地抑制了100天连续预测模拟过程中的误差累积。这些结果表明，监督物理变量的时间演变是一种简洁而有效的策略。这种方法解决了数据依赖性和数据驱动地球科学建模中的长期漂移等关键挑战。

引言

准确的海洋波浪预测在许多领域都至关重要，包括海洋工程、海上安全、渔业生产和海洋灾害预防（Cavaleri, 2009）。传统的预测方法主要依赖于数值模型，如WAVEWATCH III（Hendrik等人，2009）和SWAN（Allard等人，2002）。尽管这些基于物理的模型具有很好的可解释性，但它们通常计算成本较高，且预测准确性高度依赖于驱动风场的精确度和复杂的物理参数化方案。

近年来，随着人工智能的快速发展，深度学习方法在地球科学领域展现了巨大的潜力，这得益于它们强大的非线性拟合能力（Reichstein等人，2019）。这些技术已被广泛应用于各种海洋学挑战，从利用浮标测量数据预测异常波浪（Breunung和Balachandran，2024）到填补海洋时间序列数据中的缺失值（Chakraborty等人，2025）。

在波浪预测这一特定领域，数据驱动的方法在准确性和效率方面取得了突破性进展。该领域已经从早期的循环神经网络（Feng等人，2022）和卷积神经网络（Jing等人，2022）发展到更先进的、用于区域预测的高精度架构（?ule Bekiryaz?等人，2025；Felipe等人，2023；Javad等人，2024）。转向全球尺度后，该领域正朝着大规模中程天气预测模型发展，如Pangu-Weather（Bi等人，2023）和GraphCast（Lam等人，2023）。通过在像ERA5这样的大型历史再分析数据集上进行训练，这些模型学习了大气和海洋系统的综合动态演变。

然而，这些先进深度学习模型的成功也凸显了一个核心挑战：在自回归预测过程中保持物理场的长期动态稳定性。这些模型常用的损失函数，从基本的均方误差（MSE）到GraphCast等高级模型中用于平衡不同物理变量的加权相对损失（Lam等人，2023），基本上可以归类为“状态损失”（State Loss）。在训练过程中，这些函数仅关注下一个时间步预测状态与真实状态之间的差异。这种“静态”的监督方式可能导致模型忽略物理场的内在结构和动态演变。因此，在长期预测中，小错误可能会累积，导致预测结果出现物理上不可信的模糊或漂移现象（Weyn等人，2020）。学术界已经认识到这一限制，并开始探索超越标准MSE的损失函数设计。例如，一些研究试图通过将波浪预测误差分解为振幅和相位分量来优化它们，这些分量与物理过程更为相关（Kant等人，2024）。

为了解决长期稳定性问题，研究人员主要探索了两种技术路径。第一种是“基于物理”的路径，它涉及将基于物理方程的约束纳入损失函数中，例如在物理信息神经网络（PINNs）（Raissi等人，2019）中，以及在流体动力学中使用涡度损失（Gao等人，2021）。然而，正如我们的初步实验和其他研究（Krishnapriyan等人，2021）所揭示的，这些复杂的物理约束在训练过程中可能会带来挑战，如梯度不稳定和由于非凸优化目标而难以平衡多个任务。这可能会阻碍模型收敛到理想状态。第二种是更深入的数据驱动方法，专注于设计能够更好地捕捉系统动态特性的损失函数。最近的时间序列研究开始关注序列的“形状”或“几何结构”，提出了“一阶差分损失”——该方法通过最小化预测变化与真实变化之间的差异来增强结构一致性（Yu等人，2025）。

遵循这第二条路径，本文探索并提出了一种高效的微调方法，该方法使用时间变化损失函数（即一阶差分损失）。该方法应用于OceanCastNet架构（Zhang等人，2025）；与之前使用完整数据集进行的架构验证不同，本研究侧重于在数据受限条件下优化训练效率和长期物理稳定性。核心研究问题是：当面临训练数据减半（从40年减少到20年）的约束时，一种更关注系统“动态”而非“静态”的损失函数能否更有效地引导模型学习正确的物理演变规律？具体来说，我们旨在探讨这种方法是否能够保持对高影响天气系统（如台风）的预测准确性，因为这些系统通常是首先受到数据减少影响的目标。

我们的实验结果表明，使用原始模型的加权相对损失函数进行微调会产生次优结果。相比之下，所提出的时间变化损失函数——通过引导模型关注时间步内物理变量的趋势——不仅有效地恢复了有限数据下的预测准确性，还显著提高了长期模拟中平均波向的预测稳定性。本研究旨在为数据驱动的地球科学模型提供一种简洁、有效且稳健的训练策略，以减少它们对大规模数据集的依赖，并提供一种解决长期预测稳定性问题的新方法。

在这项研究中，我们提出了一个稳健的微调框架，通过双重策略来应对这些挑战。首先，我们发现标准微调常常将模型困在预训练的局部最小值中；因此，我们引入了一种优化器重置策略（重新初始化学习率调度器和优化器状态），从而有效地“跳出”次优收敛点，从而恢复标量变量（如有效波高H_s）的准确性。其次，为了解决敏感向量变量（特别是平均波向θ_m）的物理漂移问题，我们提出了一种时间变化损失函数。通过监督物理场的一阶差分，这个损失项充当动态正则化器，在标准误差最小化失败时强制物理一致性。

本文的其余部分组织如下。第2节描述了OceanCastNet架构、数据处理流程以及所提出的时间变化损失函数的数学公式。第3节详细介绍了实验设置，包括微调协议和评估指标。第4节展示了结果，分析了整体预测性能、超级台风Goni的特定案例研究以及长期稳定性的改进。最后，第5节总结了研究的结论，并讨论了数据高效建模的更广泛影响。

章节片段

方法

本研究的基础模型OceanCastNet（OCN）建立在FourCastNet（Pathak等人，2022）的核心操作符——自适应傅里叶神经操作符（AFNO）之上。选择这种架构是为了克服传统深度学习模型在全球建模中的特定局限性。与依赖于局部核并难以捕捉长距离依赖性（如跨海洋盆地的涌浪传播）的卷积神经网络（CNNs）不同，AFNO机制混合了信息

实验设置

为了验证所提出方法的有效性，我们设计了三个比较实验。OCN基础模型作为上限性能参考，它是在完整的40年ERA5数据集（1980-2017）上从头开始训练的。OCN小型模型代表数据受限场景的基线，它在减少的20年数据集（1998-2017）上从头开始训练。最后，通过使用精细化的局部时间变化

整体性能评估

表1和图1展示了三种模型在2020年测试集上的15天（360小时）自回归预测性能。结果揭示了几个关键点。首先，OCN基础模型（在40年数据上训练）与OCN小型模型（在20年数据上训练）之间的比较表明，训练数据量减半对模型性能有显著影响。在所有预测变量和预测时间范围内，OCN小型模型的准确率（ACC）始终较低，均方根误差（RMSE）值较高

讨论

所提出方法的具体新颖性在于它能够引导模型通过高振幅优化“摆动”来逃离局部最小值，而不牺牲物理一致性。为了研究这一点，我们从OCN小型检查点开始进行了消融研究，该检查点代表了在有限的20年数据集上训练得到的最佳权重。目标是确定模型是否能够缩小与OCN基础模型（上限参考）之间的性能差距

结论

本文解决了数据依赖性和长期动态不稳定性这两个关键挑战，这些挑战通常限制了大规模数据驱动波浪预测模型的实际应用。通过引入一种基于时间变化损失函数的高效微调方法，我们展示了一种在数据受限条件下保持模型性能的稳健策略。我们的研究强调，虽然优化器的“冷重启”对于提供

CRediT作者贡献声明

张子良：撰写——原始草稿、可视化、调查、形式分析、概念化。余华明：撰写——审阅与编辑、监督、资源获取、调查、资金获取、形式分析。齐鑫：撰写——审阅与编辑、资金获取。李倩：撰写——审阅与编辑、验证、资源。叶家成：撰写——原始草稿、调查。乔守文：撰写——原始草稿、调查。赵晓萍：撰写——原始草稿

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

在准备这项工作时，作者使用了Google的大型语言模型Gemini，以精炼语言表达的清晰度、风格和一致性。使用该工具/服务后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

这项工作得到了国家自然科学基金（项目编号：42530604）和国家社会科学基金（项目编号：）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号