一种基于图神经网络的模型,用于利用时空信息对波浪浮标数据进行插补

《Ocean Engineering》:A graph neural network model for wave buoy data imputation using spatiotemporal information

【字体: 时间:2026年01月24日 来源:Ocean Engineering 5.5

编辑推荐:

  波浪浮标数据缺失填补方法研究:提出GNN-BiGRU模型融合空间拓扑与双向时间动态实现高精度插补,在加州海岸13个浮标五年数据验证中,短期缺失MAPE达9%,R2为0.91,长期缺失MAPE为10%,R2为0.85,优于传统插补算法与单一神经网络模型。

  
魏凯·谭(Weikai Tan)| 高天一(Tianyi Gao)| 徐苏东(Sudong Xu)| 亚历山德罗·斯托基诺(Alessandro Stocchino)
东南大学交通学院港口、水道与海岸工程系,南京,210096,中国

摘要

波浪浮标在海岸和海洋工程中发挥着至关重要的作用,能够提供关键波浪参数(例如,有效波高)的实时、现场测量数据。然而,由于恶劣的海洋环境,数据经常出现缺失,这大大降低了数据的使用价值。在这项研究中,我们提出了一种新的模型,该模型将图神经网络(GNN)与双向门控循环单元(BiGRU)相结合,以提取用于插补的时空数据模式。本研究的目标是利用浮标之间的时空关系来提高缺失波浪数据的插补精度。为此,我们使用了一个包含五年数据的浮标网络来训练和评估该模型。数据分析揭示了两种主要类型的缺失数据,即短期缺失和长期缺失,由于它们的时间特性不同,需要采取不同的处理方法。所提出的GNN-BiGRU模型基于消息传递和表示学习,在这两种情况下都表现出色,并且优于三种基线方法。对于具有短期缺失的浮标,该模型的平均绝对百分比误差(MAPE)为9%,R2值为0.91。对于具有长期缺失的浮标,MAPE增加到10%,R2值降至0.85。这种方法在改进实际工程中的波浪数据插补方面显示出巨大的潜力。

引言

波浪测量浮标是一种专门设计用于监测海洋气象条件的固定浮动仪器,在过去的几十年里已成为海岸和海洋工程应用中不可或缺的设备(Krogstad等人,1999年)。它提供了关键海洋参数的连续和高质量观测数据,包括波浪动力学的实时数据(Yurovsky和Dulov,2020年)、海表温度(Reynolds,1988年)、盐度(Hase等人,2008年)、大气压力(Dobson,1971年,Dorman和Winant,1995年)以及风特性(Hwang等人,1998年)。其中,方向波谱的现场测量具有特别重要的意义,为科学分析和实际应用提供了必要的见解。
Longuet-Higgins(1963年)和Cartwright(1964年)是最早建立方向波谱与波浪浮标的六自由度运动(例如,俯仰、纵摇、横摇)之间关系的人之一。在他们开创性的工作之后,许多研究人员提出了改进的方向波谱估计方法。Oltman-Shay和Guza(1984年)引入了一种数据自适应的最大似然估计器,能够高效地重建方向波谱,适应多模态和不对称的海况。Lygre和Krogstad(1986年)应用最大熵方法来确保重建的方向波谱的正性和平滑性。Marsden和Juszko(1987年)对浮标的纵摇-俯仰-横摇交叉谱矩阵进行了特征分解,以分离出主导信号子空间,从而得到了一个无模型的、抗噪声的方向波谱。感兴趣的读者可以参考Brissette和Tsanis(1994年)的综述。一旦获得了方向波谱,就可以计算有效波高,这是各种工程应用中的关键参数(例如,Ferreira和Soares(2000年))。
利用上述理论基础,最近在浮标网络(包含数十到数百个浮标)部署方面的进步显著提高了波浪数据的全球可用性和质量。例如,O’reilly等人(2016年)引入了加州浮标阵列,该阵列利用最大熵方法估计每小时的方向波谱。Kinsela等人(2024年)提出了一个包含81个Datawell浮标的区域网络,这些浮标部署在澳大利亚东南部。Wang等人(2016年)总结了中国的海洋浮标技术的发展和进展。Tanhua等人(2024年)和Obaton等人(2023年)概述了在欧洲Sea项目下建立的欧洲海洋观测系统,其中集成了波浪浮标和其他传感器,用于全面的海况监测。这些浮标网络提供了海洋波浪条件的实时、长期观测数据,这对于当代海岸和海洋工程应用至关重要。
然而,由于电池寿命限制(Mcleod和Ringwood,2022年)、生物污染(Tamura和Collins,2024年)、数据传输故障(Saetre等人,2023年)、波浪引起的损坏(Paepegem等人,2011年)等因素,波浪浮标数据不可避免地会出现随机缺失。数据缺失问题显著降低了波浪浮标测量的可用性,促使人们开发了各种方法来应对这一挑战。
Ustoorikar和Deo(2007年)以及Kalra和Deo(2007年)采用遗传编程构建了用于填充波浪数据缺失值的计算程序和方程,取得了一定的成功。Qin等人(2019年)结合了矩阵补全和多视图学习方法进行波浪数据插补。随后,Chen等人(2022年)采用了低秩张量补全方法,其性能优于传统的插值技术,如线性和三次样条插值方法。最近,Chakraborty等人(2025年)探索了奇异谱分析在插补缺失波浪浮标数据中的应用。然而,其效果不如神经网络模型。
深度神经网络模型擅长从大型数据集中挖掘复杂模式((Lecun等人,2015年)。过去十年中,深度神经网络模型在各个研究领域取得了成功((Wang等人,2023年))。随着收集的波浪浮标数据量的增加(例如,(Hall等人,2018年)),使用深度神经网络模型进行数据插补变得越来越流行。Arena和Puca(2004年)率先应用了两层全连接神经网络模型(也称为ANN)来重建单个站点的波浪浮标时间序列中的缺失值。最近,Durán-Rosal等人(2016年)引入了一种进化产品单元神经网络模型,用于插补阿拉斯加湾六个观测站点的缺失波浪数据。为了确保使用高质量数据进行稳健的模型训练,Vieira等人(2020年)利用WAVEWATCH III生成的历史波浪和风数据来训练波浪数据插补模型。Guijo-Rubio等人(2023年)提出了一种插补框架,该框架结合了传递函数和进化ANN,其性能优于传统的机器学习模型(例如,随机森林)。Duan等人(2024年)将ANN与卷积神经网络相结合,从稀疏的浮标观测数据中重建了区域波场,表明波浪数据插补不仅可以在时间上,也可以在空间上进行有效处理。Liu等人(2024年)应用高斯过程回归和ANN来插补缺失的风暴数据,得到了可靠的插补结果。Chakraborty等人(2025年)提出了一种混合CNN-LSTM框架,有效结合了时频模式和长期动态,用于波浪数据插补。
值得注意的是,波浪浮标系统通常由分布在不同位置的多个浮标组成(例如,(Hall等人,2018年)),形成可能表现出空间相关性的非结构化数据节点。一些研究(例如,(Durán-Rosal等人,2016年,Guijo-Rubio等人,2023年,Qin等人,2019年)表明,结合相邻浮标的数据可以提高目标站点的插补精度,尽管需要一些特殊策略。
鉴于浮标系统的非结构化空间配置,我们认为(受表示学习((Bengio等人,2013年)的指导),基于图的神经网络(GNN)可能是一种有前途的方法,通过将每个浮标表示为图节点并通过无向图边编码空间关系来捕捉空间依赖性。因此,我们旨在开发一种新的基于图的神经网络框架,用于波浪浮标数据插补,从而能够以端到端的方式同时利用空间和时间信息。所提出的模型旨在供NDBC/NOAA等组织使用,通过数据插补来提高波浪观测的完整性和质量。它也可以服务于海岸工程师和研究人员。例如,工程师可以在实际任务中应用插补后的波浪数据集,如海岸结构设计和导航分析,而研究人员可以使用完整的数据集进行波浪模型验证和长期波浪气候研究。输入数据是浮标测量的波浪观测数据,输入时间没有限制。在这项研究中,使用了五年的数据作为演示,可以有效地插补短期(几小时)和长期(长达三个月)的缺失数据。当前模型是在加州海岸线的浮标上训练和测试的,未来有可能扩展到其他地区。
据作者所知,目前的工作是首批将基于图的神经网络框架应用于波浪浮标数据插补的研究之一。与现有的插值或机器学习方法相比,所提出的方法充分利用了浮标网络的拓扑结构,提高了短期和长期缺失数据的插补精度。典型的基于ANN的插补模型((Guijo-Rubio等人,2023年)未能利用浮标网络的空间拓扑和时间依赖性。循环神经网络((Chakraborty等人,2025年)主要捕捉时间动态,而忽略了浮标之间的空间关系,而卷积神经网络((Chakraborty等人,2025年)主要适用于结构化数据,不太适用于非结构化的浮标网络。相比之下,所提出的GNN-BiGRU框架同时建模了基于图的空间依赖性和双向时间动态,使得在大规模浮标网络中进行波浪高度插补时能够进行更有效的时空学习。
本文的其余部分结构如下:第2节介绍了NDBC数据集和用于配置缺失样本的协议。第3节详细介绍了模型开发过程。第4节评估了模型在多个浮标位置重建缺失数据方面的性能。第5节讨论了模型的关键机制。第6节提出了结论。

部分摘录

NDBC数据集

国家数据浮标中心(NDBC)提供全球范围内的长期海洋气象观测数据。在这项研究中,我们选择了加州海岸沿线的13个浮标进行进一步分析。图1展示了研究区域,浮标用红点标记,并标出了各自的站点ID。
为了彻底研究时间模式,我们使用了每个浮标的五年历史NDBC数据集,覆盖了从2020年1月1日到2024年12月31日的时期。

方法论

为什么深度神经网络模型在过去几十年中在各个领域取得了显著的成功?答案可能在于表示学习的概念(Bengio等人,2013年)。通过设计良好的神经网络架构和优化目标,从复杂原始数据中提取关键数据表示(也称为特征)的过程可以是自动且有效的。
本节概述了为波浪数据开发的基于图的神经网络模型

结果

本节分别展示了短期和长期数据缺失的插补结果。系统地评估了所提模型的性能,并与其他三种模型进行了比较。
该模型在PyTorch(Paszke等人,2019年)中实现,并在具有16 GB图形内存的NVIDIA RTX 4080 SUPER GPU上进行了训练。对于当前的数据集和模型结构,训练模型一个周期(完整遍历整个训练数据集)大约需要3

时空波浪数据插补的归纳偏见

GNN-BiGRU模型在短期和长期波浪数据插补中表现出色。然而,其有效性的根本原因尚未得到充分讨论。在本节中,我们研究了模型在时空数据背景下的归纳偏见。正如Battaglia等人(2018年)所指出的,基于GNN的模型具有几个关键特性:(i)它们可以处理不同大小和拓扑的非结构化数据,(ii)它们可以表示任意关系

结论

本研究提出了一种新的基于图的神经网络模型GNN-BiGRU,用于插补海岸浮标网络中缺失的有效波高(Hs)数据。该模型利用空间关系,这些关系通过地理距离得到的相似性矩阵来量化,而Hs的时间动态则由双向门控循环单元(BiGRU)捕获。这种组合明确地解决了波浪数据的时空特性问题,使其与其他方法区分开来

CRediT作者贡献声明

魏凯·谭:撰写——原始草稿,监督,方法论,调查,正式分析,数据管理,概念化。高天一:撰写——审阅与编辑,可视化,验证,软件,方法论,正式分析,数据管理。徐苏东:撰写——审阅与编辑,项目管理,资金获取,概念化。亚历山德罗·斯托基诺:撰写——审阅与编辑,调查,概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本文所述的工作得到了国家自然科学基金(授权号:52301316)的资助。这项研究工作还得到了东南大学大数据计算中心的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号