《Scientific Data》:World Ocean Database 2023: A Foundational Data Resource for and by the Global Ocean and Coastal Communities
编辑推荐:
为解决海洋观测数据零散、格式不一、质量参次带来的研究壁垒,WOD23(World Ocean Database 2023)对1772-2022年间全球海洋原位剖面观测数据进行系统性的聚合、格式化、质控与标准化处理。它整合了约1860万个水柱剖面、36亿次测量,涵盖27个物理和化学变量,旨在成为海洋学界可FAIR化(可查找、可访问、可互操作、可重用)的权威基础数据源,为地球系统模型、气候再分析等研究提供支持。
海洋,这颗蓝色星球的生命之源,不仅调控着地球的气候与生物圈,也紧密维系着沿海社区的生存与发展。自工业革命以来,人类活动深刻改变了地球环境。海洋吸收了约30%人为排放的CO2以及1971-2020年间约89%的过剩热量,其热含量(OHC)持续上升,并通过环流影响全球气候、海洋分层、风暴强度、生物地球化学循环乃至海洋生态系统。要量化这些长期变化及其影响,必须依赖跨越时空的、持续且高质量的海水物理和化学观测数据。然而,一个根本性的挑战在于,这些宝贵的观测数据长期以来散落在全球各地,存储于不同的介质(如纸质记录、磁盘)、采用迥异的格式、术语和计量单位,导致数据的发现、整合、质量控制和高效利用变得异常困难。研究人员往往需要为特定研究项目自行构建一次性数据集,这不仅耗时费力,也损害了科学研究结果的可靠性与可重复性。为了应对这一挑战,为全球海洋研究提供一个统一、可靠、易于获取的数据基石,世界海洋数据库(World Ocean Database, WOD)应运而生。2024年发布的WOD23是其最新版本,这篇发表在《Scientific Data》上的文章系统介绍了这一数据库的资源、构建方法与价值。
研究人员开展此项研究,构建WOD23数据库,主要运用了以下关键技术方法:1. 数据溯源与聚合:从美国国家环境信息中心等长期档案中获取全球海洋观测的原始数据,涵盖来自97个国家、超过27,000个数据集的近实时和延时模式数据。2. 数据转换与标准化:针对历史数据格式各异(包括纸质记录)的问题,开发了大量定制化转换程序,将数据统一为标准化格式和计量单位,并对化学数据的单位进行了统一转换(如体积摩尔浓度转换为质量摩尔浓度)。3. 质量控制流程:实施了多层次的质量控制,包括重复数据检查、深度/范围异常值检测、垂直梯度与密度反转校验。对温度、盐度、溶解氧和营养盐等核心变量,进一步采用了基于网格化统计(如5度方格内的月/季/年气候标准差)的自动检查,并结合领域专家的人工评估,为每个剖面、每次测量赋予详细的质量控制标志。4. 元数据整合与标准化:为每次观测保留了丰富的元数据,包括测量平台、仪器、项目、研究者、国家代码等,确保数据可追溯。5. 数据集成与格式输出:将同一站点不同来源的变量剖面整合为统一的“观测次”,最终以符合气候与预报元数据约定的NetCDF等多种格式发布,并提供灵活的在线数据选择与下载工具。
数据记录概览:WOD23涵盖了1772年至2022年期间收集的数据,是迄今为止最完整的全球海洋原位剖面观测数字集合。它包含约1860万个水柱剖面,总计约36亿次测量,覆盖27个常用物理和化学变量,其中包括17个基本海洋变量和11个气候变量。数据库还收录了约2270万次气象和海况观测,以及超过24.5万次浮游生物拖网数据。这些数据通过季度更新保持动态增长。
海洋观测系统的演变:文章回顾了海洋观测技术的历史演进,从1772年库克船长使用吊桶和封闭式温度计进行的最早次表层温度测量,到20世纪的南森瓶、机械温深计,再到二战后广泛使用的温盐深仪与尼斯金采水器。20世纪末以来,自动化观测系统(如热带系泊浮标阵列TAO/TRITON、PIRATA、RAMA)和自主平台(如Argo剖面浮标、水下滑翔机、动物搭载传感器)革命性地增加了数据的时空覆盖范围和采集频率,特别是2000年后Argo计划的实施使得数据量大幅增长。
海洋数据归档、访问与互操作性:WOD23的构建基于美国国家海洋和大气管理局国家环境信息中心的长期档案,确保了数据的可溯源性。面对历史数据多以非数字或过时介质形式保存的挑战,研究团队通过全球海洋数据考古与拯救计划等努力,对大量纸质、微缩胶片等介质的数据进行了数字化抢救。WOD23的核心目标是将这些来源分散、格式异构的数据转化为符合FAIR原则(可查找、可访问、可互操作、可重用)的资源。
方法:在数据来源方面,WOD23集成了来自全球观测计划、研究机构、数据汇编中心等的多样化数据,其中约44%的数据由美国采集,56%来自其他国家。在质量控制方面,文章详细阐述了针对不同变量的自动化与专家结合的质控流程,包括重复数据剔除、密度稳定性检查、基于气候标准差的统计检验等,并为数据赋予了详细的质量控制标志,允许用户根据自身研究需求筛选数据。
技术验证:WOD23的数据直接来源于存档的原始数据,其科学质量与权威性由此继承。数据库本身及其生成的产品(如世界海洋图集)已被全球海洋研究与建模界在数十年的同行评审科学出版物中广泛使用。此外,国际质量受控海洋数据库等独立项目也利用WOD23数据进行数据质量评估和偏差校正,进一步验证了其作为研究基础的可靠性。
结论与重要意义:WOD23作为一个持续更新的、国际协作的成果,为全球海洋科学界提供了一个前所未有的、统一的、经过质量控制的海洋原位观测基础数据资源。它有效解决了海洋数据分散、异构的难题,通过标准化和FAIR化处理,极大地促进了数据的可获取性和可重用性。这使得研究人员能够从一个共同的、可靠的数据源出发,开展关于海洋长期变化、趋势分析、不确定性评估以及模型验证等工作,确保了研究过程的透明度和结果的可重复性。该数据库支持了从地球系统模型、气候数据再分析到诊断研究等一系列关键应用,对于理解海洋在气候变化中的作用、评估海洋生态系统对变暖的响应、以及为沿海社区的适应和减灾决策提供科学依据具有不可估量的价值。未来,随着人工智能、机器学习技术和全球数据管理标准的进步,海洋数据的聚合、质控与集成效率有望进一步提升,WOD将继续作为连接历史观测与未来发现的关键桥梁,服务于科学与社会的可持续发展目标。