《Journal of Hydrology》:Water quality spatial-temporal imputation using diffusion graph convolutional networks: A case study in Georgia, USA
编辑推荐:
针对水质监测数据缺失问题,提出基于扩散图卷积网络的混合框架,通过整合多参数辅助变量和子图采样策略提升时空插补精度,实验验证其性能优于现有方法56%-57%。
方佳宇|谢乐伟|史梦楠|姚强|李洪涛
中国四川省成都市四川大学水资源与水电学院水利与山地河流工程国家重点实验室,610065
摘要 水质监测对于环境管理和公共卫生至关重要,然而由于传感器部署的稀疏性,常常导致时空数据的缺失,因此需要准确的插补技术来推断未观测监测位置的水质。传统方法很少能够捕捉水质的时空多参数动态或处理嘈杂、不断变化的传感器网络。为了解决这个问题,本文提出了一种基于扩散图卷积网络的水质辅助增强时空插补框架。该框架利用扩散图卷积网络来模拟pH数据的时空相关性,并自适应地整合辅助变量以生成特定节点的增强信号。此外,子图采样设计能够处理噪声相邻节点的影响,并促进在动态监测网络中的泛化。在美国乔治亚州37个监测位置的真实世界日水质数据集上的广泛实验表明,我们的模型优于现有的最佳基线模型;在测试集上,它实现了0.0084的平均绝对误差(MAE)、1.27%的平均相对误差(MAPE)和0.0119的均方根误差(RMSE),分别比最佳基线模型降低了56.0%、57.0%和51.6%。这些结果表明,所提出的框架为河流网络中未观测监测位置的时空水质插补提供了一个实用且可扩展的工具。本研究的实验数据和代码可以在以下链接找到:
https://github.com/Xielewei/Water-Quality.git
引言 随着工业化和城市化的不断加速,水污染已成为一个日益严重的环境问题,对生态系统稳定性和公共卫生构成了重大威胁(Xie等人,2025;Saadat等人,2025;Tan等人,2025)。作为环境监测和水资源管理的核心组成部分,水质评估依赖于准确和连续的监测数据采集(Pati等人,2025;Raheli等人,2024)。对关键水质参数(如pH值、溶解氧、浊度和电导率)的准确分析可以为污染追踪、环境评估和管理决策提供科学支持(Zahran等人,2022;Huang等人,2024)。
然而,在现实世界的监测场景中,由于传感器部署稀疏、维护成本高以及监测设备容易受到环境和操作干扰,水质数据经常出现时空缺失(Banjara等人,2025;Zhang等人,2024)。这种缺失数据不仅降低了监测结果的可靠性,还显著影响了后续任务,如水质预测、污染检测和早期预警分析(Wu等人,2025)。如图1所示,监测站沿河流网络分布不均,由于环境和操作因素,一些站点的数据记录缺失或不完整。
为了缓解这些问题,时空数据插补已成为智能水环境监测中的一个重要研究方向。高精度地重建缺失数据可以有效恢复监测数据集的连续性和完整性,从而为后续分析、建模和决策支持提供可靠的基础(Velayudhan等人,2025)。传统的插补方法,如统计插值和克里金法,在规则的空间结构下表现良好,但在捕捉复杂的非线性依赖性和多尺度时空相关性方面存在困难(Wang等人,2025;Huan,2023)。
近年来,深度学习技术——特别是图神经网络(GNNs)在处理不规则空间结构方面表现出色。特别是Khorsandi等人(2011)的研究表明,神经网络在重建月降水量数据方面优于其他传统方法。一些研究,如Xu等人(2025)和Yuan与Lin(2025)通过基于图的结构对监测节点之间的空间拓扑关系和时间依赖性进行了建模,在复杂环境中实现了准确的预测。同时,Cini等人(2021)引入了GRIN框架,该框架通过消息传递学习时空表示,与现有技术相比平均绝对误差提高了20%以上;Gordon等人(2021)将时间信息纳入二分图,有效恢复了不同缺失率下的缺失数据;Chen等人(2022)提出了一种自适应图学习层,无需先验拓扑即可同时捕捉空间和时间依赖性,在环境传感器网络中展示了更高的重建精度。
此外,时空插补方法在其他环境领域也得到了广泛探索。例如,基于时间插补的框架已被用于波高预测(Si等人,2025),而Transformer架构已被用于在数据缺失的情况下直接进行预测(Nejad等人,2024)。同样,图卷积机制也被用于重建空间交互关系,在城市交通和环境数据恢复中取得了优异的性能(Xiao等人,2024)。同时,Betancourt等人(2023)应用了“Correct and Smooth”算法进行混合图学习,显著降低了德国278个站点的臭氧监测数据中的插补误差;Chen等人(2025)提出了一种自适应的时空特征融合层,在不同的缺失比率下提高了鲁棒性;You等人(2020)将观测值和特征都作为二分图中的节点,共同进行插补和下游预测。
尽管基于图和深度的时空插补方法取得了显著进展,但在水质监测方面的现有研究仍存在一些局限性。
1. 缺乏针对水质数据独特特性的专门建模。
大多数现有研究主要是为空气质量或交通相关数据集开发的,而水质测量通常表现出更强的非线性、多源异质性、水文依赖性和明显的季节性变化。此外,关键参数表现出复杂的内在相关性(Zhu等人,2026),但目前的方法通常无法充分利用这些多参数关系或结合水质特定的机制。2. 单维插补缺乏联合时空变量推断。
许多现有框架要么依赖于使用单个传感器时间序列的时间插值,要么依赖于基于图邻域的空间推断。然而,它们对多个时间段、多个监测站点和多个水质参数的协作插补关注有限,这限制了它们在现实世界水质监测中的适用性(Lin等人,2024)。3. 对邻域可靠性和图结构稳定性的高度敏感。
基于图的插补方法通常假设相邻节点提供稳定和完整的观测数据。实际上,监测站点经常因传感器故障、漂移或通信中断而出现噪声或缺失值(Xia等人,2025)。这种不可靠性可能会扰乱信息传播过程,并引入模型中的不稳定性(Santos-Fernandez等人,2025)。此外,监测网络在运行过程中可能会临时添加或移除传感器,依赖固定图结构的模型通常需要图重建和重新训练来适应这些变化,从而限制了它们的适应性。鉴于上述局限性,实现高质量的现实世界水质监测数据的时空插补仍然具有挑战性,包括准确捕捉不规则河流网络结构中的跨站点空间依赖性,实现多个时间尺度和水质参数的协作建模,以及在邻域噪声、缺失观测和监测网络拓扑动态变化存在的情况下保持稳定和可靠的信息传播。
为了解决这些挑战,本文提出了一种基于扩散图卷积网络(DGCN)(Zheng等人,2021)的水质辅助增强时空插补模型。所提出的方法使用扩散图卷积精确建模时空依赖性,同时结合多个辅助水质指标(如溶解氧、浊度和电导率)作为特定节点的增强信号,以自适应地加强节点间的特征表示。此外,采用了一种归纳子图采样策略来减轻噪声或不可靠相邻节点的影响,并实现對动态变化监测网络的泛化。为了更直观地说明本研究的技术流程,图2展示了整体研究流程图,包括任务场景、数据集、实验程序和结果分析。
本研究的主要贡献总结如下:
1. 提出了一种稳健的时空水质插补框架,能够在数据缺失的情况下有效重建关键水质参数;
2. 引入了一种基于辅助变量的节点级增强机制,使扩散图卷积能够利用联合时空依赖性和跨变量相关性,从而提高空间适应性和泛化能力;
3. 采用了一种子图采样策略,以减少对不可靠邻域和结构不稳定性的敏感性,从而在监测稀疏的传感器网络中实现更稳健的推断;
4. 在真实世界的水质数据集上的广泛实验表明,所提出的方法在插补准确性和鲁棒性方面优于现有的最佳模型。
部分摘录 问题定义 在时空水质监测系统中,我们在全球时间范围内收集 个观测监测位置的水质指标 。观测位置的完整数据集表示为 ,其中每个矩阵 描述了所有观测站点和时间步长的特征 的空间模式和时间变化。在本研究中,我们将氢离子(pH)值的中位数作为插补目标,由矩阵 表示(对应于 ),
数据集 本研究使用了Zhao等人(2019)提供的时空水质数据集,该数据集包含了2016年1月28日至2018年1月1日期间美国乔治亚州37个监测站的每日观测数据。数据集包括12个变量:1个pH插补目标和11个用于建模的辅助变量,具体如下:
1. pH(中位数):未过滤水样的现场测量pH值的中位数,即要插补的目标变量。
2. pH(最大值):未过滤水的最大pH值,标准单位。
3. pH(最小值):
与基线的性能比较 在我们的实验中,为了确保鲁棒性,我们使用不同的随机种子重复每个实验五次,并报告所有评估指标的平均值和标准差。如表4所示,我们的模型在所有指标上均表现最佳,MAE为0.0084,MAPE为1.2700%,RMSE为0.0119。与第二好的模型DGCN_LSTM相比,它分别降低了MAE、MAPE和RMSE 56.0%、57.0%和51.6%。这些结果表明,我们的模型非常有效
结论 本研究提出了利用DGCN的辅助增强时空插补网络,以解决水质数据缺失的问题。通过整合溶解氧、浊度和电导率等辅助变量,所提出的模型有效地捕捉了复杂的时空依赖性。从本研究得出的主要结论如下:
1. 模型创新和框架优势。
CRediT作者贡献声明 方佳宇: 撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,方法论。
谢乐伟: 可视化,验证,方法论,概念化。史梦楠: 撰写 – 审稿与编辑,概念化。
姚强: 监督,资源,调查,资金获取。
利益冲突声明 作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
致谢 本工作得到了CPSF博士后奖学金计划(GZB20240503)和中国博士后科学基金会(2025M773161)的支持
写作过程中生成式AI和AI辅助技术的声明 在准备本工作时,作者使用了ChatGPT和DeepL来润色手稿的语言。使用这些工具后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。