《Water Research》:Improving watershed-scale daily nutrient simulation using a process-model-informed graph attention network with multi-source data integration
编辑推荐:
水质量预测管理模型融合过程模型与图注意力机制,通过卫星遥感数据弥补监测站点稀疏问题,提升无站监测区精度。基于河流网络拓扑构建PMIGAT模型,整合SWAT模型过程变量与卫星反演数据,设计相似引导注意力模块实现监督信息精准传递。在挂bu河流域验证显示,KGE指标从传统模型的0.01提升至0.60,MAPE降低至26%,同时增强高浓度事件检测能力。
王伟晨|刘国旺辰|王明珠|潘妍|马玉坤|杨璐|桑静|沈振尧|陈雷
中国北京师范大学环境学院区域环境与可持续发展国家重点实验室,北京100875
摘要 水质管理需要高频监测数据,但这在空间异质性明显且监测站点稀少的流域中仍然具有挑战性。为了解决这一难题,本研究提出了一种基于过程模型的图注意力网络(PMIGAT),该网络整合了现场观测数据和基于过程的模型变量,并利用间歇性卫星获取的水质数据作为弱监督信息,以提高未设测站的预测精度。此外,还引入了基于相似性的图注意力模块,根据水文和景观相似性,实现从有监测节点到未设测站的监督信息的有针对性传输。该方法在中国杭布河流域的氮素模拟中进行了验证。结果显示,在持续监测的河段,Kling–Gupta效率(KGE)为0.66;在卫星数据可获取的日期里,稀疏监测河段的中位KGE达到0.60。在没有卫星数据的日期里,PMIGAT的性能优于基于过程的模型(如SWAT),R2从0.01提高到0.46,平均绝对百分比误差(MAPE)从64%降低到26%。此外,新方法还提高了高浓度事件的检测能力,关键成功指数从0.04提高到0.28,相对峰值误差从60%降低到13%。消融分析表明,在稀疏监测河段,卫星数据贡献了最大的提升效果;卫星数据的可用性越高、沿河距离出口越短以及地表相似性越大,其与基于相似性的图注意力模块的协同作用越强。尽管监测具有间歇性,该方法仍能生成时空连续的日水质数据,从而支持热点识别和流域管理。
引言 水污染和水资源短缺构成了重大的全球性风险,这凸显了有效水质管理的重要性(Moore等人,2024年)。随着人为压力和气候变化的加剧(Baccour等人,2024年;王明静等人,2024年),全面准确地模拟和预测流域水质动态已成为当务之急(van Vliet等人,2023年)。在这种背景下,研究和管理实践正从基于有限控制点和低采样频率的传统水质评估方法转向获取更高时空分辨率的浓度和负荷信息(Rode等人,2016年;Sudriani等人,2023年),以更好地支持流域预警、源归属和精细化管理(Zhi等人,2024年;Luan等人,2025年)。
目前,评估流域水质主要有两种技术方法。第一种是以观测为主的方法,包括高频现场监测和具有广泛空间覆盖范围的卫星遥感反演。现场监测精度高,但受监测站点有限、空间分布不均和维护成本高的限制,难以捕捉流域内污染物的空间异质性(Jeong等人,2024年;Zheng等人,2025年)。卫星遥感具有优越的空间覆盖能力(Sagan等人,2020年;Liu等人,2025年),但由于重访周期以及云层和降雨干扰,其时间记录往往不连续(Yang等人,2022年),特别是在降雨季节水文过程剧烈变化时数据缺失更为严重(Dong等人,2023年;Langhorst等人,2024年)。第二种是模型驱动的方法,基于过程的模型(如SWAT)可以提供时空连续的模拟,长期以来用于流域尺度的营养物模拟(Abbaspour等人,2007年;Molina-Navarro等人,2014年)。然而,这些模型涉及众多参数及其复杂相互作用(Tang等人,2021年;Pan等人,2025年)。特别是在观测稀少的地区,模型校准的不确定性仍然存在(Arnold等人,2012年;Solanki等人,2025年),从而影响模拟结果的准确性和可信度(Panchanathan等人,2024年;Xie等人,2025年)。此外,传统的基于过程的框架难以高效整合多源观测数据(Bayat等人,2022年)。因此,协同整合过程模型模拟、现场观测和遥感反演,充分利用它们的互补性,已成为提高流域水质模拟的关键挑战。
深度学习的进步为多源数据整合开辟了新途径(Reichstein等人,2019年;Tripathy和Mishra,2024年;Zhi等人,2024年)。早期研究主要采用整体模型范式,将整个流域视为一个单元(Taormina和Chau,2015年;Mosavi等人,2018年),这不足以捕捉内部水文过程和污染物传输的空间异质性(Wang和Karimi,2022年;Yang等人,2024年)。近年来,图神经网络(GNNs)使得将河流网络作为图进行显式建模成为可能。通过节点和边表示实体及其上下游关系,GNNs能够捕捉空间依赖性和节点间的影响(Sun等人,2021年;Truong等人,2024年),显著优于忽略空间关系的深度学习模型(Zanfei等人,2022年;Bentivoglio等人,2023年)。进一步结合注意力机制,有助于自适应识别邻近贡献和节点类型差异,增强空间异质性的识别和关键路径的划分(Luo等人,2024年;Zhou,2025年)。同时,混合建模方法也受到关注,基于过程的模型为数据驱动方法提供机制洞察和先验知识,从而提高鲁棒性和泛化能力(Bhasme等人,2022年)。即使基于过程的模型校准不足,它们在数据驱动框架中仍能发挥重要作用(Adera等人,2024年;Asadi等人,2025年)。然而,在观测稀少的实际河流网络中,沿图传播的监督信号容易衰减,限制了未设测区域的模拟精度(Sun等人,2022年)。此外,现有方法受到数据缺失和观测异质性的限制,以及基于过程输出的偏差和尺度问题。
为了解决这些限制,开发了一种基于过程模型的图注意力网络(PMIGAT),以在监测稀少的情况下改进河段尺度的日总氮(TN)浓度模拟。在提出的框架中,使用SWAT派生的过程变量作为基于过程的输入特征,卫星获取的TN数据为未设测站提供间歇性弱监督。图注意力用于沿上下游河流网络拓扑传播信息,并引入了基于相似性的注意力(SGGAT)机制,以支持从有监测节点到未设测站的相似性传输。通过消融实验量化了卫星反演和SGGAT的贡献。
研究区域 该方法在中国巢湖盆地西南部的杭布河流域进行了应用和评估,因为该地区数据丰富且河流网络密集(图1a-c)。该地区具有湿润的亚热带季风气候,年平均气温为16.1°C,降水量为1,117毫米。杭布河流域以农业为主,耕地和森林面积占总面积的88%以上(Wang等人,2022年,2024年)。
遥感结果和PMIGAT的性能表现 首先从卫星观测中获取TN浓度数据,为B型节点提供监督信号。使用五折交叉验证训练和比较反演模型,并使用r 、RMSE和MAPE评估泛化能力。XGBoost表现最佳,因此被用于获取杭布河流域所有河段的TN浓度(图S1)。网络中观察到空间差异,TN浓度在
RS和SGGAT对精度提升的影响 本研究提出的PMIGAT方法整合了卫星水质数据(RS)并引入了SGGAT,为缺乏现场观测的流域提供监督,增强了B型节点的时空泛化能力。该方法利用时间不连续的卫星数据提高未设测站的模拟精度,并生成日河段尺度的水质场。
观察发现,在观测稀少的情况下,额外信息能带来更大的提升
结论 提出并验证了一种基于过程模型的图注意力网络(PMIGAT),用于数据稀少条件下的河段尺度日TN浓度预测。在杭布河流域,PMIGAT在四个A型节点上获得了稳定的指标,KGE范围为0.60至0.70,并在37个B型节点上表现良好,其中中位KGE为0.60。PMIGAT在相位对齐和峰值捕捉方面优于传统的基于过程的模型。PMIGAT显著提高了SWAT的TN浓度预测效果
CRediT作者贡献声明 王伟晨:概念化、软件开发、方法论、形式分析、可视化、初稿撰写、审稿与编辑。刘国旺辰:概念化、撰写、审稿与编辑。王明珠:撰写、审稿与编辑。潘妍:撰写、审稿与编辑。马玉坤:撰写、审稿与编辑。杨璐:撰写、审稿与编辑。桑静:撰写、审稿与编辑。沈振尧:概念化。陈雷:概念化、方法论、撰写、审稿与编辑。
未引用参考文献 Liu等人,2025年;Tang等人,2021年;Wang等人,2024年
CRediT作者贡献声明 王伟晨: 撰写、审稿与编辑、初稿撰写、可视化、软件开发、方法论、形式分析、概念化。
刘国旺辰: 撰写、审稿与编辑、概念化。
王明珠: 撰写、审稿与编辑。
潘妍: 撰写、审稿与编辑。
马玉坤: 撰写、审稿与编辑。
杨璐: 撰写、审稿与编辑。
桑静: 撰写、审稿与编辑。
沈振尧: 概念化。
陈雷: 撰写、审稿与编辑、方法论。
利益冲突声明 作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢 本研究得到了中国国家重点研发计划(编号2024YFD1701303)、国家自然科学基金创新研究群体(编号52221003)、国家自然科学基金联合资金(U2340219)和中央高校基本科研业务费的支持。