可解释性人工神经网络揭示了黄河入海口及其邻近海域中叶绿素-a的区域特异性调控机制

《Marine Pollution Bulletin》:Interpretable artificial neural network reveals region-specific controls of chlorophyll-a in the Yellow River Estuary and adjacent sea

【字体: 时间:2026年03月23日 来源:Marine Pollution Bulletin 4.9

编辑推荐:

  本研究开发了一种基于可解释AI的框架,整合数据增强、人工神经网络建模和SHAP解释,分析2017-2024年黄河三角洲-近海叶绿素a动态。通过随机扰动增强数据,将区域划分为北部、莱州湾和中央海湾三部分,发现不同区域环境因子贡献差异显著,北部DIN、DIP、COD共占44.9%,莱州湾DIN阈值更低且影响范围更大,中央海湾营养因素贡献仅8%。该方法捕捉非线性关系,为复杂近海生态系统营养管理提供可转移方法。

  
赵明涛|李一飞|杨雪娜|陶晨亮|郭志刚|张洪亮|周胜谦|陈颖
上海复旦大学环境科学与工程学院空气质量与环境卫生重点实验室,中国上海200438

摘要

本研究开发了一个基于人工智能的可解释框架,整合了数据增强、人工神经网络(ANN)建模和SHAP解释技术,用于研究2017年至2024年黄河河口-沿海生态系统中叶绿素-a(Chl-a)的变化情况。基于随机扰动的数据增强方法缓解了数据稀疏性问题,并提高了模型的鲁棒性。在三个动态划分的子区域内,发现了环境因素与Chl-a关联性的显著区域差异。在黄河河口北部(NYRE),溶解无机氮(DIN)、溶解无机磷(DIP)和化学需氧量(COD)共同解释了44.9%的Chl-a变化,其响应阈值分别为0.43、0.004和1.13 mg L?1。在莱州湾(LB),DIN的阈值较低(0.32 mg L?1),且超过阈值的区域面积(462.7 km2)明显大于NYRE(29.5 km2),表明该区域的富营养化潜力更大。相比之下,黄河最小影响区(MinCBS)中营养物质的贡献较小(约8%),Chl-a的变化与水文和光照因素密切相关。该框架能够捕捉非线性和依赖交互作用的环境响应,为复杂沿海系统的适应性营养管理提供了一种可迁移的方法。

引言

浮游植物是海洋生态系统中的初级生产者,它们驱动物质循环和能量流动,并调节生物地球化学过程。叶绿素-a(Chl-a)被广泛用作浮游植物生物量和初级生产力的指标,反映了生态系统的健康状况和功能动态,同时受到多种环境因素的影响,包括营养物质的可利用性、温度、光照和盐度。在全球变暖和沿海地区快速经济发展的双重压力下,流域和沿海地区的密集人类活动深刻地重塑了近岸生态系统。海水温度上升(Guild等人,2025年)、营养结构失衡以及由浑浊度引起的水体透明度降低(Gameiro等人,2011年)可能共同改变了浮游植物的生长环境。作为回应,中国政府实施了多项保护和治理黄河的举措,包括控制土壤侵蚀、调节水沙和湿地生态恢复项目(Shi和Gao,2024年;Wu等人,2021年)。这些干预措施不仅显著改变了黄河水体和沉积物流入海洋的自然特性,还重塑了输送到河口的营养物质通量和组成,从而对黄河河口(YRE)及其邻近海域的生态环境产生了深远影响,这些地区经常报告出现富营养化、赤潮和生态系统失衡现象(Ran等人,2023年)。
人工神经网络(ANN)是一类基于相互连接的神经元结构构建的机器学习模型。与传统统计模型不同,ANN不依赖于线性假设或预定义的变量关系。相反,它们在特征提取、非线性拟合以及处理大规模、多源和复杂数据集方面表现出强大的能力,从而能够有效学习输入和输出之间的复杂非线性映射。由于这些优势,ANN已被广泛应用于多变量建模和模式识别(Han和Wang,2021年;Zhu等人,2022年)。例如,Awad(2014年)将卫星遥感数据与ANN结合,用于监测沿海水域的Chl-a变化。H. Liu等人(2022年)使用ANN框架重建了2003年至2019年渤海每月的溶解无机氮、磷和硅(DIN、DIP、DSi)的浓度。在风险评估方面,Guo等人(2023年)模拟并预测了长江河口有害藻类爆发的频率,表明在未来情景下这一频率将显著增加。
然而,ANN模型通常是“黑箱”,掩盖了单个输入(及其相互作用)如何影响预测结果,限制了机制推断和管理的应用。基于合作博弈论的SHapley Additive exPlanations(SHAP)技术能够量化输入变量对ANN模型输出的边际贡献和交互效应。最近,Song等人(2024年)开发了一个可解释的机器学习框架来预测YRE中的Chl-a变化,确定盐度和浑浊度为主要控制因素,营养物质为次要贡献因素。然而,由于将复杂的YRE和沿海海域视为一个整体,并使用相对较小的数据集,该研究无法解析Chl-a及其控制因素的空间异质性,从而限制了其生态洞察力和管理实用性。
在本研究中,根据季节性盐度变化,将YRE及其邻近海域动态划分为三个特征子区域。八个环境预测因子作为输入输入到ANN模型中,以Chl-a作为输出,并通过有针对性的数据增强来提高模型的鲁棒性。然后应用SHAP分析来解释环境变量与Chl-a之间的多变量关联,量化它们在每个子区域内的相对贡献结构、响应阈值和成对交互模式。所提出的基于AI的方法框架能够捕捉非线性和依赖交互作用的环境响应,为分析复杂的河口-沿海生态系统提供了一种可迁移的方法。

研究区域

研究区域位于北纬37.06°-38.81°、东经118.4°-120.9°之间,涵盖了黄河河口及其邻近海域,平均水深约为10米(图1)。作为一个典型的河口-沿海系统,该区域受到人类活动、海洋 currents和风驱动的环流的共同影响(Wang等人,2020年),并接收来自九条主要河流的流入,包括黄河、智迈河和小清河(Zhang等人,2022年)。营养结构的不平衡...

模型性能

在原始数据集和增强合成数据集上训练的ANN模型进行比较后发现,后者具有更好的拟合效果、更高的准确性和泛化能力,从而验证了基于随机扰动的数据增强方法的可行性(表S2和图S5)。对于增强后的ANN集成模型,NYRE的训练集和验证集的R2值分别为0.78和0.62,MinCBS为0.9和0.86,LB为0.83和0.80...

讨论

移动平均平滑和基于随机扰动的数据增强方法提高了ANN模型的鲁棒性。与在原始数据集上训练的模型相比,增强后的数据集具有更好的拟合性能和泛化能力,表明合成样本保留了观测数据的统计特征,同时缓解了数据稀疏问题。这一发现证明了基于随机扰动的数据增强方法的可行性...

结论

本研究开发了一个基于人工智能的框架,整合了数据增强、ANN建模和SHAP解释技术,用于研究2017年至2024年黄河河口-沿海生态系统中叶绿素-a的变化情况。基于随机扰动的数据增强有效缓解了数据稀疏问题,并提高了模型的鲁棒性,证明了其在数据有限的沿海生态系统中的生态建模可行性。环境变量与Chl-a之间存在明显的区域差异...

CRediT作者贡献声明

赵明涛:撰写 – 审稿与编辑,撰写 – 初稿,验证,方法论,正式分析,数据管理。李一飞:方法论,数据管理。杨雪娜:数据管理。陶晨亮:方法论。郭志刚:资金获取。张洪亮:撰写 – 审稿与编辑。周胜谦:方法论。陈颖:撰写 – 审稿与编辑,监督,方法论,资金获取,正式分析,概念化。

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究工作。

致谢

我们衷心感谢国家自然科学基金(编号:42530101)和上海自然科学基金(编号:22ZR1403800)的关键项目提供的财政支持。同时,我们也感谢中国国家海洋环境监测中心的海洋环境监测项目、Copernicus-GlobColour卫星衍生产品以及NASA海洋颜色项目的数据共享。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号