基于SHAP(Shallow Water Adaptive Proxy)算法引导的温度和光照阈值,可提供关于藻类浓度超标的日常预警信息
《Journal of Environmental Chemical Engineering》:Explainable daily warning of algal concentration exceedance from SHAP-guided temperature and light thresholds
【字体:
大
中
小
】
时间:2026年05月07日
来源:Journal of Environmental Chemical Engineering 7.2
编辑推荐:
徐大伟|胡彦萍|杨首业|王路|王龙
中国上海同济大学海洋地质国家重点实验室,邮编200092
**摘要**
日常水库管理受益于准确且可解释的、日尺度上的藻类浓度超标的预测。本文开发了一种工作流程,将随机森林(Random Forest)与SHAP(Shapley I
徐大伟|胡彦萍|杨首业|王路|王龙
中国上海同济大学海洋地质国家重点实验室,邮编200092
**摘要**
日常水库管理受益于准确且可解释的、日尺度上的藻类浓度超标的预测。本文开发了一种工作流程,将随机森林(Random Forest)与SHAP(Shapley Importance Attribution)相结合,将FluoroProbe衍生的藻类群体浓度的连续预测转化为分类单元解析的日超标风险指数(Daily Exceedance Risk Index,DERI)。利用每日气象变量和光学替代指标,为绿藻、蓝细菌、硅藻和隐藻四种藻类群体建立了模型。统一的时间段划分了季节性窗口,结果显示高浓度事件是短暂出现的,而非持续稳定的状态,这进一步强调了进行日常监测的必要性。通过交叉验证的随机森林模型稳定性良好,R2值在0.955–0.969之间,NSE值高于0.93,而大多数误差集中在采样不足的高值区域。SHAP对温度和光学条件的依赖性揭示了风险增加的临界点区域,并对这些区域内的月份百分位数进行了对数标准化处理,以生成DERI分数和日常超标标志。该指数在不同藻类群体间表现出强烈的区分能力,AUC值大于0.95,并且对百分位数选择和事件定义参数的敏感性较低。三层结构方程模型提供了与操作阈值规则一致的证据。由于模型目标是基于传感器测得的浓度信号而非显微镜下的细胞计数,因此该框架应被视为浓度超标和藻类活动增强的操作性预警工具,而非直接预测生物确认的有害藻华事件的工具。在此范围内,该框架为季节性监测优先级和短期操作筛选提供了简洁的规则。然而,将其应用于具有相似监测配置的水库仍需要外部验证。
**引言**
浮游植物藻华是指水生生态系统表层微藻的积累。虽然许多藻华是自然发生的,但与人为富营养化相关的因素预计会增加其全球发生频率(Anderson, 1997; Michael Beman等人, 2005; Breitburg等人, 2018)。许多藻华是有益的,因为它们在食物网中固定碳,并维持渔业和生态系统的稳定。然而,导致生态或社会经济损害的藻类增殖——即有害藻华——已成为全球性的环境问题(Anderson等人, 2012; Hallegraeff等人, 2021; Smith, 2003)。某些物种产生的毒素可通过食物网积累,引发渔业关闭,并导致水生生物和人类患病或死亡(Fleming等人, 2011; Hallegraeff和Bolch, 2016)。在其他情况下,密集藻华的分解会耗尽底层水中的氧气,形成缺氧的“死亡区”,导致鱼类和无脊椎动物大规模死亡,并对当地社区造成严重影响(Diaz和Rosenberg, 2008; Breitburg等人, 2018)。不幸的是,预计在未来气候变化下,藻华的频率和分布将会增加,已经对许多地区的水生生态系统、渔业和水资源产生了不利影响(Barton等人, 2016; Gobler, 2020)。最近的全球调查显示,过去十年湖泊中的藻华有所增加,这突显了内陆水域及时监测和预警的迫切需求(Hou等人, 2022)。在内陆水域,温度升高加剧了分层现象,提高了表面水温,并延长了藻华形成主导的季节窗口,而短暂的气象事件(如平静的炎热时段或风暴驱动的混合)则导致藻类数量的一天之内发生剧烈变化(Feng等人, 2024)。一个关键挑战是在变化的季节、温度和气象条件下预测日尺度上的藻类浓度增加,并以支持操作决策的方式实现这一目标。
**淡水生态系统中的气候变化影响**
气候变化带来的热效应正在加剧。湖泊表面水温升高,热浪变得更加频繁——尤其是在中纬度地区——这些条件对应着更长、更强烈的蓝细菌事件(Woolway等人, 2020; Wang等人, 2023b)。例如,尽管外部磷输入大幅减少,日内瓦湖的浮游植物产量仍持续上升,这与温度升高有关(Tadonléké等人, 2009)。这些观察结果表明,热条件与营养物质的可用性一起,成为藻华动态的重要因素,从而增加了水资源管理和公共卫生保护的难度(Paerl和Huisman, 2009)。因此,已经部署了早期预警系统——例如韩国的国家监测和预报项目——尽管许多实施仍依赖于可解释性有限的常规模型(Kim等人, 2023)。最近的研究强调,有效的有害藻华管理越来越依赖于整合监测、模拟和早期预警的框架,特别是在需要短期预报以支持实际干预的富营养化湖泊系统中(Qiu等人, 2025)。同时,数据可用性的增加和计算技术的进步加速了机器学习在环境预测中的应用(Reichstein等人, 2019; Chen等人, 2022),包括有害藻华的预测(Huang等人, 2020)。这些数据驱动的方法可以捕捉复杂动态,并揭示补充基于过程理解的预测关系(Liu等人, 2022)。长短期记忆(LSTM)网络是一种突出的循环架构,在预测流量、营养物质和空间时间尺度上的藻类细胞密度方面表现出强劲性能(Xiang等人, 2020; Feng等人, 2020; Xiong等人, 2022; Rao等人, 2023)。然而,许多应用更注重损失最小化而非过程洞察,通常使用利用时间自相关的自回归输入,从而对温度和光照气候等关键驱动因素的信息传递有限。这限制了它们在情景分析和操作部署中的价值(Cao等人, 2022; Chen等人, 2024)。因此,对于生态系统管理而言,日尺度预测必须既准确又可解释,通过可在其他站点重新估计的阈值规则来表达风险。这一需求激发了下一节中介绍的方法学重点。
随着预测越来越多地支持日常操作决策,统计可解释性与预测准确性同样关键,因为操作人员必须了解哪些环境因素会提升或抑制与预警相关的藻类浓度风险(Fleming等人, 2021)。一系列可解释AI(XAI)方法已被用来阐明模型行为。SHAP广泛用于将预测归因于输入变量,而基于注意力的编码器通过突出重要时间步长来提高透明度。然而,这两种方法在高风险的环境时间序列中都面临挑战。SHAP通常需要大量后处理,这限制了实时可解释性,而传统的注意力机制常常低估了温度或光照气候对藻华抑制的负面影响(Ribeiro等人, 2016; Demiray等人, 2025)。类激活图(Class Activation Maps)提供了正面和负面特征影响的直接视觉证据,并已被提出作为环境序列数据(包括韩国有害藻华监测)的实用替代方案(Learning Deep Features for Discriminative Localization, 2016; Lee和Jeon, 2025)。利益相关者需要不仅能显示风险是否高的预测,还能显示与风险相关的条件。最近在韩国主要河流中的研究将CNN模型与SHAP结合,整合水质和气象变量以提高预测性能,并阐明环境条件如何与有害藻华风险相关(Lee等人, 2022)。综述同样认为,预测器重要性分析和可解释学习可以识别关键驱动因素,如营养物质、水温和pH值,补充了在非线性响应系统中基于过程的研究(Fleming等人, 2021)。尽管如此,环境时间序列的XAI发展仍不如医疗保健、金融和自动驾驶系统等领域,将模型解释与可转移的预警规则联系起来的大规模研究仍然很少(Jiang等人, 2022)。对于日常预警而言,这一问题尤为重要,因为风险会随温度和光照条件变化,因此产生的解释需要转化为可在不同站点重新估计的阈值规则。
**随机森林与SHAP的结合**
随机森林与SHAP的结合提供了一种实用的方法,将日尺度预测与水质研究中的热和光学控制的可解释归因联系起来(Li等人, 2022)。在河流和湖泊中,随机森林模型提供了稳定的非线性拟合,而SHAP明确了变量的重要性和方向性,使预测可以追溯到与管理相关的驱动因素(Wang等人, 2021)。在有害藻华预测和风险评估中,包括随机森林和梯度提升在内的集成模型在多个水库中表现出强劲性能,使用SHAP的可解释流程现在展示了气象和水质协变量如何与藻华指标相关(Jeong等人, 2022)。在流域和公用事业尺度上,树集合与SHAP的结合已被用于预测综合水质指数,并以用户友好的格式识别主导驱动因素(Choudhary等人, 2025)。最近在水生生态系统中的综述强调,这种RF–SHAP的配对通过使预测技能与透明的效果大小和有符号响应对齐,使预测更具有可操作性(Nguyen等人, 2024; Van Mourik等人, 2024)。很少有研究将SHAP衍生的响应曲线转换为可在不同站点重新估计和比较的百分位数标准化日常阈值程序。更少的研究检查这些阈值是否与同一数据集中独立估计的天气到藻类路径一致。在这项研究中,结合了这两个组成部分,基于热和光学条件制定了日常预警规则。
**研究区域和监测数据**
仙林水库是一个位于杭州西部上布河系统凌香溪仙林街道的中型饮用水源(图1)。该水库控制着一个16.89平方公里的流域,总储水量为1984万立方米。建设始于2013年,主要工程于2015年完成,2016年4月开始蓄水,正常库水位为70米。其主要功能是提供紧急市政供水。
**时间段的划分与年度变化**
不同藻类的季节性窗口各不相同,高浓度事件通常在一年中短暂出现(图2)。日历热图显示年份间的采样相对均匀,但在温暖月份样本数量略多。年度-年份日热图揭示了特定藻类的丰度高峰期:绿藻和蓝细菌从夏季持续到初秋,硅藻在较凉爽的季节和过渡月份占主导地位,隐藻则表现出多个高峰期。
**日常预警系统的有效性**
当首先确定藻类浓度升高的季节性时间,并理解短期气象事件对日常风险的影响时,日常预警系统效果最佳。最近的研究表明,当明确表示热结构和其他短期驱动因素时,蓝细菌的预测在日到周的时间范围内会变得更加准确(Fournier等人, 2024)。基于这一原理,我们……
**结论**
本研究开发了一个用于预测FluoroProbe衍生藻类浓度超标的日常预警的操作框架。随机森林模型为四种藻类群体提供了稳定的预测,SHAP衍生的临界点结合月度百分位数标准化生成了一个分类单元解析的日超标风险指数,具有强烈的区分能力。三层结构方程模型进一步支持了气象→水温/透明度→藻类的路径,建立了因果联系。
**作者贡献声明**
王龙:写作——审阅与编辑、原始草稿编写、方法论、概念化。
卢路:写作——审阅与编辑、原始草稿编写。
杨首业:调查。
胡彦萍:调查。
徐大伟:写作——审阅与编辑、原始草稿编写、调查、数据整理、概念化。
**利益冲突声明**
作者声明没有已知的会影响到本文报告工作的财务利益或个人关系。
**致谢**
本研究得到了国家自然科学基金(编号32530066)的支持。我们还要感谢那些支持水库浮标系统的同事们。
**利益冲突**
作者们声明不存在任何需要披露的利益冲突。
**作者贡献**
所有作者均参与了研究的构思与设计工作。材料准备、数据收集及分析工作由徐大伟(Dawei Xu)、胡燕萍(Yanping Hu)和杨守业(Shouye Yang)完成。初稿由徐大伟(Dawei Xu)、王璐(Lu Wang)和王龙(Long Wang)撰写,所有作者都对初稿提出了意见。