《Water Research》:Bridging Causality and Deep Learning for Harmful Algal Bloom Prediction
编辑推荐:
准确估算叶绿素a(Chl-a)对监测有害藻华(HABs)至关重要,尤其在易受影响的波斯湾等沿海地区。本研究提出Causally Informed Neural Network(CINN)框架,融合因果发现(DECI算法)、双重机器学习(DML)及深度学习,通过嵌入因果图和单调约束提升模型因果解释力和环境变化适应性。实验表明,CINN和其单调扩展版(MCINN)在R2达0.926、RMSE降低25%方面显著优于随机森林、XGBoost等基线模型,并利用中介效应和敏感性分析验证了海面温度、荧光线高度及营养盐通量等关键驱动因子的因果有效性,为数据稀缺且气候敏感的海洋环境提供可解释、高效的不确定性量化解决方案。
普亚·扎尔比普尔(Pouya Zarbipour)| 穆罕默德·雷扎·尼库(Mohammad Reza Nikoo)| 哈桑·阿克巴里(Hassan Akbari)| 鲁兹贝赫·纳扎里(Rouzbeh Nazari)| 玛丽亚姆·卡里米(Maryam Karimi)
伊朗德黑兰塔比阿特莫达雷斯大学(Tarbiat Modares University)土木与环境工程学院
摘要
准确估计叶绿素-a(Chl-a)对于监测有害藻华(HABs)至关重要,尤其是在脆弱的沿海地区。然而,大多数机器学习(ML)方法仅依赖于相关性模式,往往缺乏因果可解释性和在环境条件变化下的鲁棒性。本研究提出了一种改进的因果机器学习框架,该框架将因果发现、处理效应估计和深度学习整合到因果信息神经网络(CINN)中。使用来自MODIS、ERA5和HYCOM的31个环境预测因子,这些预测因子涉及波斯湾地区,该地区的有害藻华威胁着海水淡化、渔业和沿海生态系统。模型嵌入了由DECI算法得出的因果图和双重机器学习得出的平均处理效应。为了使预测结果符合生态预期,还加入了单调因果约束。结果显示,CINN及其单调扩展(MCINN)的表现始终优于基线方法(包括随机森林、XGBoost和支持向量机),R2值最高可达0.926(比基线方法提高了10-17%),同时RMSE降低了25%。中介效应和敏感性分析证实了关键驱动因素的因果有效性,包括海表温度、非荧光线高度和营养物通量。不确定性量化及反事实模拟进一步展示了该框架在操作性早期预警系统和政策干预中的潜力。通过结合因果关系和深度学习,该框架为数据稀缺、气候敏感的海洋环境中预测藻华提供了可解释、数据高效且考虑不确定性的解决方案。
引言
准确预测有害藻华(HABs)对于保护海洋生态系统、渔业和公共健康至关重要,尤其是在气候变化和人为营养物富集的共同影响下,藻华的频率和强度都在增加(Chen等人,2021年;Yu,2025年)。叶绿素-a浓度通过卫星遥感技术进行常规监测,被广泛用作藻华严重程度和空间范围的代理指标。尽管机器学习(ML)和深度学习(DL)通过捕捉非线性动态提高了预测准确性,但这些模型通常依赖于相关性,导致结构不确定性和解释性有限。结构性不确定性指的是由于缺乏对控制藻华动态的因果关系的明确表示而产生的不确定性。基于相关性的模型在观察条件下可能具有较高的预测能力,但在环境变化、非平稳条件或管理干预下往往无法区分因果驱动因素和混杂关联,从而降低了其可靠性。这一限制阻碍了机制性理解的发展,并阻碍了模型在不同地区或时间段的迁移。因此,在应用因果ML方法识别环境因素与HABs之间的因果关系方面存在显著的研究空白,这阻碍了有效水资源管理所需的稳健机制模型的发展。
先前的研究指出,气候变化和土地利用变化会显著改变流域尺度的水文响应,进而影响营养物负荷和水生生态系统的健康(Giglou等人,2024年)。现有的叶绿素-a和HAB预测研究可以根据其方法论进行分类。统计模型和ML模型仍然占主导地位,利用环境和卫星数据;例如,神经网络已被用于全球范围内从海洋颜色带估计叶绿素-a浓度(Kolluru和Tiwari,2022年),而基于树的模型(如LightGBM)——通常结合特征选择——在区域性能上有所改进(Kim和Ahn,2022年)。这些模型家族因其处理非线性关系、高维特征空间和异构环境数据的能力而被广泛采用。支持向量回归(SVR)提供了灵活的非线性回归,在小型到中型数据集中表现相对较强,而梯度提升框架(如LightGBM)在处理复杂表格数据时计算效率高且有效。循环神经网络(包括LSTM和GRU架构)特别适合短期HAB预测,因为它们能够模拟序列观测中的时间依赖性。因此,基于LSTM和GRU的DL方法已广泛应用于多种水生系统的短期叶绿素-a和HAB预测(Al-Wardy等人,2025年;Cheng等人,2025年;Jeung等人,2025年;Kim等人,2025年;Ma等人,2025年;Mungenge等人,2023年;Museru等人,2024年;Museru等人,2025年;Shahvaran等人,2025年;Xu等人,2025年;Xu等人,2025年)。尽管这些模型在实证上取得了成功,但它们存在重要局限性。SVR和基于树的模型主要学习静态输入-输出关联,并且对虚假相关性敏感,特别是在非平稳环境条件下。从集成方法得出的特征重要性度量本质上是相关性的,并不意味着因果影响。同样,LSTM和GRU模型在捕捉时间模式方面表现出色,但数据密集、难以解释,并且容易编码可能在气候变化或人为强迫下不具普遍性的历史相关性。关键的是,这些方法都没有明确编码因果结构或估计因果效应,限制了它们支持机制性解释或基于干预的预测的能力。最近的可解释人工智能(XAI)研究——例如将SHAP应用于HAB预测模型(如Demiray等人,2025年;Lee等人,2022年;Lee和Jeon,2025年;Mermer等人,2025年;Museru等人,2024年)——通过量化特征贡献提高了透明度。然而,这些方法主要是事后分析,并未将因果推理纳入模型构建。混合方法将基于过程的模型与ML结合,例如将水动力模拟(EFDC)与LSTM结合用于湖泊藻华预测(Meng等人,2025年),或将时空和气象特征与基于树的模型结合以提高准确性(Al-Wardy等人,2025年;Cen等人,2024年;Ding和Li,2024年;Li等人,2024年;Zarbipour等人,2026年)。尽管如此,这些框架仍然缺乏明确的因果整合,限制了它们将预测性能与对HAB动态的机制性洞察相结合的能力。环境科学中新兴的因果和可解释方法包括使用收敛交叉映射识别河流藻华动态中的主导驱动因素(如温度),然后使用基于相关性的预测模型(如随机森林,Tian等人,2024年),以及对光谱带对水质变量影响的因果分析(Ding等人,2020年)。其他工作还包括实证回归和混合方案(Li等人,2024年)。虽然在其他应用领域积极开发了基于因果关系的学习框架(如用于时间序列插补的双向元学习(Zhu和Zhao,2025年)和非平稳系统的因果强化学习(Yang等人,2023年),但其方法论范式尚未系统地应用于基于卫星的HAB或叶绿素-a估计工作流程中。现有的HAB相关研究通常以探索性或诊断性方式使用因果工具,而不是直接将因果发现和因果效应估计整合到预测模型构建中。因此,端到端的因果信息机器学习框架的发展仍然有限,限制了同时实现高预测准确性和HAB动态机制性解释的能力。有关HAB在环境建模中的更全面回顾,请参见补充部分S1。
本研究提出了一种新颖的框架,将因果机器学习与深度学习相结合,以改进波斯湾叶绿素-a的估计,作为HAB强度的代理指标。它采用深度端到端因果推断(DECI;Geffner等人,2022年)和双重机器学习(DML;Chernozhukov等人,2018年)来揭示环境因素之间的因果关系,并将这些整合到带有单调约束的因果信息神经网络(CINN)中,以提高鲁棒性和解释性,并利用来自MODIS/Terra、ERA5和HYCOM的多源卫星数据(共31个变量)将预测结果与可操作的干预措施联系起来。主要创新点包括结合因果推断来估计平均处理效应(ATEs)和中介路径,加入特定领域的单调性以施加现实约束,并支持针对HAB的策略模拟,从而超越了相关方法,为气候变化下的海洋生态系统管理提供机制性见解。论文结构如下:第2节详细介绍了方法论,包括数据预处理和CINN设计;第3节展示了因果图、模型性能和模拟结果;第4节总结了结论和未来方向。
方法论
该方法论结合了因果发现(DECI)来推断环境关系,效应估计(ATEs)进行量化,以及深度学习(CINN)进行预测,并加入单调约束以符合生态学要求。该流程处理多源数据,嵌入因果先验,并通过指标和模拟进行评估,将相关ML与机制性洞察相结合。本研究介绍了一种使用混合CINN模型预测叶绿素-a浓度的创新方法。
因果图、边效应和效应估计
通过DECI框架推断出的有向无环图(DAG)阐明了影响叶绿素-a浓度的海洋学和大气变量之间的因果关系,如图2所示,时间分辨率为每天,空间尺度从4公里(光学属性)到0.25° – 0.5°(气象因素)。有向边表示因果影响,权重由ATE表示,假设没有混杂因素;正ATE表示
结论
本研究提出了一个基于因果信息的深度学习框架,用于预测波斯湾叶绿素-a浓度作为HABs的代理指标,该框架结合了DECI和通过MCINN增强的CINN。利用来自MODIS/Terra、ERA5和HYCOM的多源卫星数据(共31个环境变量),该方法不仅实现了优于基线方法(如XGBoost和随机森林)的预测性能(MCINN:R2=0.926,RMSE=0.149 mg/m3),还揭示了机制性见解,例如
未引用参考文献
Feary等人,2011年;Ma等人,2025年;Wang等人,2023年;Xu等人,2025年;Zarbipour等人,2026年
CRediT作者贡献声明
普亚·扎尔比普尔(Pouya Zarbipour):撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据管理。穆罕默德·雷扎·尼库(Mohammad Reza Nikoo):撰写——审稿与编辑、验证、监督、方法论、调查、形式分析、概念化。哈桑·阿克巴里(Hassan Akbari):撰写——审稿与编辑、可视化、验证、监督、方法论、数据管理、概念化。鲁兹贝赫·纳扎里(Rouzbeh Nazari):撰写——审稿与编辑、可视化、验证、资源管理
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。