基于机器学习的叶绿素a和藻类密度预测及可解释性分析：利用高频水质数据王伟（Wei Wang），胡兴路（Xinglu Hu），孟宏志（Hongzhi Meng），刘传坤（Chuankun Liu），王洋（Yang Wang），焦彤（Tong Jiao），常沁鑫（Qixin Chang）赖波（Bo Lai）

《Diversity》：Machine Learning-Based Prediction and Interpretability Analysis of Chlorophyll-a and Algal Density Using High-Frequency Water Quality Data Wei Wang, Xinglu Hu, Hongzhi Meng, Chuankun Liu, Yang Wang, Tong Jiao, Qixin Chang and Bo Lai

【字体：大中小】 时间：2026年05月10日 来源：Diversity 2.1

编辑推荐：

　　摘要：在人类影响的淡水生态系统中，藻类的快速增殖需要先进的预测工具来进行有效管理。本研究旨在利用高频监测和可解释的机器学习方法，捕捉中国伏溪河中藻类暴发的随机动态。研究使用了2小时间隔的数据集，在Python中构建随机森林模型，以预测叶绿素-a（Chl-a）和藻类密度，这两种参数

　　摘要：在人类影响的淡水生态系统中，藻类的快速增殖需要先进的预测工具来进行有效管理。本研究旨在利用高频监测和可解释的机器学习方法，捕捉中国伏溪河中藻类暴发的随机动态。研究使用了2小时间隔的数据集，在Python中构建随机森林模型，以预测叶绿素-a（Chl-a）和藻类密度，这两种参数都是通过原位多波长荧光测量获得的。通过SHAP（Shapley加性解释）分析，实现了模型的可解释性，以识别非线性环境因素和生态阈值。模型展现出较高的预测准确性。SHAP分析表明，溶解氧（>10 mg/L）是预测Chl-a峰值的主要指标，而15–20 °C是最适宜的藻类增殖温度范围。对于藻类密度，化学需氧量（CODCr > 25 mg/L）和电导率（>1000 μS/cm）被确定为关键临界点，显示出有机富集与营养物质水平之间的显著协同效应。本研究强调，管理有机负荷和监测特定的温度-水化学窗口对于缓解极端藻类事件至关重要，为实时水质预警提供了框架。

1. 引言
位于人类主导景观中的淡水生态系统日益受到多种人为压力的影响，其中加速的富营养化和随后的藻类增殖是对水生生物多样性和生态系统服务最普遍的威胁[1,2]。正如Sung等人[1]和Faghihinia等人[2]所强调的，淡水生物多样性的下降速度甚至超过了陆地和海洋系统，主要是由于栖息地退化和营养物质富集[1,2]。浮游植物生物量的快速扩张不仅破坏了水生食物网的微妙平衡，还导致藻类系统中的严重缺氧以及蓝藻产生的氰毒素释放[3]。Paerl等人[4]的最新全球评估表明，由于农业径流和气候变化的协同效应，过去几十年来淡水中的藻类暴发起伏率显著增加。在如四川盆地这样的亚热带地区，像伏溪河这样的河流——一个人口密度高且农业活动密集的关键支流——频繁发生藻类暴发。理解这些事件的根本驱动因素对于有效生态恢复和保护这些高度受干扰的栖息地中的淡水多样性至关重要[5]。

尽管藻类暴发的短暂性和随机性具有重要的生态意义，但捕捉这些特性仍然具有挑战性。传统的监测项目通常依赖于每月或每两周一次的离散采样，往往无法捕捉到由气象和水文条件波动引起的藻类生长的高频时间和短期“脉冲”[6,7]。Kirchner[8]指出，低频采样常常“破坏”了我们对水质的理解，因为它们错过了定义河流化学特性的精细时间模式。离散采样甚至可能忽略高达90%的瞬态水质波动，从而导致对营养负荷和生物反应的估计偏差[9]。最近出现的自动化水质监测站为高分辨率观测这些过程（例如，2小时间隔）提供了前所未有的机会。然而，这些高频数据集表现出显著的非线性、异方差性和复杂的多共线性，给传统统计方法带来了严重障碍[10]。

历史上，基于过程的机械模型是水质模拟的基石。虽然这些模型提供了有关生物地球化学途径的宝贵见解，但它们通常需要大量的参数化，并且在人类影响严重的河流中难以保持预测准确性，因为边界条件经常发生变化[11,12]。然而，机器学习算法，特别是像随机森林（RF）这样的集成方法[13]，在处理高维、非线性环境数据方面表现出了卓越的性能。通过绕过对显式物理方程的需求，机器学习模型能够识别大规模数据集中的微妙模式，这些模式是传统基于过程的方法无法获得的[14]。Tyralis等人[15]的最新研究成功地将RF应用于环境预测，在鲁棒性泛化方面通常优于传统的回归技术。

然而，在将机器学习应用于水生生态学时仍存在一个关键限制：这些模型的“黑箱”性质。尽管模型可以实现高预测准确性，但其内部决策逻辑往往不透明，阻碍了我们从中获得有机制生态洞察的能力[16]。这种缺乏透明度可能导致环境管理决策中的“信任危机”。迫切需要“可解释AI”（XAI）框架，例如Lundberg和Lee[17]开发的Shapley加性解释（SHAP），它可以通过将模型输出分解为各个特征的贡献来弥合预测能力和生态透明度之间的差距[18]。具体来说，关于环境因素在不同季节中的转变以及城市化河流系统中藻类增殖的关键阈值效应的研究仍然很少。

为了解决这些问题，本研究利用了2024年11月至2025年10月期间伏溪河的全面高频数据集，以实现三个主要目标：（1）构建一个稳健的RF模型，精确预测叶绿素a（Chl-a）和总藻类密度等生态变量；（2）实施SHAP框架，量化各个物理化学变量的贡献；（3）阐明关键驱动因素（如水温（WT）和溶解氧浓度（DO）的季节性变化和非线性阈值效应。通过将高频监测与可解释的机器学习方法相结合，本研究旨在为人类影响的淡水栖息地中的藻类风险提供科学的管理框架。

2. 材料与方法
2.1. 研究区域和数据采集
本研究在中国四川省自贡市的沱江支流伏溪河进行（图1）。该地区具有典型的亚热带湿润季风气候，并受到强烈的人类活动和农业活动的影响。为了捕捉藻类增殖的精细时间动态，在太原泾自动化水质监测站收集了高频水质数据。该监测站的位置策略性地反映了人为营养负荷和水文波动对河流生态系统的综合影响。

2.2. 物理化学指标和特征描述
使用校准的现场传感器和自动化分析模块监测了一整套水质参数（表1）。自动化监测站的进水口位于水面下0.5米处，符合中国环境监测机构规定的采样深度要求。具体来说，物理参数包括水温（WT）、pH值、溶解氧（DO）、电导率以及氨氮（NH3-N）和总磷（TP），均采用ZTE仪器（深圳）有限公司（中国深圳）开发的自动化分析模块和传感器进行测量。化学变量，包括化学需氧量（高锰酸钾指数）（CODMn），使用北京SDL科技有限公司（北京）的MODEL9811分析仪进行监测，而化学需氧量（重铬酸盐指数）（CODCr）则通过集成自动化模块测量。通过平行的手动采样活动对浮游植物群落的分类组成进行了表征。研究期间收集的水样显微镜鉴定显示，该群落由多种类群组成，包括蓝藻、硅藻、绿藻、甲藻和金藻。虽然自动化荧光传感器可以高频率地捕捉总藻类密度，但这些手动观察结果证实，该群落主要由蓝藻和硅藻主导，它们平均占总丰度超过75%（图S1）。这种分类多样性为观察到的总藻类密度和Chl-a浓度的变化提供了生物学背景。

生物响应变量，包括Chl-a浓度和藻类密度，使用集成在自动化站中的多波长荧光传感器进行原位监测（ZTE仪器，中国）。该传感器基于选择性色素激发的原理工作；它利用特定的发光二极管（LED）激发叶绿素-a和辅助色素（如藻蓝蛋白和藻红蛋白）的荧光。然后，传感器的内部算法根据各种浮游植物组的独特荧光激发光谱区分并量化它们的细胞密度。为了确保数据可靠性，传感器读数定期与实验室显微镜计数进行交叉验证。

2.3. 数据预处理和质量控制
高频自动化监测经常产生受传感器噪声、传输中断和偶尔的仪器故障影响的数据集。为了确保机器学习模型的稳健性和可靠性，实施了严格的数据处理协议。为了确保数据清洗过程的客观性和最小化主观偏差，实施了三步自动化质量控制协议。首先，应用了范围检查来排除超出传感器物理限制的数值（例如，负浓度或超过最大检测限的数值）。其次，使用了变化率过滤器来识别“峰值”——即在2小时窗口内超出生物学或物理上合理最大变化的突然波动。例如，pH值突然增加超过2.0或在两小时内藻类密度增加10倍的情况被标记为潜在的传感器干扰，而不是真实事件。第三，对于由于常规维护停机或传输故障导致的缺失值，使用了线性插值来处理短时间间隔，以保持数据的连续性。具体来说，持续时间最长的为6小时的短暂间隔（即，在2小时采样间隔内连续缺失最多3个数据点）通过线性插值进行替换。超过此时间的间隔被排除在分析之外，以防止引入显著的插值伪影。总的来说，无效数据点和缺失值大约占了原始数据集的4.2%。经过严格的数据清洗和质量控制程序后，最终保留了4587个有效的高频数据点用于模型开发。

2.4. 机器学习模型的开发与优化
在本研究中，采用了随机森林回归（RFR）算法来模拟环境驱动因素与藻类生物量指标（Chl-a和藻类密度）之间的复杂关系。作为一种基于装袋法的集成学习技术，RFR在训练过程中构建多棵决策树，并输出各个树的平均预测值，从而有效减少方差并提高模型对高频数据集中噪声的鲁棒性。本研究中的所有机器学习模型都是使用Python编程语言（版本3.10）开发和实现的。具体而言，使用了scikit-learn库进行数据预处理、模型训练（例如随机森林）和性能评估。
为了评估模型的预测性能和泛化能力，预处理后的数据集被随机划分为训练集（80%）和测试集（20%），通过随机洗牌程序进行划分。这种划分确保了两个集合涵盖了年度周期内观察到的各种水化学条件的代表性范围。
为了防止过拟合（在处理高度相关的环境特征时这是一个常见风险），进行了模型优化。通过系统搜索进行超参数调整，主要关注于限制模型的复杂性。具体来说，树木的最大深度（max_depth）被限制为8，叶子节点所需的最小样本数（min_samples_leaf）进行了调整，以确保每个终端节点代表数据的统计显著子集。估计器的数量（树木）设置为100，以平衡计算效率和稳定的误差收敛。使用决定系数（R2）和均方误差（MSE）来量化训练和测试过程中的预测准确性。
通过两个不同但互补的视角评估了机器学习模型对输入环境变量的敏感性。首先，我们使用了经典的随机森林特征重要性分析，通过计算纯度降低均值（Gini重要性）来量化每个参数对整体模型准确性的贡献。其次，为了提供更细致的解释，我们进行了SHAP分析。前者提供了一个与现有机器学习实践一致的整体变量重要性排名，而后者揭示了每个驱动因素的非线性阈值和方向性影响，共同提供了抚溪河藻类动态的全面敏感性轮廓。

2.5. 模型可解释性和特征归因框架
为了克服RFR模型的“黑箱”限制并提取具有生态意义的见解，实施了一个多层次的可解释性框架。最初，使用Gini重要性（或纯度降低均值）指标评估了全局特征的重要性。虽然这提供了预测因子贡献的基线排名，但它无法揭示关系的方向性或非线性。通过Python（版本3.10）中的scikit-learn库进行了Gini指数评估和部分依赖性分析（PDA）的实施。此外，还使用SHAP Python包进行了SHAP分析，以量化和可视化每个环境变量对模型预测的贡献。
为了解决这些限制，进行了PDA分析。生成了部分依赖图（PDPs），以在忽略其他变量影响的情况下可视化个别物理化学因素对预测藻类生物量的边际效应。这种方法使我们能够识别目标变量与核心驱动因素（如WT或磷水平）之间的特定响应曲线和非线性（例如单峰或S形模式）。
最后，基于联盟博弈论的SHAP方法被用来提供一个统一且严谨的特征重要性度量。计算了SHAP值，以量化每个特征对个别预测的精确贡献，有效地分解了实际预测与平均预测之间的差异。这项分析重点关注：（1）评估在高浓度期间的环境特征影响（例如，峰值开花事件）；（2）比较不同季节（春季与夏季）的特征归因轮廓，以识别季节性异质性；（3）识别特征边际贡献从正转为负的关键阈值效应。
为了从模型捕获的复杂相互作用中进一步提炼出全局趋势，将部分依赖图（PDPs）与SHAP分析结合起来。虽然SHAP值展示了每个特征对每个单独观测值的贡献，但PDP曲线代表了给定预测因子对预测叶绿素a或藻类密度的平均边际效应，有效地突出了最可能的功能关系。

3. 结果
3.1. 模型性能和预测准确性
使用测试数据集严格评估了RFR模型对Chl-a和藻类密度的预测性能。这些模型在整个高频观测的年度周期内表现出出色的鲁棒性和高拟合准确性（表2）。对于Chl-a，RFR模型在测试集上达到了0.926的R2值和0.00043的MSE。藻类密度模型获得了0.903的R2值，表明集成学习框架成功捕捉了生物对河流环境压力响应中内在的复杂非线性动态。

3.2. 关键驱动因素的识别
从RF训练过程中的Gini杂质减少得出的全局特征重要性提供了抚溪河藻类动态的环境驱动因素的初步排名（图5）。对于Chl-a的预测，DO和WT作为主要解释变量，其重要性得分分别为0.42和0.36。这强调了代谢率和温度条件在调节浮游植物生产力中的主要作用。其他物理化学因素，包括pH值和浊度，显示出较低的全局重要性，表明它们在这个以人类活动为主的河流系统中起辅助作用。
相比之下，藻类密度的全局重要性排名显示了有机污染指标作为主要驱动因素的趋势。CODCr是最显著的预测因子（0.20），其次是CODMn（0.17）。这种差异表明，虽然Chl-a对快速的生理和物理环境变化（如氧化和温度升高）非常敏感，但总体藻类种群更根本地受到水柱中有机负荷和营养物可用性的制约。
进行了SHAP分析，以分解不同浓度范围内每个特征对预测结果的贡献（图6）。SHAP总结图确认了DO和WT在峰值浓度事件期间对Chl-a预测的持续强烈正面影响（图7）。对于藻类密度，CODCr和CODMn在大部分观测期间与SHAP值呈正相关，证实了高浓度的有机物是抚溪河中维持高藻类密度的前提条件。
使用PDA方法可视化了物理化学因素对Chl-a和藻类密度的边际效应，以识别关键的非线性。Chl-a、DO、温度和电导率成为主要驱动因素（图8）。DO的PDP结果显示出明显的非线性增长趋势；当DO浓度低于8 mg/L时，Chl-a保持较低水平，而一旦浓度超过8.74 mg/L阈值，就会出现正反馈机制。水温表现出季节性阈值效应，Chl-a在14.3 °C到21.5 °C之间呈指数增长，随后进入高 Platform 平台，表明21.5 °C以上是高风险的开花窗口。相反，电导率显示出负相关，随着离子强度的增加，Chl-a浓度呈阶梯式下降，表明有抑制作用或稀释效应。

3.3. 高浓度藻类事件中的特征依赖性（前25%分位数）
为了进一步阐明驱动藻类突然增殖的机制，对两个目标变量的前25%高浓度观测进行了子样本分析（图9）。这种方法允许直接比较基线环境影响和触发峰值开花事件的具体驱动因素。在这些高值区域的Chl-a浓度中，DO和WT的重要性更加明显，基于SHAP的重要性得分分别上升至0.44和0.33。这一结果表明，在生物量峰值期间，抚溪河生态系统对代谢氧化和温度触发因素变得高度敏感，强调了这两个因素是快速藻类生长的主要催化剂。
对于其前25%浓度范围内的藻类密度，也观察到了类似的趋势（图9）。有机污染指标仍然是主要驱动因素，CODCr和CODMn的SHAP重要性得分分别为0.20和0.18。与全局模型相比，CODMn贡献的轻微增加突显了易氧化有机物在支持开花高峰期间高密度藻类种群中的关键作用。这些发现表明，尽管总体环境结构保持一致，但在极端增殖事件期间，代谢和营养驱动的响应强度显著增强。分析这些高值依赖性为理解城市化河流系统中藻类风险的“临界点”提供了更精细的科学基础。

3.4. 环境驱动因素的季节性动态对藻类密度预测的影响
季节性SHAP分析的整合揭示了不同气候阶段下环境因素贡献的深刻动态演变。对于叶绿素a的预测（表3），主要预测因子随季节的变化而显著不同：在冬季，溶解氧（DO）成为最关键的因素；而在春季过渡期，水温（WT）成为主要驱动因素。同样地，对于藻类密度（表4），一个显著的观察结果是水温的重要性及其方向性影响随季节的变化。在春季过渡期间，随着温度从冬季 baseline 上升，水温的SHAP值呈现持续的正向趋势，表明热环境是促使藻类休眠种群重新激活并促进初始生物量积累的主要因素。然而，这种关系在夏季发生了显著变化；当温度达到季节性高点时，SHAP值的范围变宽，并且经常降至负值。这表明涪江河中的夏季温度可能超过了某些浮游植物的最佳温度范围，导致热应激，并对预测的藻类密度产生负面影响。

表3. 使用季节性SHAP分析得出的叶绿素a的特征重要性结果。
表4. 使用季节性SHAP分析得出的藻类密度的特征重要性结果。

此外，溶解氧的季节性影响表现出复杂的阈值依赖性行为（图10）。SHAP分析确定了溶解氧从负面影响转变为正面影响的特定区间。在典型的停滞期（低浓度场景下），溶解氧的SHAP值主要为负值，而在中等到高浓度水平下，溶解氧对藻类密度预测有显著的正面贡献。这些阈值显示出微妙的季节性变化，可能是由于不同温度下氧气溶解度的不同所致。

图10. 不同季节中用于预测叶绿素a和藻类密度的输入参数重要性的雷达图。

最后，不同季节观察到的重要性范围的变化强调了涪江河生态系统敏感性的变化。与冬季相比，春季SHAP值分布更广的特征反映了在活跃生长季节中这些特征的影响程度更大。这些结果表明，藻类繁殖的驱动因素不是静态的，而是存在于一个由季节性气候模式根本塑造的动态热力学和生物地球化学反馈循环中。这种高分辨率的季节性洞察对于制定适应性强的、特定时间的管理策略以控制受人影响的河流环境中的藻类生长至关重要。

4. 讨论
4.1. 物理和化学驱动因素对叶绿素a和藻类密度的不同机制
机器学习框架揭示了涪江河中叶绿素a与环境驱动因素之间的明显差异[24]。虽然叶绿素a对物理代谢驱动因素（特别是溶解氧和水温）表现出高度敏感性，但藻类密度主要受有机污染指标（如化学需氧量(CODCr)和化学需氧量(CODMn)[25]的约束。这种差异可以归因于这两个指标所代表的不同生物尺度[26]。叶绿素a作为浮游植物群落瞬时生理和光合作用状态的代理[24]。由于水温直接影响酶动力学和代谢速率，因此它成为色素合成的主要“节拍器”[27]。同样，溶解氧在对叶绿素a预测中的高重要性（全局为0.42，在高浓度事件中为0.44）反映了氧气生产与活跃光合作用之间的紧密代谢耦合[28]。在这种情况下，溶解氧作为一个实时代谢代理，能够即时响应藻类生长的生理脉冲[25]。

相比之下，藻类密度代表的是种群的累积存量或总细胞计数，这受到生态系统更广泛资源基础和承载能力的控制[24]。在以人类活动为主的自贡地区，高有机负荷（以CODCr和CODMn为特征）为大规模细胞增殖提供了关键的碳和营养来源。藻类密度模型中CODCr（0.20）和CODMn（0.17）的主导地位表明，虽然物理因素可能触发生长速率，但藻类盛开的程度主要受到可氧化有机物总量和相关营养物质的限制[29]。这证实了有机污染指标不仅是水质差的代理指标，还是城市化河段中持续高密度藻类种群形成的活跃贡献者[30]。即使在高浓度事件（前25%分位数）中，这种主导地位仍然存在，强调了减轻有机污染是控制藻类细胞计数的最关键手段，而温度和氧气管理对于预测藻类生长的快速发生和生理强度更为相关[30]。

4.2. 限制因素的季节性变化：从热触发因素到营养限制
基于SHAP的季节性分析强调了涪江河中全年循环中限制藻类生长的限制因素的根本转变。在春季，主要限制因素是热力学的[31]。这一时期水温的SHAP值持续呈正向趋势，表明热能是藻类爆发开始的决定性触发因素[27]。此时，由于冬季的积累和早春的径流，营养物质的可利用性（以总磷(TP)和化学需氧量(COD)表示）通常保持在较高水平，意味着生态系统已经为生长“做好准备”，只需温度超过代谢激活阈值[32]。然而，在夏季，限制因素发生了显著调整[31]。尽管温度仍然是一个重要因素，但其边际贡献变得高度波动，在某些情况下甚至具有抑制作用[27]。这种转变表明，一旦超过最佳温度范围，营养物质和有机物的供应（例如NH3-N、TP和COD）成为决定藻类爆发峰值的主要调节因素[28]。夏季高温加速了营养物质的循环和需求，尽管整体负荷很高[32]。SHAP分析显示，这一时期有机指标的重要性范围变得更广，证实了在温暖、光照充足的环境中，河流支持极端藻类密度的能力主要由其人为有机负担决定。

此外，溶解氧的阈值效应反映了生物活动与物理环境之间的季节性反馈循环[25]。溶解氧从低浓度时的负贡献转变为高浓度时的正面贡献，反映了从缺氧限制的代谢向高生物量光合作用的转变[28]。这些阈值的季节性变化意味着涪江河的“生态临界点”不是固定值，而是受周围气候调节的。从管理角度来看，这些发现表明，虽然温度是春季藻类爆发的主要预测因子，但长期预防夏季峰值需要一个全年的策略，重点减少冬季和春季的有机物质和营养物质累积，从而有效降低生态系统的夏季承载能力。

最后，溶解氧(DO)与pH值(r = 0.85)之间存在显著的关联，低pH值通常同时出现（图S2）。这些时期的特点是高浊度和营养物浓度以及低藻类生物量，表明溶解氧和pH值的偶尔下降是由有机物分解和高浊度输入引起的，而不是夜间藻类呼吸作用。这些同步波动的可靠性得到了四川省环境监测中心数据验证协议的支持，确保用于建模的“有效数据”反映了实际的水质动态。

4.3. 对水环境管理和早期预警系统的影响
识别关键环境驱动因素及其非线性阈值效应为涪江河从反应性管理向 proactive 管理的转变提供了科学基础。传统管理策略通常依赖于固定的水质标准，未能考虑到藻类繁殖的动态和季节性“风险窗口”[33]。通过利用2小时高频监测数据和RF-SHAP框架[34]，可以建立更响应迅速、更精确的早期预警系统。具体来说，识别的溶解氧和水温的阈值可以作为预测高浓度叶绿素a事件发生的实时指标。当水温在早春进入激活温度范围，溶解氧开始快速正向变化时，管理者可以采取预防措施，如加强生态流量调节或针对性降低营养物质，以中断藻类爆发的形成阶段。

此外，有机指标（CODCr和CODMn）对藻类密度的高重要性强调了采取针对性修复方法的必要性[29]。虽然物理驱动因素可以预测风险的时间，但有机负荷决定了生态影响的严重程度[35]。因此，在像自贡这样的人为活动主导的景观中，长期恢复工作必须优先减少人为有机输入。SHAP分析特别识别出CODCr（0.20）和CODMn（0.18）敏感性最大的前25%高浓度情景。这种精确性使得能够识别出营养管理中的“关键时刻”和“热点”，确保资源分配到生态系统最容易受到资源驱动的增殖影响的时期。

总之，将可解释的机器学习与高时间分辨率监测相结合，提供了一个强大的决策支持工具。通过超越静态监测，转向基于阈值的动态风险评估，水资源管理者可以更好地保护淡水生物多样性和生态健康。这种方法不仅为涪江河提供了技术解决方案，也为全球面临类似富营养化挑战的其他城市河流系统提供了一个可复制的模型。实施这样的数据驱动框架是实现人为影响下的水域生态恢复的关键步骤。

4.4. DO–COD双控框架的普遍性和情境依赖性
发现COD控制藻类密度而溶解氧和水温驱动叶绿素a的现象提出了一个关键问题：这种模式是否仅限于涪江河？最近的证据综合表明，这种双控框架并非普遍适用，而是具有很强的情境依赖性，最适用于高有机负荷的富营养化、受人类影响的水体。首先，叶绿素a与藻类密度的不同环境敏感性已在多个系统中得到记录。一项针对中国57个湖泊和水库的全国范围的研究显示，叶绿素a和藻类细胞密度(ACD)由不同的环境因素驱动，提醒我们不能盲目将叶绿素a作为ACD的代理[24]。在浑浊的河口环境中，高悬浮颗粒物(SPM)条件下的光适应导致细胞叶绿素a含量升高，从而导致细胞密度与叶绿素a浓度之间的脱节[36]。在一个地中海富营养化水库（意大利的Bidighinzu湖）中，多年来的营养物质减少导致总浮游植物细胞密度增加，但平均细胞体积减少，进一步证明了种群水平指标（密度）和生理指标（叶绿素a）对环境变化的响应不同[37]。这些跨系统的观察支持了我们的观点，即藻类密度更能反映生态系统的资源和承载能力，而不仅仅是光合作用的代理。

其次，关于COD（有机污染）在控制藻类增殖中的主导地位，多项证据表明这一模式在城市化程度高、人类影响强的流域尤为明显。在中国巢湖流域，城市河流的CODMn（6.30 mg/L）和叶绿素a（54.88 μg/L）显著高于森林河流（分别为4.02 mg/L和7.18 μg/L），城市污染物被认为是富营养化的主要来源[38]。在长河系统（北京），CODMn为5.98 mg/L，导致富营养化的主因包括营养物质盐类和有机物的污染[39]。进一步的证据来自滇池，其中有机污染相关指标（COD、CODMn和5天后的生化需氧量）以及总磷(TP)被确定为大多数地点藻类生物量的主要预测因子，尽管总磷在整个湖泊中起主导作用[29]。同样，在滇池和宜龙等富营养化的高原湖泊中，蓝细菌及其代谢产物的高密度被认为是持续高COD水平的主要驱动因素[40]。在宜龙湖中，微生物群落相互作用在蓝细菌主导的有害藻类爆发期间影响了水生有机物的动态[40]，而湖泊的富营养化状态和相关有机背景反映了人为有机输入的持续性[41]。在滇池，已经建立了COD-Cr与叶绿素a之间的显著正相关关系，藻类代谢产生的含氮和含糖有机物质直接促进了COD-Cr的增加；此外，当藻类细胞进入衰退阶段时，分解过程中释放的内部有机物质导致COD-Cr的显著增加，而沉积物（主要由水生植物和浮游生物产生的有机物质组成）表明有机污染物有可能从死亡的藻类细胞释放到水中[42]。此外，研究表明蓝藻水华的分解通过影响营养物质的迁移和转化，增加了水体和沉积物中的有机物质含量，从而促进了蓝藻水华的发展[43]。这些发现共同支持了一种双向耦合机制：有机污染维持了高密度的藻类细胞，而高密度的藻类细胞又通过自身生产和水华后的分解导致了化学需氧量（COD）的增加——这种正反馈循环在城市化程度高、人类影响显著且水文交换受限的水生系统中尤为明显。然而，COD作为主要指标的普遍适用性并不保证。在陆地有机物输入量大、水流速度慢、营养物质背景浓度高的城市河流系统中，有机指标（COD）的重要性更为突出。而在营养物质较少或光照或水文扰动成为主要限制因素的系统中，COD对藻类密度的相对贡献会降低。例如，有研究表明，虽然引水和水文调节可以改变营养物质的动态[41]，但藻类增殖的实际控制仍然高度依赖于特定的水文、化学和人为条件[42]。此外，尽管COD对于维持高藻类细胞数量至关重要，但文献中普遍认为，水温和溶解氧等物理因素才是引发藻类生理活动（如叶绿素a含量）快速增加的主要诱因[44]。

总之，我们的核心发现是：减轻有机污染对于控制藻类细胞数量至关重要。这一结论最适用于受人类影响较大、水流缓慢且外部有机负荷较高的淡水系统，其中抚溪河就是一个典型的例子。通过将我们的发现置于这一具体背景下进行阐释，我们认同这样一个观点，即藻类水华的关键驱动因素并非普遍不变的常数，而是高度依赖于特定系统的水文、化学和人为条件。

5. 结论

本研究展示了将2小时高频水质监测数据与可解释的机器学习框架（RF-SHAP）相结合的有效性，以揭示受人类影响的抚溪河中藻类增殖的复杂驱动因素。RF模型表现出出色的预测性能，对叶绿素a和总藻类密度的拟合精度都非常高。通过捕捉常规监测方法通常忽略的瞬态生物脉冲和细粒度时间结构，这种高分辨率方法为水生生态评估提供了更坚实的科学依据。使用SHAP分析量化了物理代谢驱动因素（水温、溶解氧）在触发生理脉冲方面的作用，以及有机污染指标（CODCr和CODMn）在维持生物量方面的作用。研究中还发现了季节性变化——从春季的热激活转变为夏季的营养物质/有机限制和热应力——以及氧饱和度的特定阈值效应，强调了藻类对环境压力响应的非线性特征。未来的研究应着眼于通过跨多个流域的多站点验证来提升该框架的空间可扩展性，以检验所识别阈值的普适性。此外，将集成方法与先进的深度学习架构（如长短期记忆网络LSTM）进行比较，可以进一步改进高频数据集中的长期时间依赖关系的建模。将这些可解释的数据驱动工具整合到实时水资源管理系统中，将对保护淡水生物多样性和修复人为影响的水生生态系统发挥重要作用。

补充材料

以下支持信息可在此下载：
https://www.mdpi.com/article/10.3390/d18050282/s1
图S1：2024年11月至2025年10月的月平均浮游植物群落组成；
图S2：溶解氧（DO）与pH值之间的相关性（r = 0.85）。

热点排行