《Journal of Hazardous Materials Advances》:Machine learning and remote sensing-based hierarchical framework for assessing non-optically observable riverine water quality parameters
编辑推荐:
本文针对非光学可观测水质参数(NOOCs)难以通过光学遥感直接反演的问题,报道了研究人员集成Sentinel-2卫星影像、机器学习算法与再分析气象数据,提出了一个分层框架用于评估溶解氧(DO)、生化需氧量(BOD)、pH、钙(Ca2+)、硫酸根(SO42-)、氯离子(Cl-)、电导率(EC)和粪大肠菌等关键参数。研究结果表明,基于纯遥感和再分析数据驱动的模型性能可媲美甚至超越包含地面测量的模型,为解决数据稀缺和受城市影响的河流系统水质监测提供了可复制、可扩展的新方案。
如何精准、高效地评估大河的水质,是全球水环境管理面临的长期挑战。传统方法依赖于地面采样和实验室分析,过程繁琐、耗时耗力,且难以实现大范围的时空连续监测。而光学遥感技术,凭借其覆盖广、重访周期短的优点,已成为监测水体中诸如悬浮物、叶绿素等光学敏感参数的有力工具。然而,像溶解氧、电导率、多种离子浓度、pH值等对水生生态系统健康至关重要的参数,它们本身并不直接影响水体对光的反射特性,被称为“非光学可观测组分(NOOCs)”,这使得它们无法被卫星光学传感器直接“看见”。在像恒河这样人口密集、工业发达、城市废水影响显著的大型动态河流系统中,对这些NOOCs的实时、准确评估需求尤为迫切,但相关技术仍处于探索阶段,是当前水遥感领域的研究难点。
为了回答“仅依靠遥感数据结合数据驱动模型,能否可靠地估算大型城市影响河流系统中的关键NOOCs?”这一核心问题,Kunwar Abhishek Singh, Dongryeol Ryu, Meenakshi Arora, Manoj Kumar Tiwari, Bhabagrahi Sahoo等研究人员在《Journal of Hazardous Materials Advances》上发表了他们的研究成果。他们以印度恒河下游(胡格利河)受城市废水影响的未充分监测河段为典型案例,开发并评估了一个集成机器学习和遥感技术的分层框架。该研究旨在评估仅利用卫星和再分析数据预测NOOCs的有效性,系统比较不同数据可用性场景下的模型表现,并利用可解释性分析量化预测变量的影响。
研究人员开展这项研究主要采用了以下几个关键技术方法:首先,为处理Sentinel-2影像中的云和云阴影干扰,他们应用了高斯混合模型(Gaussian Mixture Model, GMM)来精确掩膜受污染像元,并采用空间聚合方法增强光谱数据的代表性和可靠性。其次,他们系统构建了四种不同数据可用性的输入场景,从仅地面测量、仅Sentinel-2数据,到地面与卫星数据结合,再到完全基于遥感和再分析数据(Sentinel-2波段与光谱指数、遥感反演的总悬浮物TSSRS和浊度TurbidityRS、以及ERA5再分析气温)。然后,他们训练和比较了四种机器学习模型:偏最小二乘回归(PLSR)、随机森林回归(RFR)、极限梯度提升(XGBoost)和支持向量回归(SVR),并采用100次分层训练-测试分割来评估模型鲁棒性。最后,他们利用SHapley加法解释(SHAP)和变量重要性投影(VIP)分数来量化并解释各预测变量对不同NOOCs估算的贡献。
4.1. 通过掩膜云和云阴影像元实现辐射度量改进
研究展示了GMM方法在多种云况下有效检测和移除云及云阴影像元的能力。与Sentinel-2内置的场景分类层(SCL)和质量评估(QA60)波段相比,GMM能更准确地识别出水体像元,剔除干扰。在应用GMM掩膜和空间聚合后,哨兵2号波段(B3, B4, B8)的反射率分布变得更加集中,波段间的散点图关系更紧密,这显著提高了后续水质参数反演所依赖的光谱数据的可靠性。
4.2. 机器学习模型的性能
研究系统评估了四种机器学习模型在四个数据场景下对八种NOOCs的预测性能。总体而言,PLSR模型在多数参数预测中表现出最稳健和最高的性能,特别是在预测钙(Ca2+)、硫酸根(SO42-)、氯离子(Cl-)、pH、BOD和粪大肠菌时。SVR模型在部分参数上也表现出竞争力。RFR和XGBoost模型在预测溶解氧和电导率时表现良好,但在预测其他一些离子参数时性能相对较弱,不过它们在输入数据更丰富的场景(场景3和4)下性能有显著提升。一个关键发现是,场景4(仅使用遥感和再分析数据)的预测性能与场景3(结合地面和卫星数据)相当甚至接近。这表明,完全由遥感驱动的模型,在缺乏地面观测数据的地区,同样具备可靠估算NOOCs的潜力。模型的归一化均方根误差(NRMSE)箱线图分析进一步证实了PLSR预测的稳定性通常优于其他模型。
4.3. 水质参数关键预测因子分析
4.3.1. SHAP和VIP分数
通过SHAP和VIP分析,研究定量揭示了不同预测变量对各个NOOCs估算的相对重要性及其影响方向。例如,对于溶解氧,水温和气温是最具影响力的预测因子,较低的温度值对较高的DO预测有积极贡献,这与溶解氧溶解度随温度升高而降低的物理化学规律一致。对于电导率,地面测量的浊度(TurbidityG)显示出最强的影响力。对于钙离子、硫酸根、氯离子等,Sentinel-2的短波红外波段(如B11, B12)以及一些光谱指数(如简单比水色指数SRWC)成为重要的预测因子。这些分析不仅增强了模型的可解释性,也为理解遥感数据与复杂水质参数之间的潜在关联提供了线索。
本研究得出以下主要结论:首先,研究证实了集成Sentinel-2遥感数据、再分析气象数据和机器学习模型,能够有效地估算河流中多种难以直接光学观测的水质参数。其次,所提出的分层框架在不同数据可用性场景下均表现出稳健性,特别是完全基于公开可得的遥感和再分析数据的模型能够取得与包含地面测量数据的模型相媲美的性能,这为在数据稀缺的河流系统,尤其是广大发展中国家和地区,实施大范围、低成本的水质监测提供了切实可行的解决方案。最后,利用SHAP和VIP等模型可解释性工具,研究厘清了影响不同NOOCs估算的关键遥感变量,加深了对“非光学”参数与遥感信号之间复杂关系的科学认识,为优化模型和推动相关算法发展提供了依据。
这项研究的重要意义在于,它突破了传统光学遥感在水质监测中的应用瓶颈,将监测范围从少数几种光学敏感参数拓展至一系列对水体生态健康至关重要的非光学参数。所提出的方法框架具有可复制性和可扩展性,能够支持对大型、动态且受人类活动强烈影响的河流系统进行持续、空间全覆盖的水质评估,从而为水资源管理者、环境保护机构和政策制定者提供及时、科学的决策支持信息,助力于全球水生态系统的保护与恢复。