《Array》:Data-driven quantification of fecal and total coliform bacteria for digital-twin-assisted water-quality monitoring
编辑推荐:
本研究针对传统水质检测耗时长、成本高的问题,提出一种数据驱动的模型,利用易于测量的水质参数(如电导率、溶解氧、pH、温度、浊度),结合机器学习(ML)算法(其中随机森林RF表现最佳,对FC和TC预测的R2值分别为0.81和0.74),实现粪大肠菌(FC)和总大肠菌(TC)的快速、低成本量化。该研究还设计了一个完整的数字孪生系统,以实现模型的自动化应用,为全球水安全管理与联合国可持续发展目标(SDG 6)提供了高效可行的技术方案。
获得安全的饮用水仍然是全球面临的紧迫挑战,水传播疾病每年导致超过50.5万人死亡。粪大肠菌(FC)和总大肠菌(TC)是衡量水质安全的关键指标,但传统的实验室检测方法通常需要24小时或更长时间,并且依赖昂贵的设备和专业人员。在许多资源有限的地区,水质监测频率不足,导致污染事件往往在暴露一段时间后才被发现,增加了疾病爆发的风险。为了应对这一挑战,实现快速、可靠且低成本的实时水质评估,利用现代技术进行创新变得至关重要。
随着计算机科学和人工智能领域的技术进步,机器学习(ML)为利用大数据分析、改进决策过程和自动化复杂任务带来了新的机遇。在此背景下,越来越多的研究开始探索利用机器学习来补充或增强大肠菌评估的传统方法。然而,现有研究往往在目标细菌、建模目标、监测参数和环境背景上存在显著差异,许多研究只关注特定类型的水体或地理环境。为了弥补这一空白,一个由Arturo Barriga、Guillermo Torralba Elipe、José A. Barriga和Pedro J. Clemente组成的研究团队,利用印度安德拉邦长达八年的水质监测数据,开发了一种新型数据驱动的建模方法,旨在实现对不同水体中FC和TC细菌的量化,并构建了一个完整的数字孪生系统来简化模型的应用。
该研究的核心是利用机器学习算法,基于可快速测量的水质和环境参数,建立FC和TC的浓度预测模型。研究团队使用了超过5000个水样数据,这些数据收集自印度安德拉邦139个不同地点(涵盖河流、湖泊、湿地、水库、排水渠、运河、水塘、池塘、地下水及海水等多种水体)长达八年(2015-2022年)的监测。研究选择了可实时、低成本测量的水质参数(如电导率、溶解氧、pH、水温、浊度)以及水体类型、降雨分区等作为模型输入特征。在模型构建和评估中,采用了包括线性回归(LR)、岭回归(RR)、支持向量回归(SVR)、随机森林回归(RFR)、K最近邻回归(KNNR)和极限梯度提升(XGBoost)在内的多种算法,并通过10折交叉验证和网格搜索调优来确定最佳模型。为理解模型决策,还采用了基于SHAP(SHapley Additive exPlanations)的特征重要性分析。最终,为了将训练好的模型投入实际应用,研究团队设计并提出了一个数字孪生系统,以自动化数据收集、预处理和模型执行的整个流程,减少人为干预带来的延迟和错误。
4.1 FC细菌学习模型的性能
在评估的多种机器学习模型中,随机森林(RFR)在预测FC细菌浓度方面表现最佳。其平均绝对误差(MAE)为7.57,均方误差(MSE)为316.40,均方根误差(RMSE)为17.56,而决定系数(R2)达到了0.81。这表明该模型能够解释FC浓度81%的变异性,展现了强大的预测能力。相比之下,KNNR和XGBoost模型也取得了不错的R2值(均为0.80),而线性模型(LR和RR)的预测能力则较弱(R2为0.55)。散点图分析显示,RFR模型在广泛的FC浓度范围内(包括高浓度样本)都表现良好,能有效避免对污染程度的低估。
4.2 TC细菌学习模型的性能
对于TC细菌的量化,随机森林(RFR)模型再次展现出最佳性能,其R2值为0.74,MAE、MSE和RMSE分别为34.71、12,905.29和113.07。这表明模型同样能较好地捕捉TC浓度的变化。其他模型如XGBoost和KNNR的表现紧随其后(R2分别为0.73和0.72),而SVR和线性模型的表现则相对较差。模型预测结果与实测值的散点图显示,RFR模型在TC浓度的主要分布区间内预测较为准确。
4.3 基于SHAP的特征重要性分析
为了理解哪些输入特征对模型预测FC和TC浓度最为关键,研究进行了SHAP分析。对于FC预测模型,最重要的特征是浊度,其后依次是水温、溶解氧(DO) 和电导率。这表明与水体清澈度、温度、含氧量和离子含量相关的参数对粪便污染指示菌的浓度有显著影响。对于TC预测模型,浊度同样是影响力最强的特征,水温和溶解氧紧随其后。此外,降雨分区和某些水体类型(如“排水渠”)也显示出一定的重要性。这揭示了环境背景因素在预测总大肠菌(其来源更广泛)时也扮演着一定角色。总体而言,水质物理化学参数是驱动模型预测的最主要因素。
5. 用于应用学习模型的数字孪生系统
为了克服手动执行模型在数据收集和预处理方面的局限性,并实现模型的规模化部署,研究团队提出了一个完整的数字孪生系统。该系统旨在自动化从数据获取到结果输出的整个工作流程。其核心组件包括:物联网(IoT)传感器网络(用于实时采集水温、pH、电导率等输入参数)、数据集成与预处理模块(自动清理、转换数据)、机器学习模型执行引擎(加载并运行训练好的FC/TC量化模型)、数字孪生模型(创建水体的虚拟映射,并整合地理信息系统GIS数据以提供空间上下文),以及用户界面与报警系统(可视化预测结果,并在浓度超标时触发警报)。该系统能够实现近实时的水质评估,减少人为错误,确保一致性,并支持跨多个环境的大规模水监测。
6. 讨论
本研究通过一个统一的、数据驱动的框架,成功地实现了对多种水体中FC和TC细菌的联合量化,其中随机森林算法表现出最优性能。所提出的方法具有快速、成本效益高和可扩展的潜力,能够支持水资源管理者、环保机构和农业经营者及时评估污染水平并采取预防措施。SHAP分析为模型决策提供了可解释的见解,突出了关键水质参数的作用。此外,集成的数字孪生系统为学习模型的实际部署提供了可行的技术路径,使其能够无缝融入现有的水监测基础设施。
7. 结论与未来展望
这项研究的主要贡献在于:1)开发了一套用于从易测水质参数量化多种水体中FC和TC细菌的机器学习模型;2)通过SHAP分析提供了对模型输入特征影响的深入理解;3)提出了一个用于自动化应用学习模型的数字孪生系统,支持近实时水评估。该工作为克服全球水安全挑战,特别是实现联合国可持续发展目标6(清洁饮水和卫生设施)提供了有力的工具。当然,研究也存在一些局限性,例如模型性能可能依赖于特定地区(安德拉邦)的数据,在其他地理区域的普适性有待验证。未来的研究方向可以包括:整合更多类型的环境数据(如气象、土地利用),探索时序预测模型以预报细菌浓度变化趋势,将模型和数字孪生系统部署到真实世界场景中进行长期验证和优化,以及研究如何将此类方法应用于其他水质指标或污染物的监测。