《Science of The Total Environment》:A review of AI/ML approaches in wastewater surveillance advancement
编辑推荐:
废水流行病学中人工智能与机器学习模型的应用与比较研究。该研究系统评估了2020-2025年间AI/ML模型在废水病原体检测与疾病趋势预测中的表现,发现随机森林、支持向量机、人工神经网络和LSTM模型在预测精度(R2 0.80-0.94)、实时性和多社区应用中表现最优,并提出了基于预测目标、数据类型和时序依赖的决策框架。强调需整合混合建模和环境参数以提高监测系统适应性。
穆斯塔法·阿里(Mustafa Ali)|阿尔莫塔塞姆·贝拉·尤尼斯(Almotasem Bellah Younis)|奇切多·I·杜鲁(Chichedo I. Duru)|萨门德拉·P·谢尔昌(Samendra P. Sherchan)
美国马里兰州巴尔的摩市摩根州立大学(Morgan State University)水基流行病学研究卓越中心(Center of Research Excellence in Water-based Epidemiology),邮编21251
摘要
基于废水的流行病学(Wastewater-based Epidemiology, WBE)已成为早期检测和监测传染病的强大工具,尤其是在COVID-19等大流行期间。本研究系统地评估了过去五年中人工智能(AI)和机器学习(ML)模型在WBE中的应用,重点关注它们在病原体检测和疾病趋势预测方面的有效性。通过预测准确性、可扩展性、可解释性、计算需求以及实时可行性等方面,比较了各种监督学习、无监督学习、深度学习及时间序列模型。比较分析显示,随机森林(Random Forest, RF)在COVID-19趋势预测中的R2值为0.80,均方根误差(Root Mean Square Error, RMSE)为0.54,优于线性回归。支持向量机(Support Vector Machines, SVM)将病原体分类的准确性提高了约20%。人工神经网络(Artificial Neural Networks, ANN)估计的病原体流行率为R = 0.81–0.92,而长短期记忆(Long Short-Term Memory, LSTM)网络在多社区预测中的R2值分别为0.81(测试集)和0.94(训练集)。时间序列机器学习模型(Time-Series Machine Learning, TSML)框架始终表现出比ARIMAX模型更低的RMSE和平均绝对误差(Mean Absolute Error, MAE),证实了其实时预测能力。当标记数据有限时,无监督模型如K-means聚类有助于识别疫情模式。此外,还提出了一种决策支持框架,以根据预测目标、数据类型和时间依赖性指导模型选择。研究结果强调了整合混合建模方法和环境元数据以增强WBE系统的重要性,并为实时、适应性监测策略提供了基础。
引言
废水监测(Wastewater Surveillance, WWS)或基于废水的流行病学(Waste-based Epidemiology, WBE)是指通过分析污水和废水样本来识别和监测病原体的存在(Carmo Dos Santos等人,2024年)。WWS是一种快速监测病原体、追踪疾病趋势和检测新变种的工具。然而,病原体排放率和衰减动力学的变化可能会影响检测结果的解释(Tiwari等人,2024年)。WBE已被用于监测传染病的传播,但在2019冠状病毒病(COVID-19)大流行的背景下尤为重要,通过废水分析可以追踪严重急性呼吸综合征冠状病毒2型(SARS-CoV-2)的病毒RNA,从而提供病毒流行的实时、群体级指标(Maryam等人,2023年)。这种方法为社区内传染病的早期预警和监测提供了一种成本效益高且非侵入性的方法(Diamond等人,2022年)。研究人员使用分子生物学技术,如定量聚合酶链反应(Quantitative Polymerase Chain Reaction, qPCR)、滴液数字聚合酶链反应(Droplet Digital Polymerase Chain Reaction, ddPCR)和宏基因组学(Metagenomics)来识别和量化病原体,如SARS-CoV-2(Kazenelson等人,2023年;Urrea等人,2025年)。
废水是来自家庭、工业或商业来源的复杂液体废物混合物,可能含有物理、化学或生物污染物。在WBE中,重点关注指示社区感染趋势的病原体或其遗传物质。病原体检测涉及由人类活动变化和环境因素驱动的复杂、多变量和时间依赖的关系(Tiwari等人,2024年)。最近的研究表明,这些方法不仅可用于检测传染病,还可用于追踪环境污染物和化学物质,如药物和非法药物(Huizer等人,2021年)。
由于废水中含有多样化的生物和化学信号,并存在固有的噪声和采样变异性,能够建模非线性及动态模式的机器学习(ML)和人工智能(AI)方法特别适合进行准确预测和早期疫情检测(Ai等人,2022年)。这些技术在分析废水样本生成的大量数据方面发挥了重要作用(Hill等人,2023年)。ML和AI在WBE中的作用正在迅速发展,公共卫生策略越来越依赖于实时监测。AI/ML技术的整合使得能够处理复杂的高容量废水数据以提取有意义的模式。除了检测病原体存在外,这些模型还能预测和分析其他参数的浓度,例如废水处理厂出水中总悬浮固体、化学需氧量和生化需氧量(Hamada等人,2024年)。整合环境数据(如pH值、温度和溶解氧)可以提供额外的信息,提高预测准确性(Kasprzyk-Hordern等人,2022年)。
ML模型,如监督学习和无监督学习,使研究人员能够从废水样本收集的大量数据中提取有意义的见解(见表1)。这些模型显示出显著潜力,但往往受限于某些特征。其他模型,如时间序列模型,在预测准确性方面优于非时间序列方法(表1)。长短期记忆(LSTM)模型是利用WBE数据进行病原体预测的有前景的方法(Ai等人,2022年)。这些技术现在可以应用于提高健康监测的时间和空间分辨率,识别废水数据中的趋势和异常,作为公共卫生危机的早期预警,但它们也面临数据偏差等挑战,以及需要像ML在传染病管理中一样具有可解释性的模型的问题(Al Meslamani等人,2024年)。
选择最佳的ML模型来分析WBE数据是一个挑战,因为不同模型在准确性、计算效率和适应复杂数据集的能力方面存在差异。我们的目标是通过系统评估和比较WWS背景下的AI模型来解决这一问题,重点关注病原体检测、趋势预测和疫情预测。我们分析了各种ML技术的优势、局限性和应用,包括监督学习、无监督学习和深度学习方法。本研究提供了一个结构化的框架,用于根据数据特征、预测性能和实际适用性选择最合适的AI模型。此外,论文还概述了数据选择、预处理和管理的最佳实践,确保所选的AI方法能够最佳地适应强大的流行病学监测和公共卫生决策。
方法论
使用PubMed、Scopus、ScienceDirect和Google Scholar等数据库进行了系统的文献搜索。搜索范围涵盖了2018年1月至2025年4月期间发表的研究,重点关注2020年1月之后设计的AI模型。使用布尔运算符组合了与WWS(“基于废水的流行病学”,“WBE”)、人工智能(“AI”,“机器学习”,“深度学习”)和目标病原体(“COVID-19”,“SARS-CoV-2”,“大肠杆菌”)相关的搜索词。
WBE中AI建模的数据准备策略
为了确保WBE的高性能ML/AI模型开发,我们研究了数据收集、数据处理和数据管理的基础要求。如图2所示,这一从原始数据到ML的工作流程为将原始WWS数据转换为适合ML的数据集提供了简化路径。
从原始数据到ML的工作流程展示了废水监测(WSS)数据如何转换为适合机器学习的数据集。它特别捕捉了WSS应用特有的步骤顺序。
结论与未来展望
本研究展示了过去五年中用于WBE的各种ML模型工作流程的比较性能。研究表明,模型选择必须与流行病学目标和数据特征相匹配,因为没有一种算法是普遍最优的。像RF和SVM这样的监督学习模型最适合高精度的病原体浓度预测,而无监督学习技术如K-means聚类在无监督模式识别方面被证明是有效的。
CRediT作者贡献声明
穆斯塔法·阿里(Mustafa Ali):撰写——审阅与编辑、初稿撰写、可视化、验证、方法论、调查。
阿尔莫塔塞姆·贝拉·尤尼斯(Almotasem Bellah Younis):撰写——审阅与编辑、方法论、调查。
奇切多·I·杜鲁(Chichedo I. Duru):调查。
萨门德拉·P·谢尔昌(Samendra P. Sherchan):撰写——审阅与编辑、可视化、验证、监督、软件、资源管理、项目管理、方法论、调查、资金获取、概念化。
利益冲突声明
作者声明没有已知的利益冲突。
致谢
本研究得到了NSF奖项#2244396和NIH资助R21AI157434、U54MD013376的支持,由萨门德拉·谢尔昌博士(Dr. Samendra Sherchan)负责。