保护水资源对于确保工业、农业和家庭用户持续获得淡水供应至关重要。然而,工业化和人类活动的扩张降低了水生环境的质量,导致整体水质下降[1]。同时,维持可接受的水质参数水平对于水资源的可持续管理至关重要。
溶解氧(DO)是指溶解在水中的自由和非化合物氧的水平,是一个重要的水质参数,支持水生生物[2]。由于低氧和高氧水平都会显著影响生态系统的健康,因此维持最佳的DO水平至关重要[3]。适当的DO水平有利于水生环境的繁荣,促进鱼类物种的健康生长和适应性。相反,低氧水平会导致压力甚至死亡,而过量的氧会破坏生态系统的微妙平衡。因此,监测和管理DO水平对于维持充满活力和生产力的水生生物至关重要。然而,由于其复杂的行为受到多种环境因素的影响,准确预测DO具有挑战性。因此,实现其模拟的精确度本质上是困难的[4]。
水质参数的时间序列数据通常具有非线性和非平稳性,反映了物理、化学和生物因素的综合影响。因此,开发能够捕捉时间序列数据内在复杂性的模型是必要的。
迄今为止,已经开发了许多预测DO水平的方法,这些方法可以分为过程驱动型、统计型、机器学习(ML)和深度学习(DL)模型。过程驱动型方法是基于水生生态系统的物理、化学和生物动态开发的。河流流量、污染物传输和水质变化数据是过程驱动型模型用于预测DO水平所需的输入数据[5]。虽然这些模型可以提供准确的DO值预测,但由于需要大量数据,它们的应用受到限制[5]。另一方面,统计方法分析历史数据的现有趋势和特征来预测DO水平。这些模型的一个基本假设是数据要么是线性的,要么是正态分布的。然而,由于DO时间序列数据本质上是非线性的,应用这些模型将具有挑战性[6]、[7]。
最后,基于ML和DL的方法将研究环境中的非线性过程纳入DO水平的预测,并在水文和环境研究的各个领域取得了有希望的结果,包括例如水质评估[8]、[9]、[10]、干旱预测[11]、降水量预测[12]、蒸散量估算[13]、地下水质量建模[14]、降雨-径流过程模拟[15]、土壤含水量模拟[16]等。
更具体地说,已经采用了多种基于ML的方法来模拟河流DO水平,包括多变量自适应回归样条(MARS)[17]、支持向量机[18]、[19]、神经模糊技术[20]、[21]、基于模板的模糊逻辑系统[22]、极端学习机[23]、最小二乘支持向量回归[24]、优化神经网络[25]、随机森林[26]、混合小波-MARS模型[27]、与不同优化算法耦合的神经网络[28]以及循环神经网络[29]。近年来,DL技术在模拟水文过程中的各种参数方面的应用变得越来越可行[30]、[31]。DL算法的分层架构在处理大型数据集方面具有显著优势[32]。长短期记忆(LSTM)模型[33]是广泛应用于模拟水质参数的基于DL的模型之一。作为时间序列分析工具,LSTM利用历史数据来捕捉序列关系[34]、[35]。先前的研究表明,LSTM模型在预测每日DO水平方面优于传统的基于ML的技术[36]。
然而,这些模型在处理高维数据时可能会遇到困难,尤其是在数据噪声较大的情况下,此时使用自编码器(AE)可能是一种适合的无监督特征学习方法[37]、[38]。AE由三个主要部分组成,包括编码器、瓶颈(或潜在空间)和解码器。这些组件协同工作,并被训练以最小化重建误差。在水质建模的背景下,AE已被用于识别异常值并从DO时间序列数据中提取非高斯时间特征[39]、[40]。当与LSTM结合使用时,AE-LSTM模型可以学习压缩特征和时间特征。
此外,已经使用了多种方法来去除或减少时间序列数据中的噪声。其中,小波变换(WT)技术被认为是有效的降噪方法,因为它们能够处理非平稳/非线性数据并在不同的时间间隔分离频率成分[41]。
尽管取得了进展,LSTM预测DO的能力仍存在一些限制,如梯度消失或爆炸以及过拟合[5]。因此,已经使用了不同的优化方法来克服这些限制[42]。其中,混合LSTM-AE模型被开发出来,以提高DO预测的准确性,相比传统模型有所改进[37]。然而,这些模型的结果可能会由于时间序列中相邻值之间的依赖性而包含相当大的偏差。此外,传统LSTM对非平稳数据中的噪声高度敏感,AE无法同时学习压缩特征和长期时间依赖性,以及降噪技术与混合架构的整合不足,都是这类耦合模型的主要缺点。对于具有复杂架构的混合模型来说,这些问题尤为严重[36]、[43]。因此,减少输入数据中的噪声可能是提高预测准确性的合适方法[44]。
WT的结合可以在从过滤后的数据中提取非线性特征时堆叠AE,并通过动态注意力机制改进LSTM网络以学习时间依赖性。然而,将这种混合框架应用于DO预测的情况很少见。
为了解决这些问题,本研究旨在实现以下目标:
1.通过结合小波变换、自编码器、长短期记忆网络和注意力机制,开发一种新的混合模型WT-AE-LSTM-AM,以提高DO预测的准确性。
2.通过结合小波分解和堆叠的去噪自编码器,改进多尺度噪声减少和鲁棒的特征提取,使模型能够保留长期环境趋势并捕捉输入变量之间的复杂非线性关系。使用多分辨率小波分析明确建模DO的多尺度特性,然后通过AE进行深度特征提取,有助于模型处理噪声。同时,它保留了长期环境趋势,为LSTM提供了学习更清晰、更有意义的非线性时间依赖性的机会,比单阶段混合模型更好
3.实现基于注意力的时间学习机制。该机制的重点是关键时期,例如藻类爆发或突然的污染事件。这提高了事件检测和峰值时间的准确性,而无需手动特征工程。在大多数使用LSTM的研究中,这种时间学习过程被忽略了。
总结来说,所提出的模型实现了一个顺序净化和智能增强过程,其中噪声原始数据逐步转化为去噪的、多尺度的、特征优化的、时间加权的表示,从而获得稳健、可靠和准确的最终预测。