利用基于熵的EEMD和VMD混合模型改进高频传感器生成的浊度数据

《Ecological Informatics》:Improving high frequency sensor generated turbidity data using entropy-based EEMD and VMD hybrid models

【字体: 时间:2026年05月11日 来源:Ecological Informatics 7.3

编辑推荐:

  A.T. Badrudeen | D. Sahoo | C.B. Sawyer | J.W. Pike | Vijay P. Singh 克莱姆森大学农业科学系,美国南卡罗来纳州29634 **摘要** 水质监测在保护水生生态系统和确保水资源安全方面发挥着关键作用,

  A.T. Badrudeen | D. Sahoo | C.B. Sawyer | J.W. Pike | Vijay P. Singh
克莱姆森大学农业科学系,美国南卡罗来纳州29634

**摘要**
水质监测在保护水生生态系统和确保水资源安全方面发挥着关键作用,而高频(几分钟到几小时)监测可以为水文和生物地球化学过程建模提供数据。然而,这些数据集常常受到噪声的影响,这使得浓度-流量(C-Q)关系变得模糊,限制了数据的可解释性。在这项研究中,我们探讨了两种混合重建模型的应用:加权中值滤波器与集合经验模态分解(WMF-EEMD)以及变分模态分解(WMF-VMD)。这两种数据驱动的信号处理模型旨在提高高频浊度时间序列的质量。研究分析了小型流域内的风暴事件浊度信号,并结合雷达测量的水位数据,通过基于熵的标准对数据进行了选择性过滤,并通过迭代重建来增强信号质量。结果表明,这两种混合模型能够有效减少高频噪声,同时保留关键的水文特征。EEMD重建能够捕捉从高频噪声到低频趋势的广泛变化,且在不同指标范围内具有较高的变异性;而VMD则表现出更高的一致性和效率,体现在更快的计算速度、更高的平均R2值以及更低的JSD值上,尽管信号的中心趋势略有变化。这些模型为改进用于水质监测和管理系统的高频传感器数据的可靠性提供了可扩展的自动化框架。

**1. 引言**
高频水质监测能够提供有关水文过程和环境过程的测量结果,并在基流和风暴事件期间捕捉水质指标的瞬时浓度(Kirchner等人,2004年)。这些测量结果可用于研究短期动态、事件驱动的响应以及前所未有的分辨率下的长期水质趋势(Harmel等人,2023年)。然而,此类监测系统的更广泛采用和可靠性常常受到传感器成本、校准、鲁棒性、数据质量控制以及长期稳定性等挑战的限制(Harmel等人,2016年)。

浊度是一种高频测量的水质参数,目前大多数监测项目都使用它(Meinson等人,2015年;Rodriguez-Perez等人,2020年)。浊度是衡量水质的重要物理化学指标,可以代表其他水质指标(或参数),如悬浮沉积物浓度(SSC)、磷和有机物(Chen和Chang,2019年;Lawler等人,2006年)。然而,由于流域内表面和悬浮颗粒的移动和重新悬浮,浊度值具有场地特异性和风暴依赖性(Wymore等人,2019年)。因此,浊度信号通常表现出非线性和非平稳行为,在风暴事件期间会出现快速波动,在基流期间则变化微妙。高频生成的未经处理的浊度数据集常常受到噪声、缺失值、漂移和非线性波动的影响(Jones等人,2022年;Shaughnessy等人,2019年;Wagner等人,2006年),这些现象被称为异常值和异常情况,可能会掩盖有意义的模式,降低并阻碍原始数据在过程解释、负荷估计和预测建模中的直接使用。为了解决水质数据中的异常值和异常情况,以往的研究开发了多种算法。Garces和Sbarbaro(2011年)提出了一种多层感知器偏最小二乘(MLPPLS)方法,该方法可以处理相关数据,但需要训练多层感知器模型。Yu等人(2014年)结合了K-最近邻(KNN)和预测置信区间来识别异常值。然而,这种方法仍然依赖于训练数据集。Blázquez-García等人(2021年)对不同异常值和异常检测算法的综述表明,大多数算法都基于直方图、点的估计和预测以及后续的异常值计算。还有一些算法基于正态性模型,通过将模型拟合到专家预定义为正常的训练序列上来实现(Teng,2010年)。此外,还开发了专门用于检测和处理异常值的算法。Jones等人(2022年)基于长短期记忆(LSTM)和自回归积分滑动平均(ARIMA)算法分别实现了异常值的自动检测和校正。Sun等人(2019年)开发了一种基于改进的变分模态分解(VMD)和最小二乘支持向量机(LSSVM)的异常值检测和校正方法,应用于溶解氧(DO)的测量,取得了更高的准确率。Schmidt等人(2023年)设计了一种基于修正Z分数(MAD)、KNN和搜索追踪异常(STRAY)的自动化质量控制系统(SaQC),可以处理、检测和标记异常值,并校正和插补环境时间序列。

文献中报道的异常值检测模型大致分为三类:统计模型、基于神经网络的方法和最近邻技术(Teng,2010年)。统计模型假设已知概率分布并估计其参数,而神经网络试图捕捉复杂模式而无需显式概率模型,但高度依赖于训练数据集。最近邻和基于距离的技术根据数据空间中的相似性或密度变化来识别异常值。虽然这些方法提高了异常模式的检测能力,但它们主要侧重于分类或识别任务,并且经常使用基本的统计和机器学习算法来处理异常值。这些算法也严重依赖于无误差的历史数据进行训练。传统的平滑技术,如Savitzky–Golay滤波器(Feng等人,2025年;Li等人,2024年;Wang等人,2023年)、均值或移动平均(Luo等人,2023年;Rijab等人,2025年)也被广泛用于环境时间序列数据的噪声 reduction;然而,这些方法可能会过度简化复杂的非平稳信号,掩盖重要的水文动态。

当前的浊度处理框架依赖于人工专业知识和基于规则的预处理算法来去除异常值、标记不可能的值,并插补短时间间隔(Schmidt等人,2023年)。这些步骤通常与特定场地的回归模型结合使用,将浊度与从抓取样本中得出的悬浮沉积物浓度(SSC)进行校准(Rasmussen等人,2009年)。在动态流动的水系统中,使用传感器进行的连续高频浊度测量是即时且不可重复的。一旦记录下来,由于通信或系统故障、杂物撞击和重新悬浮、电噪声或传感器污染等原因导致的异常观测结果在现场无法复制或验证,尤其是在风暴事件期间。这一限制在偏远监测地点、非工作时间以及地点众多且人力有限的监测活动中尤为明显。因此,实时现场验证可疑测量结果变得不切实际,需要事后数据优化。

鉴于当前高频数据集浊度校正方法的局限性,我们提出了并比较了两种基于加权中值滤波器(WMF)和数据驱动信号处理方法的混合模型:集合经验模态分解(EEMD)和变分模态分解(VMD)。与将检测和校正分开的传统模型不同,本研究提出的模型在一个统一的框架内同时执行这两种任务,恢复潜在趋势并输出校正后的数据。实施信号分解算法的目的不是取代现有的质量控制和校准工作流程,而是通过最大化不可重复瞬时测量的信息价值来增强现有系统,同时最小化噪声和传感器引起的失真对后续分析的影响。尽管浊度容易受到噪声、传感器不稳定性和风暴驱动波动的影响(Hu等人,2018年;Jiao等人,2024年;Li等人,2024年;X. Li等人,2017年;Lu和Ma,2020年;Luo等人,2023年;Shuvo等人,2024年;Sun等人,2019年;Yu等人,2018年;Zhang等人,2019年),但文献中尚未报道将EEMD和VMD应用于浊度重建的情况。现有的在EEMD和VMD信号处理框架内重建分解信号的模型通常依赖于求和或利用所有成分(Yu等人,2018年),选择性丢弃被认为是噪声的高频(低阶)模式(H. L. Feng等人,2012年),或者基于能量或相关性应用简单阈值规则(Qin等人,2017年)。尽管这些方法往往具有主观性、数据集依赖性,并可能丢弃有意义的变异性,但我们提出的重建方法采用了一种基于标准的方法,结合了这些方法,并通过可测量的熵信息和噪声度量(香农熵、Jensen-Shannon散度、信噪比和相对能量)以及统计性能(Nash-Sutcliffe效率和相关性)来指导重建。这确保了保留的成分既有助于解释方差,又保持了原始信号的信息和复杂性,提供了超出简单误差减少的更细致的信号保真度视图。

本研究的目标是:
1. 开发并实现结合加权中值滤波(WMF)与集合经验模态分解(EEMD)和变分模态分解(VMD)的混合去噪框架,用于重建噪声高频浊度时间序列。
2. 评估所提出框架的性能,并与Savitzky–Golay滤波器进行基准测试,重点关注其在减少噪声和异常值的同时保持水文意义的变异性的能力。
3. 使用多指标评估框架量化重建性能,包括信号保真度(NSE,SNR)、分布相似性(JSD)、统计特性(均值和中位数)以及浊度-水位关系(R2)的改善,作为物理一致性的代理。

**2. 方法论**
本研究的方法包括以下步骤:
1. 数据排序和识别;
2. 数据预处理;
3. 分解;
4. 模式选择和重建;
5. 评估。

建模步骤使用开源库在Python中实现,例如用于经验模态分解(EEMD)的PyEMD、用于变分模态分解(VMD)的vmdpy、用于数值分析和信号过滤的SciPy以及用于统计评估的Scikit-learn。图1提供了混合模型的示意图。以下部分提供了模型的详细信息。

**2.1. 模型描述**
这些模型都是两级混合模型,加权中值滤波器作为预处理技术。该滤波器去除了明显的异常值和短尖峰,而EEMD和VMD则对数据进行分解和重建。模型的主要步骤如下:

**2.1.1. 预处理**
**加权中值滤波器(WMF)**
中值滤波器(MF)是一种非线性信号处理算法,对数据集中的突发尖峰和异常值具有鲁棒性,其目标函数基于滤波器大小内的统计中值估计(Brownrigg,1984年;Zhang等人,2019年)。然而,由于数据点的重新排序,MF会损失一些局部保真度;因此,WMF通过赋予数据点权重来优先考虑信号值,更好地保留局部趋势(如方程式(1)所示)。 weighting向量模拟二项式/高斯分布,根据时间步长确定值的重要性,并在排序时偏向于保留边缘或强调窗口的中心部分。表1提供了本研究中使用的WMF的模型参数。

**表1. WMF的参数设置**
| 参数 | 值 |
|--------------|----------------|
| 核心尺寸 | 7 |
| 权重向量 | [1, 4, 7, 10, 7, 4, 1] |

选择核心尺寸(7)和类似二项式的权重向量是为了平衡平滑和边缘保留,对应大约2小时的观测数据,以抑制短期波动并保持浊度的变化。这种配置强调了中心数据值,同时最小化了短期浊度模式的失真。WMF的输出随后传递给EEMD和VMD进行分解。

**2.1.2. 信号分解**
**集合经验模态分解(EEMD)**
EEMD分解是EMD(经验模态分解)的扩展版本,通过在原始信号中添加白噪声并在分解过程中增强模式分离来克服EMD的模式混合问题(Chang和Liu,2011年)。新的信号(原始信号和添加的噪声)随后使用标准EMD进行分解。EMD分解(详细见Chang和Liu,2011年;Wu和Huang,2004年;Zhang等人,2019年)是一种灵活的技术,可以将任何数据集分解为一组内在模态函数(IMFs),这些函数作为表示数据的基础,提供对潜在过程的有意义描述。EEMD的连续迭代提取后续IMFs,直到最终残差信号r(t)变为单调函数,表明不再需要进一步分解,从而消除了对谐波的需求,使EEMD非常适合分析复杂的、非平稳和非线性数据集(Wu和Huang,2004年)。迭代过程会重复进行预定的次数,最终分解结果的均方电动势(EMF)作为输出输出。本研究中采用的试验次数为100次,噪声宽度为0.1。数学上,EMD分解在方程(2)和(3)中表示为:(2)Yt=∑i=1nCit+rnt,而EEMD分解表示为:(3)Yt=∑i=1nCitnt,其中Yt是原始信号,Cit是分解后的IMF(固有模态函数),rnt是残差,nt是试验次数。

2.1.3 自动重建
分解信号的重建过程包括确保保留来自非平稳和非线性过程的有物理意义的分量(Chang和Liu,2011)。在本研究中,我们自动化了重建过程,通过一个结构化的两阶段评估框架来客观识别最有信息量的分量,同时抑制噪声主导的模式。第一阶段涉及对每个分解后的IMF或模式进行预筛选,这些分量必须满足两个物理约束才能被考虑用于重建。第一个物理约束要求每个单独的模式对总分解信号能量的贡献超过1%,排除那些代表数值伪影而非物理意义上的浊度动态的、能量可以忽略的模式。第二个约束要求每个选中的模式与原始信号之间的皮尔逊相关性大于0.1,从而排除了与浊度记录几乎没有关系的模式。未能通过预筛选的子集被丢弃,只保留物理上合理的子集。

重建的第二阶段涉及一个结构化的多标准投票框架,其中通过五个独立定义的改进标准来评估通过预筛选阶段的候选子集,这些标准涵盖信号质量的三个领域,包括信息一致性、统计保真度和物理合理性,具体内容将在以下小节中详细讨论。每个标准的阈值是为了平衡噪声抑制和信号保留而确定的,总结在表2中。

2.1.4 统计阈值
表2. 重建标准的阈值

| 标准 | 领域 | 阈值 | 理由 | 参考文献 |
|--------------------|-----------------|-----------------|---------------------------|-------------------|
| 相对能量 | 统计 | 每个选中的模式对总分解信号能量的贡献 ≥1% | 排除代表噪声或数值伪影的能量可以忽略的模式;低于此阈值的模式不携带有意义的浊度信息 | Yu等人,2018 |
| IMF相关性 | 统计 | 每个选中的模式与预过滤信号之间的皮尔逊r > 0.1 | 确保在重建前排除与浊度记录几乎没有关系的模式;与信号无关的模式不携带可解释的物理内容 | Mao等人,2022 |
| 多标准选择标准 | 信息 | 在原始信号熵的±20%范围内 | 重建必须在对称的相对容忍度内保留原始信号的信息复杂性;防止过度平滑和人为复杂性膨胀 | Singh和Vijay,2015 |
| JSD | 信息 | < 0.5 | 确保原始信号和重建信号之间的分布相似性 | Mateos等人,2017 |
| NSE | 统计 | > 0.5(CV ≤ 1.0);> 0.3(CV > 1.0) | 满足水文模型性能的阈值;对于高度变化的风暴信号可适应性调整 | Motovilov等人,1999 |
| 重建相关性 | 统计 | 完整重建与原始信号之间的皮尔逊r > 0.5 | 重建信号必须捕捉原始信号的总体时间连贯性 | Qin等人,2017 |
| 负分数和幅度 | 物理 | 负分数 < 5%;负幅度 < 2%的信号均值 | 浊度是一个非负量;接近传感器噪声底的边际数值负数最多允许总值的5% | Wai等人,2024 |

注:JSD- Jensen–Shannon散度;SNR- 信噪比;NSE- Nash–Sutcliffe效率。

Shannon熵是时间序列分析中的一个关键概念,它提供了对数据集中固有随机性和不确定性的洞察(Singh,2011)。它在信息论框架内被定义为衡量随机变量分布的平均信息含量。Shannon熵在表征时间序列数据的复杂性方面特别有用。复杂性と熵之间的关系已被探索,表明较高的熵值通常与时间序列的更大复杂性相关,这可能意味着更混沌、更不可预测的系统,而较低的熵则意味着信号更少混沌、更可预测(Richman和Moorman,2000)。连续数据的Shannon熵是使用时间序列中的观测值的核密度估计(KDE)来计算概率密度函数(Singh,2011)来计算的。数学上,Shannon熵在方程(5)中给出为:(5)hX=?∫?∞∞fxlogfxdx,其中f(x)是连续随机变量X的概率密度函数(PDF)。

在重建过程中,Shannon熵被用作选择标准,以区分有意义的信号分量和噪声主导的分量。对于混合模型(WMF–EEMD和WMF–VMD),计算了每个子集的熵值,熵值在原始信号熵的±20%范围内的子集被考虑用于重建。这种对称的容忍度确保选中的子集既不会显著降低原始信号的信息复杂性(这表明过度平滑),也不会人为地夸大信息复杂性,超出原始浊度记录所包含的内容。这种基于熵的方法确保了混合模型强调了与原始信号具有相似信息内容的连贯浊度变化,同时抑制了随机波动和测量噪声。

Jensen-Shannon散度(JSD)是Kullback–Leibler散度的对称版本,也称为交叉信息熵,它衡量两个概率分布之间的差异以及分布之间的信息损失或互信息(Mateos等人,2017;Singh和Vijay,2015)。JSD的值介于0和1之间,由Shannon熵得出并通过分布的权重进行归一化,接近0的值表示信息损失较小,1表示分布差异最大。在评估重建后的浊度信号时,JSD被用作评估原始信号和去噪信号之间分布相似性的关键指标。数学上,JSD在方程(6)中给出为:(6)JSD(P∣Q)=1/2DKL(P∣M)+1/2DKL(Q‖M),其中P和Q是比较的两个分布(原始信号和校正后的信号),M是两者的混合,DKL是Kullback–Leibler散度,x是分布中的每个数据点,P(x)是分布P下发生的数据点的概率密度函数,M(x)是分布M下发生的数据点的概率密度函数。

在我们的方法论中,JSD也在迭代IMF选择过程中被优先考虑,以确保选中的IMF子集保留了原始信号的统计特性,同时减少了噪声。这种方法符合信息论中对散度测量的解释,其中JSD被视为强度混合熵(Grosse等人,2002),使其特别适合评估我们的EEMD和VMD重建的保真度;JSD选中的IMF代表了接近原始浊度分布的IMF组合。

2.1.5 统计阈值
i. 相对能量
分解过程产生的IMFs和模式包含了一部分总信号能量,这代表了它们对原始信号总方差的贡献(Yang等人,2014)。数学上,IMF的相对能量计算如方程(8)所示:(8)Ei=∑tIMFit2∑j=1k∑tIMFit2,其中Ei是第i个固有模态函数(IMF)或模式的相对能量贡献,K是分解产生的IMF或模式的总数,t是时间索引(从1到信号的长度),IMFit是时间t处第i个IMF的幅度。IMFs的能量表明了这些模式对总信号的贡献是有意义的。在本研究中,能量贡献低的IMFs(小于1%)被认为是能量上不显著的,主要受噪声影响,而能量贡献高的IMFs与潜在的物理过程相关(Wu和Huang,2004)。

NSE是一种模型性能估计器,它使用模型与使用观测数据平均值的朴素模型之间的相对性能来进行比较(Shen等人,2022)。NSE指标的值越接近1,性能越好(Yang等人,2023),值大于0.75被认为是好的,值在0.7到0.5之间被认为是令人满意的(Motovilov等人,1999;Ullrich和V?lk,2010)。NSE考虑了模型的方差和偏差的大小,负值表示模型的性能低于平均基准(Hu等人,2018)。数学上,NSE(方程(9)给出为:(9)NSE=1?∑i=1nyi?y?2∑i=1nyi?yˉ2,其中yi是信号中的个体观测值,y?是模型中的校正观测值,yˉ是原始信号的平均值。当原始信号包含较大的测量伪影时,针对原始信号计算的NSE会惩罚正确抑制这些伪影的重建结果。因此,NSE阈值根据信号变异系数(CV = σ/μ)进行适应性调整,对于CV ≤ 1.0的风暴,阈值从0.5放宽到CV > 1.0的风暴为0.3。这种方法考虑了高度变化的风暴事件,其中大的自然波动可能会增加方差并使NSE阈值偏移,从而确保在不同风暴条件下进行更公平的评估。

ii. 相关性阈值
相关系数(CC)是一个衡量两个变量之间关系的指标,提供了原始信号xt与其从分解中得到的固有模态函数(IMFs)之间的线性依赖性的度量(Qin等人,2017)。CC提供了哪些IMF主要受信号影响而不是噪声的影响,从而识别出重要的重建组件(Mao等人,2022;Wu和Huang,2009)。为了增强这个选择过程,在IMF级别设置了0.1的相关性阈值,以过滤掉对信号贡献极弱或可以忽略的IMFs,确保只保留那些在最终重建后表现出强线性关系的IMFs。这个阈值有助于通过专注于保留信号核心动态的同时最小化噪声的去噪效果。CC的数学表示在方程(10)中定义:(10)CC=∑t=1nxt?xˉIMFit?IMFiˉ∑t=1nxt?xˉ2?∑t=1n(IMFit?IMFiˉ2,其中xˉ是信号的平均值,IMFiˉ是第i个IMF的平均值,xt是原始信号。

重建阶段采用迭代子集选择模式进行,其中生成了所有IMFs或模式的子集并分别进行重建。然后根据预定义的改进标准(表2)评估每个候选重建结果。在满足改进标准的子集中,选择JSD最低的组合作为最终重建结果,优先考虑分布一致性和平衡保真度与去噪效果。如果没有子集符合标准,则采取从所有IMFs/模式重建的回退策略,以避免信息丢失。因此,最终重建是选定组分的总和(方程(11)),提供了一种系统化且可重复的模式选择方法,最小化了主观性。重建后的信号表示为:(11)Y?=∑i=kn+1cit,其中Y?是最终重建的信号,ci(t)是分解后的选定IMFs或模式。

2.1.4 性能评估指标
鉴于浊度数据的非平稳和非线性特性,采用了一套全面的指标来评估原始信号和重建信号。这些指标包括之前讨论过的JSD、SNR和NSE,它们共同捕获了分布相似性、噪声抑制和相对于观测数据的信号保真度。采用的其他指标包括比较原始信号和重建信号的统计特性,如均值和中位数,以监测去噪后潜在的偏差和中心趋势的变化。外部验证通过浓度-流量(C-Q)关系的改善来评估,该关系通过R2(决定系数)来量化,R2反映了自变量解释的因变量方差的比例。评估包括估计重建前后水位对浊度信号解释比例的改善情况。重建后R2的提高表明浊度动态与水文强迫之间的对齐性增强,从而间接验证了重建信号更好地代表了潜在的物理过程,而不仅仅是减少了噪声。

此外,还进行了额外的验证,比较了WMF-EEMD和WMF-VMD框架与直接应用于原始浊度信号的Savitzky-Golay滤波器(SGF)的附加价值,这两种滤波器都使用了相同的七个观测值的窗口长度和三阶多项式。SGF是一种计算简单、广泛应用于环境和水质数据的去噪基线方法(Li等人,2024年;Renteria-Mena和Giraldo,2024年;Teh等人,2020年;Wai等人,2024年;Wang等人,2023年),它不需要分解和模式选择,因此适合作为判断EEMD和VMD阶段贡献的参考。

2.2 数据来源
本研究的数据(水位和浊度)收集来自南卡罗来纳州克莱姆森市Hunnnicutt Creek沿线的三个站点。该微流域覆盖了克莱姆森大学的大部分区域,約940英亩的土地用途包括大学设施的城市景观和建筑工地、南卡罗来纳植物园内的森林和植被区、Calhoun有机农田以及一个高尔夫球场。该流域的特点是流量低、急洪、河岸不稳定以及流动的河床。流域中还有季节性河流、间歇性河流和常年河流的混合。这三个站点分别位于流域的上游(纬度:34.6712°N,经度:82.8158°W)、中部(纬度:34.6677°N,经度:82.8319°W)和下游(纬度:34.6701°N,经度:82.8424°W),以及流域多样化的土地用途,确保了对水质环境影响的全面代表。图2显示了该地区的地图及采样站点的位置。

2.3 案例选择
本研究的案例选择旨在分离出特定风暴事件,在这些事件中,浊度波动的动态不受水位影响。案例选择的工作流程如图3所示。流动水体中的浊度动态强烈依赖于事件和风暴,研究表明浊度响应与流量条件之间存在密切关系(Chen和Chang,2019年;G?ransson等人,2013年;Lawler等人,2006年;Wymore等人,2019年)。在非理想条件下,流量和浊度峰值之间的时间分离(滞后)很小,通常发生在1小时内(在15分钟数据集中大约4个数据点)(Lawler等人,2006年)。模拟表明,这种滞后会使水位和浊度之间的决定系数(R2)降低约0.00-0.07(基于100次蒙特卡洛模拟,每次模拟约有480个数据点,分辨率为15分钟)。这种模拟的R2变化与Wymore等人(2019年)的发现一致,他们报告说浊度峰值与流量峰值之间的6小时滞后仅导致R2增加了0.007。

2.3.1 风暴事件的识别
如图3(框3)所示,通过从高频水位数据集中构建水位超越曲线,计算每个值的出现概率,并识别出与风暴引起的水位升高相对应的显著峰值来识别风暴事件。水位数据分类的阈值基于USEPA(2007年)的标准,以划分离散的风暴事件,反映了数据集中观察到的降水引起的水文响应。相应的图表显示在补充材料中的图S1中。

2.3.2 基于与水位关系的事件筛选
从识别的风暴事件中提取的浊度信号与相应的水位数据进行线性回归分析,计算R2系数,以评估两个变量之间的线性关系(图3的框4)。R2值较高的事件(大于0.60),表明浊度方差的60%可以由水位(流量)解释,被视为水文上一致的(无噪声)事件。而R2值较低的事件被归类为不稳定的事件,需要重建。这种分类阈值区分了浊度动态与水位趋势偏离的事件,同时承认还有其他因素,如邻近的土地利用和覆盖情况以及流域特征,也在决定浊度数据变化中起作用(Rasmussen等人,2009年;Wymore等人,2019年)。在事件准备过程中,浊度值等于零的记录被跳过了,因为接近零的值在物理上是可以接受的。图4a展示了一个稳定事件的例子,而图4b展示了一个不稳定事件的例子。

2.3.3 模型验证
第2.3.2节中描述的选择的水文一致风暴(稳定风暴)被用来验证所提出的框架(图3的框6)。这些事件的特点是浊度与水位之间的关系很强(R2 > 0.6),提供了一个信号已经在物理上连贯的基准条件。与旨在处理噪声主导(不稳定)事件的重建框架不同,使用稳定风暴进行验证是为了评估所提出的框架是否在不引入人工平滑或扭曲的情况下保持了信号的完整性。验证过程没有涉及重新校准或重新定义重建标准;相反,它直接测试了在高质量信号条件下建立的框架的稳健性。使用NSE、JSD、SNR、峰值浊度误差(%)和平均偏差等指标评估了重建的稳定风暴信号与原始浊度数据的对比。

2.3.4 模型应用
然后,选择R2值较低的风暴事件(图3的框7)应用模型来校正浊度数据(如第3.1节所述)。校正后,重新计算了C-Q关系(浊度与水位之间的R2)的改善情况,以及其他指标(均值、中位数),以比较重建前后的性能,并评估模型增强浊度信号真实性的能力。

计算实验是在Google Colab中进行的,使用Python 3和Google Compute Engine后端。Colab环境通过Chrome浏览器版本141.0.7390.108(官方版本,64位)在Windows 11上访问。虚拟机配备了12.7 GB的RAM和107.7 GB的磁盘存储空间。

2.4 统计分析
通过计算原始信号和重建信号之间的均值和中位数的差异来估计它们之间的相似性:即重建前一个事件(一个信号)的均值和中位数与重建后同一事件的均值和中位数之间的差异,涵盖了所有风暴事件。这种方法允许评估重建方法是否系统地改变了数据集的整体中心趋势,而不是特定事件的变异性。使用Shapiro-Wilk检验来评估这些差异的正态性,显著性阈值为p > 0.05。基于正态性测试结果,选择了Wilcoxon符号秩检验(非参数方法)来评估均值和中位数之间的差异,p值阈值为0.05。如果观察到统计上不同的均值或中位数,则使用Cohen的效果量度来量化差异的影响,其中0到1的值分别表示效果较低和较高(Cohen,1988年;Gignac和Szodorai,2016年)。生成了Bland-Altman图来直观评估一致性,将差异与配对中位数的平均值进行对比,并标出±1.96的标准差以近似95%的置信区间,帮助识别系统性偏差或异常值。

此外,还统计评估了重建风暴事件的表现,以确定水位与浊度之间的解释关系是否超过了无噪声阈值(R2 > 0.6)。使用单样本、单尾Wilcoxon符号秩检验来评估重建信号的均值R2是否显著高于阈值,置信水平为95%(α = 0.05)。

3. 结果与讨论
案例选择过程识别出许多稳定和不安定的风暴;选择了19个风暴进行模型框架验证,以及34个不同的不稳定风暴进行重建。这将允许从校正后的数据集中进行统计推断。关于稳定风暴的框架验证和不稳定风暴的重建浊度的结果将在后续部分讨论。

3.1 稳定风暴的框架验证
对于每个稳定风暴,框架的应用与不稳定风暴的过程完全相同。验证的依据在于模型在稳定风暴中能够最小化变形并保留原始趋势的能力。两种模型都生成了与原始稳定浊度信号高度一致的重建结果(表3)。

表3. 应用于19个独立稳定风暴的WMF-EEMD和WMF-VMD的重建性能指标
| 指标 | WMF-EEMD | WMF-VMD |
|----------------|----------------|-----------------|
| NSE | 0.83 ± 0.13 | 0.93 ± 0.04 |
| JSD | 0.18 ± 0.11 | 0.04 ± 0.04 |
| SNR (dB) | 9.81 ± 3.07 | 13.78 ± 2.89 |
| 峰值误差 (%) | 17.72 ± 11.73 | 26.99 ± 11.70 |
| 平均偏差 (NTU) | 11.94 ± 15.99 | -1.24 ± 2.15 |
| 中位数偏差 (NTU) | 15.17 ± 17.90 | 0.69 ± 2.28 |

两种框架一致的较高NSE值和较低的JSD表明模型输出在幅度和分布上与原始信号有很强的吻合度。这些结果表明,模式选择过程有效地保留了主要的流量驱动成分,同时抑制了非流量相关的波动。WMF-EEMD的信噪比为9.81 ± 3.07 dB,WMF-VMD的信噪比为13.78 ± 2.89 dB,进一步证实了重建信号保留了更多的信号能量,尤其是VMD在噪声抑制方面表现更强。JSD结果中的分布一致性也表明WMF-VMD在统计结构保留方面表现更好。尽管这些性能指标很强,但两种方法都表现出不可忽视的峰值衰减,WMF-EEMD的平均峰值误差为17.72%,WMF-VMD为26.99%。这种减少反映了在重建过程中对高频波动的选择性抑制,包括噪声引起的尖峰和部分尖锐的浊度峰值。WMF-VMD观察到的更高峰值衰减与其更强的去噪能力和更窄的信号分离范围一致,表明在积极去除噪声和保留峰值之间存在权衡。VMD的均值和中等偏差也较低,相比EEMD而言,表明VMD在中心趋势上有所偏移。WMF-VMD在NSE、SNR和JSD方面的强劲表现,加上较低的偏差,表明该框架在稳定条件下保持了信号的完整性,没有引入过度的扭曲。观察到的峰值衰减突显了基于去噪的重建中的固有权衡,但并未损害主要水文模式的保留。这些结果为该框架在保持连贯信号真实性方面的能力提供了强有力的验证,从而增加了将其应用于更复杂、受噪声主导的风暴事件的信心。3.2. 与Savitzky-Golay滤波器作为去噪基线的框架比较:34个不稳定的风暴数据经过了SGF处理,SGF是一种计算简单且广泛应用于环境数据去噪的基线方法。结果呈现在表4中(所有34个风暴的完整结果见补充材料表S2)。使用相对于原始信号的重建真实性指标进行评估显示,SGF的表现优于基于分解的方法。具体来说,SGF的平均NSE值为0.736?±?0.144,而WMF-EEMD为0.533?±?0.245,WMF-VMD为0.610?±?0.223。同样,SGF产生的平均信噪比(SNR)也更高(7.793?±?3.347?dB),高于WMF-EEMD的5.018?±?2.333?dB和WMF-VMD的6.121?±?3.316?dB。从表面上看,这些结果表明SGF具有更好的重建真实性。然而,这种明显的优势是因为NSE和SNR都是基于包含噪声和传感器伪影的原始浊度信号计算的。因此,混合模型会因为偏离受污染的参考值而受到惩罚,而SGF主要通过平滑信号而不完全分离噪声成分,从而保留了更多的原始信号结构,从而人为地提高了真实性得分。使用JSD比较分布相似性时,SGF(0.033?±?0.020)和WMF-VMD(0.038?±?0.026)的表现相当,两者都显著优于WMF-EEMD(0.155?±?0.106)。然而,较低的JSD平均值(接近0而非1)表明所有模型在保持浊度浓度的统计分布方面都相似有效,这对于沉积物负荷估计和下游分析等应用非常重要。表4显示了模型重建的评估指标结果。表4. 模型重建的评估指标结果。(S/N) 原始信号 SGF 重建后的EEMD 重建后的VMD R2 R2 NSE JSD R2 NSE JSD R2 NSE JSD 10.52 0.59 0.67 0.02 0.81 0.56 0.21 0.83 0.55 0.012 0.36 0.62 0.62 0.01 0.87 0.39 0.02 0.88 0.41 0.013 0.47 0.60 0.81 0.010.74 0.75 0.03 0.77 0.72 0.014 0.54 0.68 0.77 0.010.72 0.49 0.07 0.84 0.65 0.015 0.30 0.46 0.66 0.030.63 0.36 0.19 0.67 0.46 0.036 0.19 0.39 0.52 0.010.67 0.17 0.27 0.74 0.26 0.017 0.55 0.73 0.020.88 0.61 0.03 0.90 0.62 0.028 0.32 0.57 0.59 0.050.66 0.49 0.44 0.75 0.41 0.069 0.090.26 0.40 0.020.79 0.10 0.060.84 0.070.021 0.23 0.39 0.61 0.030.64 0.47 0.040.69 0.39 0.041 10.30 0.50 0.63 0.050.87 0.30 0.090.89 0.32 0.021 20.23 0.45 0.50 0.020.63 0.33 0.020.63 0.29 0.021 30.53 0.72 0.75 0.030.88 0.64 0.13 0.93 0.57 0.021 40.51 0.65 0.65 0.060.68 0.63 0.17 0.67 0.58 0.041 50.22 0.35 0.52 0.070.65 0.29 0.090.64 0.24 0.08注意:SGF:Savitzky-Golay滤波器;EEMD =集合经验模态分解;VMD=变分模态分解;NSE =Nash-Sutcliffe效率;JSD =Jensen-Shannon散度。当使用独立的物理参考进行评估时,平滑处理与真实信号重建之间的区别变得明显。使用水位作为水文强迫的代理,SGF的平均R2值为0.535?±?0.129,比原始信号平均提高了0.092?±?0.148。虽然这证实了多项式平滑本身可以改善C-Q关系,但SGF仅在34个风暴中的10个(29.4%)达到了R2?=?0.6的稳定性阈值,而WMF-EEMD为22个风暴(64.7%),WMF-VMD为25个风暴(73.5%)。两种基于分解的方法均显著更高的阈值转换率证实了EEMD和VMD阶段提供了多项式平滑无法实现的独立且有意义的改善。基于分解的方法在所有基于R2的比较中都优于SGF。WMF-VMD在34个风暴中的33个(97.1%)上优于SGF,平均ΔR2优势为+0.142,而WMF-EEMD在29个风暴中(85.3%)优于SGF。这些结果表明,自适应信号分解能够恢复多项式平滑无法访问的连贯C-Q结构,这证明了该框架额外的计算复杂性是合理的。3.3. EEMD和VMD的执行和计算要求:EEMD和VMD分解与重建的计算时间比较反映了算法效率的差异。图5显示了比较结果,计算时间的结果见补充表S1。两种方法都表现出执行时间与数据大小之间的正相关关系,但增长速率有很大不同。预测两种方法计算时间的回归方程也显示在图5中。下载:下载高分辨率图片(410KB)下载:下载全尺寸图片图5. EEMD和VMD的计算时间比较。对于数据点少于300的数据集,两种方法所需计算时间相对较短;然而,VMD始终优于EEMD,所需计算时间大约减半。这一优势在大型数据集中更加明显,表明对于处理时间受限的数字水应用(如Sahoo等人,2025年)来说,VMD可能在计算上更高效。EEMD更高的计算复杂性可以归因于其迭代噪声辅助分解和多次集合平均。两种算法在不到5秒内处理数百个数据点,证明了它们的计算效率和适用于近似实时应用和部署的能力。3.4. 不稳定风暴的分解与重建:表4提供了选定的不稳定风暴的两种模型重建结果(所有34个风暴的完整表格见补充材料表S2)。该表格比较分析了原始数据、Savitzky-Golay滤波器以及使用WMF-EEMD和WMF-VMD重建的数据。评估了每个模型的C-Q关系变化(R2)、NSE、JSD、SNR、平均值和中位数等指标。3.4.1. WMF-EEMD混合模型:EEMD将输入数据分解为九个IMF,每个IMF代表不同的波动尺度,从高频噪声到低频趋势。最高频率出现在第一个IMF(IMF1)中,显示了原始信号加上噪声后的显著振荡,而IMF9展示了信号组分的最低频率和整体趋势(浊度信号的EEMD分解示例见补充材料图S2)。图6显示了一些重建信号和原始信号(其他重建信号见补充文档图S5)。下载:下载高分辨率图片(830KB)下载:下载全尺寸图片图6. 数据集中重建信号的示例。如表4所示,EEMD模型的重建在基于误差和统计的性能指标上与原始浊度信号表现出中等到强烈的吻合度。NSE值范围从-0.380到0.840,平均值为0.533。正值表明重建信号捕获了原始数据集中的更多方差。偶尔低于0.4的NSE值(34个中的8个)表明重建信号有时会因为峰对噪声比的显著降低而受到惩罚。这些较低的NSE值通常伴随着较高的JSD、较低的SNR以及重建前浊度与水位之间较弱的关系。较低的NSE值并不一定表示重建性能差;然而,这些值反映了去除的高幅度和频率变化可能与潜在的水文过程无关。所有重建信号中的SNR值范围从0.94到9.94,平均值为5.03?dB,表明大多数数据集中的信号与噪声比率较高,信号组分与浊度信号中的随机波动分离得更好。JSD评估了重建信号与原始信号分布之间的统计一致性,范围从0.02到0.44,平均值为0.15,显示出最小的偏离。这表明平均重建信号没有大幅偏离原始时间序列的统计结构。JSD的最大值(0.44)通过视觉观察得到支持,表明EEMD在模态重建过程中很少引入向上偏移(重建后的偏移示例见补充材料图S4)。这种向上偏移反映了模态重建期间引入的轻微基线偏差,其中残余的低频能量和风暴相关峰的不对称分布导致重建信号略高于原始序列。比较原始和重建浊度信号的集中趋势(平均值和中位数)指标显示出统计学上的显著差异(Wilcoxon符号秩检验W?=?130.00,p?
3.5 讨论
提出的框架在从浊度信号中恢复浓度-流量动态方面表现出稳健且一致的有效性,这些信号在风暴事件中由于噪声污染可能会丢失。浊度是水生系统中悬浮物质、光线穿透和沉积物压力的操作和监管指标,被不同机构采用,并一直作为负荷和营养物估算及合规工作流程中的替代变量(Halliday等人,2012;Harmel等人,2023;Jones等人,2012;Joslyn和Lipor,2018;Rodriguez-Perez等人,2020)。因此,准确量化浊度值,特别是在能够提供评估、归因和管理行动所需时间细节的高频监测程序中,具有生态和管理上的重要性。重建框架的实际价值不仅限于数据质量的提高,还包括对生态监测和管理的直接影响。例如,《水框架指令》中的流域尺度沉积物预算和TMDL估算等框架依赖于浊度的准确量化(作为悬浮沉积物浓度的替代指标)(Harmel等人,2006;Harmel等人,2016;Jones等人,2012;Manfreda等人,2024)。在不稳定的风暴事件中,由于测量偏差导致浊度-流量关系被破坏,这些事件通常会被排除在分析之外,从而在年度沉积物负荷占主导的高能量事件期间引入系统性的数据缺口(Horowitz,2008)。通过恢复大多数不稳定风暴中的水文一致性,混合模型可以显著扩展这些应用的可用记录。然而,在应用模型时需要权衡噪声抑制和峰值减少之间的关系。这些可能错误的峰值和尖峰可能是由光学伪影、碎屑干扰或污染引起的,可能会导致错误的合规性超值、栖息地分类错误或高估悬浮沉积物负荷。观察到的18-25%的峰值衰减意味着重建的浊度记录可能会系统性地低估瞬时峰值浓度,这在急性暴露阈值驱动生态响应的情境中可能具有生态意义。对于此类应用,该框架应被视为提供峰值浊度的保守下限,并且结果应附带明确的不确定性。因此,结合不确定性估计或将重建输出与原始数据检查相结合可能会提高决策的可靠性。

所提出框架的通用性得到了其数据驱动和自适应结构的支持,这种结构不依赖于关于信号平稳性的严格假设。综上所述,该方法可以扩展到其他高频环境数据集,包括电导率、溶解氧和营养物浓度等参数。在当前监测系统中,高频传感器 continuously 生成大量数据,所提出模型的计算效率和可扩展性表明它们适合集成到实时或近实时数据处理流程中。在这些系统中,该框架可以用于自动噪声降低、异常检测和信号增强,从而提高数据可靠性以支持决策。然而,性能可能因流域特征、传感器质量和主导环境过程而异,建议在多样化的水文环境中进行进一步验证。

4. 结论
本研究提出了两种基于加权中值滤波器和EEMD或VMD的简单混合模型,以改善浊度时间序列数据。通过使用具有多样化土地利用的微流域的浊度和水位数据,测试了这些模型的实际适用性。评估了模型的计算时间、拟合优度、统计分布、中心趋势和预测改进,以量化每个模型的输出。对两种模型重建浊度信号的分析揭示了它们不同的性能。研究表明,EEMD和VMD能够有效地将非线性、非平稳的浊度信号分解为IMFs和模式。EEMD重建捕捉了从高频噪声到低频趋势的广泛波动,但在度量范围内变异性较高;然而,该模型计算时间较长,度量范围也更宽。另一方面,VMD表现出更高的一致性和效率,表现为更快的计算时间、更高的平均R2值和更低的JSD值,同时信号的平均值和中位数也略有系统性的偏移。研究表明,信号分解算法EEMD和VMD可以通过改善噪声抑制和保留关键水文动态来有效增强浊度信号重建。这两种模型都提高了浊度数据集的预测性能,并恢复了C-Q动态,强调了它们在预测建模中的使用价值以及作为后续建模的宝贵预处理工具的作用。这两种模型的输出也可以作为机器学习模型的输入,以进一步提高预测性能。未来的工作将致力于通过解决潜在的不确定性来源并探索其适应更广泛水质情境的能力来改进当前框架,同时将模型应用扩展到不同的数据集,这将有助于评估其通用性和长期稳健性。本研究应用的分解方法将信号分解为不同频率尺度的成分。这一特性可能有助于将低频趋势(包括潜在的传感器漂移)与高频噪声分离。然而,尚未在受控漂移情况下进行明确评估,这是未来研究的一个方向。

CRediT 作者贡献声明
A.T. Badrudeen:写作 – 审稿和编辑、可视化、验证、方法论、调查、形式分析、数据整理、概念化。
D. Sahoo:写作 – 审稿和编辑、可视化、监督、软件、项目管理、方法论、概念化。
C.B. Sawyer:写作 – 审稿和编辑、可视化、监督、软件、项目管理、调查、资金获取、概念化。
J.W. Pike:写作 – 审稿和编辑、监督、项目管理、方法论、资金获取。
Vijay P. Singh:写作 – 审稿和编辑、可视化、资源管理、方法论、调查、形式分析、概念化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号