利用鲁棒可能性模糊C均值算法识别污水处理过程中不平衡的工作条件

【字体: 时间:2026年02月28日 来源:Process Safety and Environmental Protection 7.8

编辑推荐:

  鲁棒可能模糊C-均值算法通过指数函数降噪和加权策略处理类别不平衡,结合内外循环优化自动确定聚类数,实验验证其在污水处理工况识别中准确性和鲁棒性优于对比算法。

  
李文静|于子尚|乔俊飞
北京工业大学信息科学与技术学院,中国北京100124

摘要

准确识别污水处理厂(WWTP)的运行条件对于确保系统安全、优化运行效率以及降低能耗至关重要。然而,由于废水成分的复杂性和环境变化的不确定性,这一任务极具挑战性。为了解决这个问题,提出了一种鲁棒的模糊C均值(RPFCM)算法,以提高对WWTP不平衡运行条件识别的准确性。首先,为RPFCM构建了一个新的目标函数,其中包含一个指数函数以减少噪声的影响,并采用了一种加权策略来解决簇不平衡问题。其次,提出了一种基于内外循环的优化方法,迭代更新目标函数以在不同簇数下生成聚类结果。最后,引入了一种基于图表的搜索策略来确定最优簇数,从而获得更好的聚类结果,提高了RPFCM算法在WWTP中的准确性。实验结果表明,RPFCM在所有比较算法中表现最佳。此外,RPFCM在处理少数簇和多数簇时都表现出优异的性能,这表明其加权策略在处理不平衡运行条件时具有优越性。进一步证明,通过引入指数函数,其抗噪声能力得到了增强。

引言

由于废水成分的复杂性以及受环境因素的影响,污水处理过程(WWTP)通常在多种运行条件下进行(Xu等人,2024年;Cheng等人,2021年)。识别运行条件使操作人员能够优化处理过程,从而确保系统安全并降低能耗(An等人,2024年)。此外,这有助于防止异常情况的发生,保障WWTP的安全运行(Yu等人,2023年)。因此,准确识别运行条件对于WWTP的运行至关重要。
然而,WWTP中运行条件的识别面临许多困难。首先,由于运行条件的复杂性和成本限制,难以获得大量标记的运行条件样本,这限制了监督方法在运行条件识别中的应用(Alvi等人,2023年;Zhu等人,2022年)。其次,运行条件的出现频率不同,这种不平衡可能导致识别准确性下降,尤其是对于出现频率较低的运行条件(Chen等人,2024年)。因此,增加了异常情况的风险,从而影响整体运行效率和安全性(Thabtah等人,2020年)。此外,获取的数据受到噪声污染,影响了识别的准确性和可靠性。这些问题给WWTP中的运行条件识别带来了巨大挑战。
作为一种无监督学习方法,聚类分析将相似的样本归为一类,将不同的样本分配到不同的簇中,由于不需要预标记数据,因此被广泛用于运行条件识别(Jain等人,1999年)。基于距离的聚类方法使用距离作为衡量样本相似性的指标,提供了一种快速、直观且计算效率高的数据处理和分析方式,因此受到许多研究人员的青睐(Wang等人,2023年;Szel?g等人,2023年)。作为经典的基于距离的聚类方法,K-means算法已被广泛用于运行条件识别,并应用于许多工业过程。例如,Yiakopoulos等人(2011年)将K-means聚类算法应用于滚动元件轴承的故障诊断,证明了其在性能和计算复杂性之间的良好平衡。此外,许多研究人员在初始聚类中心的确定和簇数的选择(Zhao等人,2017年;Khan等人,2019年)以及不平衡数据的聚类增强(Wang等人,2021年;Zhang等人,2023年)方面对K-means算法进行了改进,这些改进在实际应用中显示出显著的效果。然而,K-means算法严格将每个样本分配到单一的运行条件下,这不适合像WWTP这样的工业过程,因为WWTP中的生化反应非常复杂,运行条件的边界不明确。因此,在这种情况下,更倾向于使用软聚类方法,因为它具有灵活性。
模糊C均值(FCM)算法作为一种流行的软聚类算法,允许数据点属于多个簇,并具有不同的隶属度。这种软分区的特性使FCM算法能够更有效地处理数据的模糊性和不确定性,因此常用于工业过程中的运行条件识别(Hu等人,2020年)。然而,FCM算法对噪声和异常值非常敏感(Tushir和Srivastava,2010年;Sharma等人,2013年),为此提出了几种改进方法。例如,Krishnapuram和Keller(1996年)提出了可能性C均值(PCM)算法,并证明其对噪声和异常值的鲁棒性很高。然后,通过将PCM与FCM结合,提出了可能性模糊C均值(PFCM)算法,以提高其鲁棒性(Pal等人,2005年),并已成功应用于高压电容式电压变压器的内部绝缘状态识别(Meng等人,2020年)。然而,当存在少量异常值时,PFCM算法的性能并不令人满意。为了进一步提高对噪声和异常值数据的处理能力,Askari等人(2017a;Askari等人,2017b)提出了广义可能性模糊C均值(GPFCM)算法和基于广义熵的可能性模糊C均值(GEPFCM)算法,通过使用改进的距离函数代替传统距离来减少噪声对簇中心的影响。将这两种算法应用于实际的气体消耗数据集,结果显示它们在处理噪声和异常值方面优于PFCM,但同时也表现出较高的计算复杂性。
此外,由于FCM基方法对簇大小敏感(Fu等人,2021年;Zhou等人,2016年),许多研究人员致力于解决簇不平衡问题。例如,Lin等人(2014年)提出了一种不受簇大小影响的基于完整性的FCM(siibFCM)方法,通过考虑簇的紧凑性和纯度来解决簇不平衡问题,并进一步添加了基于纯度的模糊因子来克服噪声问题(Lin等人,2015年),实验结果表明其在图像分割应用中具有高精度。Ma等人(2012年)引入了类间加权和随机过采样到基于模糊C均值聚类的FSVM(FCM-FSVM)和基于核模糊C均值聚类的FSVM(KFCM-FSVM),使其能够处理电力变压器故障诊断中的簇不平衡和噪声问题。Askari(2021年)通过一种不受簇大小影响的机制改进了FCM算法,防止大簇吸引小簇的中心。Yu等人(2024年)提出了一种基于特征加权的抑制可能性模糊C均值(FW-S-PFCM)算法,通过将特征加权方法和抑制竞争学习策略集成到PFCM中,有效解决了特征不平衡问题并解决了噪声多维数据集中的中心重叠问题。尽管上述改进算法在处理噪声和簇不平衡问题方面表现良好,但它们对需要预先确定的簇数量敏感。因此,更灵活的方法值得进一步研究。
在本研究中,提出了一种鲁棒的可能性FCM算法(RPFCM),旨在:(1)提高WWTP中不平衡运行条件的识别准确性;(2)增强对噪声的鲁棒性,并在噪声环境中保持准确的识别;(3)通过自动确定簇的数量来适应像WWTP这样的复杂工业过程。

部分摘录

材料与方法

本文提出的用于识别WWTP不平衡运行条件的RPFCM算法的完整框架如图1所示。为了验证该方法的有效性,使用从基准模拟模型No. 1(BSM1)中获得的废水处理数据进行了实验。
在这方面,首先介绍了BSM1废水处理模拟模型(第2.1节),然后是在多种运行条件下进行的数据收集

结果与讨论

在本节中,使用从BSM1平台获得的数据集验证了RPFCM算法的有效性,并进一步将其与FCM、PFCM和MACW算法进行了比较,从不平衡数据集的性能和噪声环境下的鲁棒性角度进行了评估。如第2.1节所述,输入变量是BOD和COD,它们与不同的运行条件密切相关,并来源于BSM1模型的13个基本状态变量,如表I所列。

结论

本研究提出了一种鲁棒的可能性FCM算法,以提高WWTP中不平衡运行条件识别的准确性。该方法提供了一种新的目标函数,其中包含加权策略和指数函数,共同提高了算法处理复杂和不平衡场景的能力以及对噪声的鲁棒性。为了评估RPFCM算法的有效性,使用了从BSM1收集的四个模拟数据集

利益声明

无。

未引用的参考文献

(Batstone等人,2023年;Chang和Meng,2024年;Wang,2023年;Yu等人,2023年;Zhou和Yang,2016年;Zhang等人,2025年)

CRediT作者贡献声明

李文静:撰写——原始草稿,监督,方法论,资金获取。于子尚:撰写——原始草稿,可视化,验证,方法论。乔俊飞:撰写——审稿与编辑,项目管理,资金获取。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号