水分配网络(WDN)是重要的基础设施,通过为家庭消费和工业活动提供水资源,支撑着现代城市的日常运营和可持续发展[1]。不幸的是,由于其结构脆弱性和周围服务环境的复杂性,WDN容易发生频繁的管道故障,如老化、泄漏和爆裂,导致大量水资源浪费和重大经济损失[[2], [3], [4]]。更严重的是,这些故障可能引发次级安全事件,并演变成更广泛的基础设施故障,包括道路坍塌和交通拥堵,从而对城市公共安全构成严重威胁[5,6]。最新统计数据显示,2023年中国城市公共WDN的泄漏率为12.8%[7],同时发生了678起与WDN相关的事故[8]。这凸显了可靠的管道故障预测模型在指导WDN的常规维护和资产管理中的重要性和必要性。
供水管道故障预测是城市基础设施可靠性和安全性的一个关键研究课题,因为它具有重要的实际工程意义。在过去几十年中,已经开发了多种方法来模拟供水管道的劣化过程并预测管道故障。这些方法通常分为传统的物理和统计方法,以及最近的数据驱动机器学习(ML)方法[9,10]。每种方法都有其固有的优势和局限性,这些限制了它们的广泛应用。物理模型试图通过分析作用在管道上的载荷以及管道抵抗这些载荷的能力来评估管道故障风险[11]。具体来说,这些模型包括确定性模型和概率模型,这取决于是否考虑了机械参数的不确定性。确定性物理模型根据通过比较管道的抵抗力和载荷计算出的管道结构安全系数来评估管道的运行风险和剩余使用寿命[12,13]。概率物理模型考虑了管道埋深、抗拉强度和腐蚀率等参数的不确定性,然后使用蒙特卡洛模拟(MCS)和一级可靠性方法(FORM)等方法来评估管道的故障概率和可靠性[[14], [15], [16], [17], [18], [19]]。通过利用机械原理,物理模型提供了对管道故障机制的直观解释。然而,这些模型通常依赖于简化的假设,这使得它们难以全面考虑现实世界环境中导致管道故障的众多因素,从而影响了它们的可靠性和适用性。统计模型基于历史管道故障数据开发,使用数学方法确定各种影响因素与管道故障参数(如故障率、故障时间和故障概率)之间的关系[20]。常用的供水管道故障预测统计模型包括参数模型,如Weibull分布模型[21,22]、Poisson分布模型[23,24]和Cox比例风险模型[25,26],以及非参数模型,如贝叶斯网络[27]和分层贝塔过程[28]。这些模型相对简单实用,因为它们依赖于实证数据而不是预先假设的机械理论。然而,它们简化的数学结构限制了它们捕捉和表示各种因素与管道故障之间复杂非线性关系的能力。
随着人工智能的发展,各种ML技术已被广泛应用于预测供水管道故障[[29], [30], [31], [32], [33], [34], [35], [36]]。这些数据驱动模型具有强大的非线性建模能力,可以从WDN生命周期中生成的大量运营数据中提取管道故障模式,包括地理信息系统(GIS)数据、监控控制和数据采集(SCADA)数据,以及巡逻、维护和更新记录[37]。例如,Fan等人[38]开发了五种ML算法,包括逻辑回归(LR)、支持向量分类(SVM)、k最近邻(KNN)、LightGBM和人工神经网络(ANN),用于预测克利夫兰水务部门管理的WDN中的管道故障。其中,LightGBM表现最佳,AUC超过了0.9。Liu等人[39]研究了两种深度学习模型(包括卷积神经网络(CNN)和残差网络(ResNet)在预测中国WDN中的管道故障方面的有效性,发现ResNet的表现优于CNN。Taiwo等人[40]引入了集成学习模型,即堆叠和投票分类器,用于预测香港的供水管道故障。此外,还将统计方法和ML模型结合的方法也用于管道故障预测。Snider和McBean[41]将生存分析技术整合到ML框架中,开发了一个随机生存森林(RSF)模型,该模型结合了右删失的管道破裂信息来预测加拿大WDN中的管道故障。Hu等人[42]将确定性因子(CF)模型与SVM结合,以管理管道故障中由多种因素引起的不确定性,从而提高了管道故障预测的准确性。Kang等人[43]提出了一个可解释的生存分析与类不平衡缓解框架(ISACIM),用于预测管道泄漏,将静态风险评估与动态生存分析相结合。然而,这些纯数据驱动模型的性能在很大程度上依赖于数据的质量和可用性。需要大量干净、具有代表性且非稀疏的数据来正确构建模型[44]。由于管道的埋设性质、较旧的建造日期以及之前缺乏基于信息的运营和维护技术,许多地区的WDN运营数据不可避免地存在质量问题,如缺失值、噪声、错误和稀疏性。此外,众多因素会导致管道故障,从各个市政机构获取这些因素的充分数据并不现实。基于不足或代表性不足的运营数据开发的模型往往无法准确反映WDN系统的行为,导致预测结果偏差,并且物理可解释性有限。这些因素对开发可靠的ML模型以预测供水管道故障构成了重大挑战。
为了应对这些挑战,人们意识到混合物理和数据驱动模型是预测供水管道故障的下一步。物理信息驱动的机器学习(PIML)范式最初是为了解决偏微分方程(PDEs)而引入的[45]。Karpatne等人[46]正式概念化了这一范式,并提出了几种将领域知识与数据驱动解决方案相结合的方法。近年来,这种混合方法已广泛应用于城市基础设施系统的异常检测和状态监测,如盾构隧道姿态预测[47]、混凝土结构健康监测[48]和涡流诱导振动诊断[49]。这些应用有效地提高了复杂工程系统的预测能力[50],详细研究了将物理原理整合到ML模型中的方法,并评估了它们在异常检测和状态监测特定任务中的适用性。一般来说,有四种主要的框架用于整合物理和数据驱动模型:(i)物理嵌入特征空间,(ii)物理信息驱动的正则化,(iii)物理指导的架构设计,以及(iv)数据增强的物理模型细化。前两种框架目前应用最为广泛。具体来说,第一种框架用物理知识增强ML模型的特征空间,而第二种框架将物理约束引入损失函数以指导模型训练。管道故障机制的固有复杂性和广泛的影响因素使得难以构建准确捕捉系统参数与管道故障之间关系的PDEs。因此,直接将这些PDEs纳入ML模型的损失函数是不切实际的。在这些框架中,物理嵌入特征空间为供水管道故障预测提供了一种潜在可行的知识-数据融合解决方案。
本研究的主要目标是提出一种新的混合物理信息驱动和数据驱动方法,将先前的机械知识与WDN的运营数据相结合,以提高供水管道故障预测的准确性。数据驱动的ML模型作为混合模型的主要架构,而通过机械方法得到的扩展物理特征作为明确的物理约束纳入ML模型的运营数据特征空间。通过模型可解释性分析,探讨了扩展物理特征的有效性以及各种运营因素对管道故障的贡献。在中国一个大型WDN上进行了全面的案例研究,以展示所提出混合模型的性能。