基于特征优化和两阶段集成学习方法,对隧道施工过程中涌水情况进行智能预测

《Engineering Applications of Artificial Intelligence》:Intelligent prediction of tunnel water inflow during construction based on feature optimization and two-stage ensemble learning

【字体: 时间:2026年02月27日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  隧道涌水预测面临多维度特征耦合、模型泛化不足及解释性差等问题。本研究提出融合特征优化与两阶段集成学习的智能预测框架:首先基于随机森林筛选关键特征(贡献度≥95%),其次构建六种异构基模型(如XGBoost、LightGBM)的集成架构,通过决策树实现预测融合,并可视化决策路径揭示特征-响应机制。验证表明,相较传统模型,预测精度提升14.6%-45.4%,在复杂地质条件下仍保持强泛化能力与工程实用性。

  
姚夏一|黄明莉|史法顺|于柳城|方英然
教育部城市地下工程重点实验室,北京交通大学,北京,100044,中国

摘要

长期以来,隧道施工过程中水流入的准确预测一直受到三个关键挑战的阻碍:显著的多维特征耦合效应、模型泛化能力不足以及解释性差。为了解决这些问题,本研究提出了一个结合特征优化和两阶段集成学习的智能预测框架。该方法包括三个主要组成部分。首先,使用随机森林算法识别关键预测因子,从而有效评估特征相关性。其次,通过集成六个异构的基础学习器构建基于堆叠的集成架构来提取多模式特征,并通过元级决策树模型进行预测融合。第三,通过可视化决策树节点分裂来实现模型解释性,揭示控制隧道水流入的特征-响应机制。使用来自山区隧道项目的现场监测数据进行验证表明,所提出的框架显著提高了预测精度,与传统基线模型相比,均方根误差降低了14.6%–45.4%,同时在地质不确定性条件下表现出强大的泛化能力。解释性分析提供的明确决策路径为施工阶段的风险预防和控制提供了实际指导,证实了该框架在计算可靠性和工程应用性方面的优势。

引言

近年来,交通基础设施的持续扩展推动了隧道建设向地质条件日益复杂、埋藏深度更大的山区发展(Dong等人,2023年)。在这种环境下进行隧道挖掘时,突然的水流入已成为最常见的危险地质问题之一。这些事件可能导致严重的伤亡和经济损失,同时也会对施工安全和周围环境构成重大威胁,从而阻碍隧道项目的安全高效实施(Dong等人,2023年;Jin等人,2025年;Xiang等人,2023年)。全球范围内严重的隧道水流入事故频繁发生,进一步凸显了准确预测水流入的重要性,以降低施工风险并支持隧道施工期间的有效规划和管理(He等人,2023年)。
在过去几十年中,已经开发了多种预测隧道水流入的方法,包括分析方法、经验方法、数值方法和基于人工智能的方法。分析方法通常基于理论模型,如镜像法、复杂函数法和球坐标变换(Wang等人,2021年;Xiang等人,2023年;Zhang等人,2020年)。这些方法计算效率高且简单直观,但它们依赖于关于几何形状和地下水条件的简化假设,这限制了它们在复杂水文地质环境(如裂隙岩体)中的应用。随着施工环境变得越来越复杂,这些方法的局限性变得更加明显。经验方法可以提供水流入量的定性或定量估计,包括地下水分类、隧道流入分级和渗流率计算(Maleki,2018年;Ostad-Ali-Askari等人,2017年;Zarei等人,2013年)。数值方法,如有限元法、有限差分法和离散元法,在模拟复杂水文地质过程方面非常有效(Long和Tan,2020年)。然而,这些方法通常需要详细的水文地质数据和模型简化,导致数据采集成本高且在工程应用中的实用性有限。
随着计算机技术的进步,由于机器学习方法具有高预测精度和强大的适应性,它们在隧道工程中的应用日益增多(Mahmoodzadeh等人,2021年)。在隧道水流入预测方面,一些研究探索了不同的机器学习模型。Shucai Li等人首次引入高斯过程回归(GPR)进行隧道水流入预测,并证明了其相对于人工神经网络和支持向量回归的优越性能(Li等人,2017年)。随后,Arsalan Mahmoodzadeh等人应用了多种模型,包括长短期记忆网络、深度神经网络、K最近邻算法、GPR和支持向量回归(SVR)来预测隧道水流入(Mahmoodzadeh等人,2021年)。然而,大多数这些研究依赖于单一模型结构,这些模型往往难以捕捉多源水文地质参数之间的强非线性耦合,导致泛化能力有限和预测性能不稳定。
为了进一步提高预测精度,一些研究引入了模型优化或混合策略。Shi Chen和Shuning Dong开发了一个结合变分模态分解、抗异常极端学习机和多目标灰狼优化器的混合模型,提高了预测性能(Chen和Dong,2020年)。Jian Zhou等人提出了一种结合灰狼优化和随机森林(RF)的模型,用于施工过程中的隧道水流入预测(Mahmoodzadeh等人,2022年;Zhou等人,2023年)。此外,基于基因表达编程的模型也显示出了有希望的结果(Mahmoodzadeh等人,2024年)。尽管取得了这些进展,大多数现有方法仍然关注单一模型或单层优化,而对多模型协作学习的系统研究仍然有限。此外,这些模型的决策过程往往解释不足,这限制了它们的实际工程应用性。
集成学习结合了具有不同学习机制的多个模型,提供了一种有效的方法来克服单一模型的局限性,并在精度、稳定性和泛化能力方面表现出优势。集成学习的成功应用已在隧道岩体分类(Shahani等人,2022年)和岩爆强度预测(Sun等人,2024年)中得到报道。然而,在隧道水流入预测方面,同时考虑特征优化和集成建模的集成框架仍然缺乏,且此类模型的明确设计指南尚未完全建立。
特征选择是直接影响机器学习模型预测性能和计算效率的关键步骤。在隧道工程研究中,特征选择方法从早期基于皮尔逊相关性和相关矩阵的统计筛选方法(Kannangara等人,2022年;Wang等人,2023年)发展到更先进的框架,这些框架结合了基于随机森林的重要性评估、递归特征消除、贝叶斯推断和SHapley加性解释(SHAP)分析(Shi等人,2024年;Song等人,2024年;Xiang等人,2023年)。这些方法在识别关键水文地质因素和一定程度上提高预测精度方面显示出潜力。然而,在隧道水流入预测中,特征选择通常被视为一个独立的预处理步骤,并未与集成模型的设计和学习机制有效协调,其在整个多模型集成框架中的角色及其对预测性能和计算效率的综合影响尚未得到充分探索。
模型解释性对于提高机器学习方法的透明度和工程可靠性至关重要,并在隧道工程中受到了越来越多的关注。现有研究主要集中在基于模型的内在解释和事后分析,包括基于极端梯度提升(XGB)和极端随机树的解释,用于解释沉降和岩爆机制(Shi等人,2024年;Wang等人,2023年),以及基于因果推理和SHAP的全局或局部特征贡献分析(Jin等人,2025年;Kannangara等人,2022年;Kilic等人,2023年)。还探索了替代模型和混合解释策略来提高解释性(Chen等人,2023年;Li和Dias,2024年;Wang等人,2023年)。尽管取得了这些进展,大多数现有研究仍然关注单一模型,而对集成学习模型的系统解释性分析——特别是关于如何整合多个基础学习器的预测结果以及如何在不同层次上形成决策——仍然有限。对于高风险的工程问题(如隧道水流入预测),模型的透明度对于实际应用和决策支持至关重要。
基于上述研究空白,本研究提出了一种通过结合特征优化和两阶段集成学习框架来预测施工过程中隧道水流入的智能方法。首先使用RF算法对特征贡献进行排序,从而识别关键控制因素并减少特征冗余。随后,开发了一种基于堆叠的两阶段集成结构,其中多个异构的基础学习器协同提高预测精度和稳定性,同时采用决策树(DT)作为元学习器来有效融合预测结果。此外,通过可视化DT节点分裂来解释模型的决策过程,揭示特征变量与水流入响应之间的关系。通过同时提高预测性能和解释性,所提出的方法为复杂水文地质条件下的隧道水流入风险预测和施工决策提供了实用可靠的解决方案。

章节摘录

特征集介绍

特征贡献是一个关键指标,用于衡量每个特征变量对目标变量的影响程度。为了研究影响隧道水流入的因素,本研究回顾了工程案例研究和相关文献,列出了可能影响水流入的特征,如表1所示。基于这些特征,构建了一个综合特征集,其中包括:隧道深度(D)、覆盖层厚度、从上覆断裂带到...

基于两阶段集成学习的水流入预测

根据特征贡献排名结果,选择了关键特征进行进一步分析。由于单一模型在提取复杂特征方面的局限性,它们的预测性能和鲁棒性存在固有瓶颈。因此,为了实现更科学和准确的预测,本研究提出了一种可解释的两阶段集成学习模型,旨在提高隧道施工过程中的水流入预测性能。

预测工程实践中的水流入故障

本节使用一个真实的隧道施工案例来验证所提出的两阶段集成方法的有效性。进行了比较分析,以证明其优越的预测性能和强大的解释性。所有模型均在基于Python 3.12编程语言的PyCharm 2023.3.7开发环境中实现。执行系统为Windows,硬件配置为Intel(R) Core(TM) i7-14700HX @ 5.50 GHz CPU和16 GB内存

结论

本研究提出并验证了一种基于特征优化和两阶段集成学习的隧道水流入预测方法。对中国西部山区隧道工程数据集进行的系统实验得出了以下关键发现:
  • (1)
    特征优化机制:使用随机森林(RF)的双标准筛选技术(基尼系数-排列准确性)识别出WYP、UG、AT、WH、RSO和RQD作为关键控制因素(累积贡献≥95%)。
  • CRediT作者贡献声明

    姚夏一:撰写——原始草案、验证、方法论、调查、形式分析、概念化。黄明莉:撰写——审阅与编辑、资源管理、项目协调、资金获取、概念化。史法顺:撰写——审阅与编辑、方法论、数据管理。于柳城:撰写——审阅与编辑、可视化、数据管理。方英然:可视化、数据管理。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了中国国家铁路集团有限公司科学技术研究与发展计划的支持。(编号:P2019G055)。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号