一种基于混合GPR(地面穿透雷达)和Transformer技术的框架,用于在多源岩土工程数据库的驱动下进行考虑不确定性的地层剖面分析
《ADVANCED ENGINEERING INFORMATICS》:A hybrid GPR–Transformer framework for uncertainty-aware stratigraphic profiling driven by multi-source geotechnical databases
【字体:
大
中
小
】
时间:2026年03月16日
来源:ADVANCED ENGINEERING INFORMATICS 9.9
编辑推荐:
精准重建地下岩层结构是岩土工程的关键挑战。本文提出GPR-Transformer混合框架,将高斯过程回归(GPR)的地质先验与Transformer的深度依赖建模相结合,有效解决稀疏异质地质数据下的分层预测难题。实验表明该方法在PRD-CLAY和SH-CLAY数据库中均展现出更高的预测精度(提升8.2%-12.7%)、更稳定的浅层过渡带建模(RMSE降低19.4%)以及清晰的不确定性分层特征(标准差降低23.6%)。该框架创新性地将地质统计学约束融入深度学习架构,为智能地质建模和工程数字孪生提供新范式。
袁怀岑|鲍晓华|李开哲|崔洪志|陈向生
中国广东省深圳市深圳大学土木与交通工程学院智能岩土与隧道国家重点实验室,518060
摘要
从稀疏且异质的地质观测数据中准确重建地下地层结构仍然是数据驱动的岩土分析中的一个关键挑战。现有的机器学习方法主要依赖于纯数据驱动的预测器,但这些方法往往忽略了地质先验知识、深度演化机制以及统一的不确定性量化,从而限制了其在不同地点的可靠性和通用性。为了解决这些问题,本研究开发了一种混合GPR–Transformer框架,该框架将基于高斯过程回归(GPR)的地质统计先验与Transformer架构相结合,以实现连续的深度参数推断。GPR编码了地层的连续性以及从稀疏观测数据中得出的认知不确定性,而Transformer模型通过可学习的位置嵌入和站点感知编码来模拟非线性的垂直依赖关系。此外,通过将GPR先验的认知不确定性与通过蒙特卡洛Dropout估计的模型不确定性相结合,引入了一种混合不确定性融合方案,从而实现了风险意识的地质解释。该框架使用多源岩土数据集进行了评估,并与卷积神经网络、长短期记忆网络以及标准Transformer基线进行了对比测试。结果表明,该框架在预测准确性、稀疏数据条件下的稳定性以及深度方向上的不确定性演变解释能力方面均有所提升。除了准确性的提高之外,本研究还将地层剖面分析正式化为一种可泛化的先验引导的序列推断任务,为地下信息建模、智能场地特征描述以及岩土工程的数字孪生技术提供了方法论基础。
引言
在都市地区,开发地下空间已成为缓解地表土地有限压力的一种关键策略。然而,这种快速扩张使得深部粘土参数的准确表征成为岩土设计和风险管理的重大挑战。粘土在沿海城市和河口三角洲地区较为常见,通常具有高压缩性、大的孔隙比和低强度[1]。这些性质的深度依赖性变化直接影响地铁、隧道等地下结构的稳定性[2]。传统的场地调查受到成本和技术限制,钻孔数据很少能深入到30米以下[3]。因此,深层土壤的岩土特性仍然不明确,因为长期的固结和结构重组可能导致其性质与浅层土壤有显著差异。由于深层调查数据的稀缺,工程实践往往依赖于简化的假设或经验性扩展,这可能会引入额外的设计不确定性和风险。因此,在有限的地下信息条件下实现深层粘土地层的可靠深度表征是一个关键挑战。
由于复杂的地质起源和环境因素,土壤表现出明显的空间变异性,这成为岩土工程中不确定性的主要来源[4]、[5]。为了解决这一不确定性问题,数据驱动的方法被广泛用于预测岩土参数[6]、[7]、[8]。机器学习模型可以提供快速准确的预测,但当数据稀疏或场地条件异质时,它们的泛化能力较差。同样,岩土工程中的数字孪生应用需要能够通过多源监测数据动态更新的数值模型[9]、[10],但大多数当前的研究仅关注仪器测量点,而忽略了连续的空间分布[11]。大规模数据库支持了土壤强度的区域性预测的经验相关性研究[12]。然而,经验公式、理论模型和优化方法通常依赖于单一数据源,无法捕捉土壤的多维特性[13]。实际上,岩土数据往往是多变量、不确定、独特、稀疏和不完整的(MUSIC),这限制了传统经验方法的可靠性[5]、[14]。
近年来,岩土研究越来越多地采用数据驱动的方法[15]、[16]。系统化的数据库开发现在为统计分析、概率建模和智能预测提供了基础[17]。全球已建立了几个有影响力的粘土数据库。例如,Ching和Phoon[18]编制了CLAY/10/7490,这是一个包含来自30个国家7,490个样本的十个关键参数的全球数据库。该数据集揭示了液限、塑性指数和流动性指数等指标之间的统计相关性,支持多变量概率建模。随后,Ching等人[19]开发了CLAY-Cc/6/6203,这是一个包含来自6,203个样本的六个与压缩性相关参数的全球数据库,已被广泛应用于压缩性的贝叶斯推断和近场特定预测。在此基础上,Phoon等人[14]进一步推进了数据库框架内的不确定性及风险量化,促进了岩土参数的区域化和标准化。在区域尺度上,还开发了几个专门的数据库。D Ignazio等人[12]为芬兰和斯堪的纳维亚地区建立了F-CLAY/7/216和S-CLAY/7/168,突出了不排水抗剪强度的区域差异。在中国,张等人[3]利用上海丰富的钻孔记录构建了SH-CLAY/11/4051,记录了沿海海洋粘土的工程特性。总体而言,全球数据库具有较大的样本量和广泛的地理覆盖范围,但它们往往缺乏区域一致性,并使用不同的指标。相比之下,区域数据库能更好地捕捉场地特定特征,但其空间覆盖范围有限。
传统的回归和插值方法(如线性回归、多项式拟合和克里金法)已被广泛用于预测岩土参数[21]、[22]、[23]。然而,这些方法在捕捉非线性关系和复杂的深度依赖性变化方面存在局限性。随着数据驱动方法的进步,机器学习在岩土工程中的应用日益增多。支持向量机(SVM)[24]、随机森林(RF)[25]、人工神经网络(ANN)[26]、卷积神经网络(CNN)[27]和循环神经网络(RNN, LSTM)[28]、[29]等模型在预测土壤强度[30]、[31]、估计压缩性[32]和填补缺失参数[34]方面表现出有效性。然而,这些方法仍面临一些挑战,包括跨区域的泛化能力有限、难以重建连续的深度剖面[35],以及在不确定性无法完全量化的稀疏数据区域中可靠性较差[36]、[37]。此外,实证研究表明粘土行为的区域变异性显著[38],而传统的多变量概率模型虽然能够捕捉整体相关性,但无法表示非线性的深度依赖趋势[18]。因此,预测粘土参数仍然面临三个主要挑战:(i)岩土参数之间的非线性耦合;(ii)由沉积环境驱动的强烈区域变异性;(iii)深层土壤数据获取有限,阻碍了可靠的剖面预测。现有方法通常遵循两条路径:统计回归[39],它可以捕捉广泛的相关性,但无法解决深度方向的变异性;以及机器学习[40],它可以有效建模非线性,但在处理长距离依赖性和跨区域泛化方面存在困难。最近,Transformer架构作为一种强大的序列建模工具出现,利用自注意力机制捕捉长距离依赖性[41]。其并行处理能力和处理深度序列中的不连续性的能力使其特别适合构建连续的地层剖面[42]、[43]。尽管具有这种潜力,但在岩土工程中应用Transformer仍然较少,尤其是在系统整合多源数据库进行深度土壤特征描述方面。
总之,现有的预测深度粘土参数的方法受到稀疏的深层土壤观测数据、有限的跨区域泛化能力和不确定性量化不足的制约。为了解决岩土数据的MUSIC特性,本研究开发了一种混合GPR–Transformer框架,将地质统计先验与深度序列学习相结合。在该框架中,高斯过程回归(GPR)作为地质统计先验,通过提供物理上一致的趋势估计和认知不确定性量化来减轻数据的稀疏性和不完整性,特别是在采样有限的深层地层中。同时,Transformer架构通过多头自注意力和站点感知嵌入明确地模拟了多变量依赖性和特定区域特征,确保了复杂剖面中信息的稳健传播。这种集成方案还提供了全面的不确定性度量,支持基于置信度的地层解释和基于风险的岩土决策。本文的其余部分安排如下:第2节介绍多源粘土数据库的构建和统计特性;第3节介绍所提出的基于先验的混合GPR–Transformer框架;第4节通过基准测试和消融分析评估其在PRD-CLAY/6/3664数据库上的性能;第5节使用独立的上海数据库(SH-CLAY/11/4051)检验其跨区域通用性;第6节解释不确定性结果,并讨论工程意义和局限性。
部分摘录
PRD-CLAY/6/3664区域数据库
为了解决粘土性质的显著区域变异性以及直接应用经验相关性的局限性,我们开发了一个包含珠江三角洲34个站点的区域粘土数据库,命名为PRD-CLAY/6/3664。该数据库整合了深圳、广州、珠海及周边城市主要基础设施项目的场地调查记录和实验室测试结果(图1)。这些数据集来自常规的岩土调查
模型架构
如图5所示,本研究提出了一种基于先验的混合建模框架,将统计地质先验与深度序列学习相结合,以实现基于不确定性的地层剖面分析。与传统的纯数据驱动模型不同,所提出的方法将Transformer的条件设置为从GPR获得的后验均值和方差,从而使得深度预测既受数据驱动模式的指导,也受地质统计趋势的指导。
GPR用于提供深度方向的
数据预处理和序列构建
PRD-CLAY/6/3664数据库包含来自34个站点的钻孔记录。本研究中使用的钻孔数据遵循第2.1节定义的数据库准入和质量控制标准。在移除空条目和不符合物理一致性要求的记录后,汇总每个站点的钻孔数据以获得具有代表性的深度地层剖面。然后应用GPR对得到的(z, y(z))对进行重建,以获得连续的趋势μgpr(z)和认知不确定性
SH-CLAY/11/4051数据集
为了严格评估所提出的GPR–Transformer框架的跨区域适用性,选择了上海软粘土数据库SH-CLAY/11/4051[3]作为目标领域。尽管PRD-CLAY和SH-CLAY都源自沿海-三角洲沉积环境,但沉积相和应力历史存在显著差异,使得SH-CLAY成为评估在未见过的土壤条件下的泛化能力的合适数据集。为了与建模系统保持一致
不确定性量化
图16展示了PRD-CLAY/6/3664中34个站点的四个岩土参数的深度不确定性分区。总体而言,不确定性分布显示出明显的地质规律性。低不确定性区域集中在钻孔信息丰富且沉积条件相对均匀的浅层。这些区间显示出稳定的深度趋势和较高的模型置信度。中等不确定性区域主要出现在中层
结论
开发了一种混合GPR–Transformer框架,用于从稀疏和不规则的钻孔观测数据中重建连续的深度地层剖面,并明确量化不确定性,以支持基于风险的地质解释。该框架使用PRD-CLAY/6/3664多源数据库进行训练,并与区域和全球数据集进行了对比测试。主要结论如下:
(1)构建了一个区域多源粘土数据库(PRD-CLAY/6/3664),包含来自34个
CRediT作者贡献声明
袁怀岑:撰写——原始草稿,软件开发,数据管理。鲍晓华:撰写——审稿与编辑,验证,概念化。李开哲:软件开发,调查,数据管理。崔洪志:监督,方法论,调查。陈向生:监督,资源获取。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了国家自然科学基金(编号:52525805)的全力支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号