利用稀疏传感器测量数据自动监测深挖引起的水平位移:一种循环神经网络方法

《Soils and Foundations》:Automated monitoring of deep excavation-induced horizontal displacements using sparse sensor measurements: A recurrent neural network approach

【字体: 时间:2026年05月02日 来源:Soils and Foundations 3.3

编辑推荐:

  陈晨|李卓峰|吕青|冯松|詹良通|陈云敏|刘星旺 中国杭州城市大学工程学院,杭州310015 **摘要** 随着挖掘项目复杂性的增加,对自动化监测系统的需求也在增长,因为这些系统能够提供连续的实时数据采集。然而,传统的使用自动倾角计的方法由于需要密集布置传感器以实现

  陈晨|李卓峰|吕青|冯松|詹良通|陈云敏|刘星旺
中国杭州城市大学工程学院,杭州310015

**摘要**
随着挖掘项目复杂性的增加,对自动化监测系统的需求也在增长,因为这些系统能够提供连续的实时数据采集。然而,传统的使用自动倾角计的方法由于需要密集布置传感器以实现准确的数据收集而成本较高。本研究介绍了一种新的循环神经网络(RNN)框架,该框架利用稀疏的传感器数据来预测挖掘引起的水平位移。通过使用中国杭州两个深挖现场的实地数据,评估并比较了三种RNN变体——长短期记忆网络(LSTM)、门控循环单元(GRU)和双向LSTM(BiLSTM)与传统的机器学习模型(包括反向传播神经网络(BPNN)和支持向量回归(SVR)的预测性能。BiLSTM模型取得了最佳性能,平均绝对误差(MAE)为1.90毫米,决定系数(R2)为0.89,优于其他两种RNN变体和传统机器学习模型。该模型的鲁棒性在不同土壤条件和挖掘策略下得到了验证。研究还表明,优化传感器部署可以在保持高预测准确性的同时减少所需传感器的数量,为建筑项目的实时监测提供了一种成本效益高的解决方案。

**1. 引言**
深挖项目经常在地铁线路附近进行,因为地铁系统通常建在人口密集的城市中心,那里的地下空间非常有限(例如,Chen等人,2022年;Guo等人,2021年;Feng等人,2023年;Tian等人,2025年;Feng等人,2024年;Fan等人,2021a)。这种邻近性有助于高效整合基础设施,包括车站设施、商业开发和公用网络,从而促进土地优化利用和城市发展(例如,Peng等人,2019年;Chen等人,2023年;Guo等人,2025年;Liu等人,2019年)。对于靠近地铁线路的挖掘活动,监测至关重要,以确保整个施工过程中地铁基础设施的完整性和安全性(例如,Xie等人,2022年;Lin等人,2021年)。全面监测可以实时识别地面移动、结构应力和其他潜在危险,便于采取预防措施来保护地铁系统及其周围环境(例如,Wang等人,2020年;Liu等人,2024年;Tian等人,2023年)。尽管传统的手动监测技术很有价值,但它们存在固有的局限性(Zhang和Cai,2012年;Finno和Blackburn,2006年)。在快速变化的挖掘环境中,这一缺点尤为突出(例如,Dong等人,2020年;Meng等人,2022年)。这种需求增加了对智能和自动化监测解决方案的需求,这些解决方案能够更高效地收集和处理数据,从而更快地应对新兴风险(例如,Hu等人,2020年;Wang等人,2020年;Liu等人,2024年)。

在挖掘工程中,控制隔墙及其周围土壤的水平移动至关重要。这种控制是一个关键的岩土工程参数,可以直接减轻对周围环境的潜在损害(例如,Zhang等人,2015年;Ying等人,2020年;Hsiung和Phan,2024年;Chen等人,2022年)。如图1所示,自动倾角计通过沿倾角计深度连续收集传感器数据来监测挖掘引起的水平位移(图1a),并通过卫星将这些数据传输到云服务器(图1b和1c),在那里实时分析数据以用于施工安全和风险管理(图1d和1e)。传感器按设计的间隔分布(例如,2.5米,如图1(a)所示)。在工程实践中,为了确保测量精度,自动倾角计中的传感器通常以密集的配置排列,间距范围从0.5米到3米,具体取决于工程师的经验。这种密集的传感器布置导致自动化成本较高,严重阻碍了自动化监测系统的大规模实施和采用。如果能够开发出一种预测模型,在稀疏传感器部署的情况下准确估计整个水平位移剖面的位移,将大大降低自动化监测的成本,从而促进自动化监测技术的广泛采用。

**2. 方法论**
2.1. 数据准备
在本研究中,准备训练和测试数据集对于开发有效的神经网络模型至关重要。通过传统的手动测量(0.5米垂直间隔)获得的水平位移剖面被用来构建数据集。定义了假设的传感器位置以提取水平位移值作为模型输入,而其余位置的数据作为模型输出。

2.1.1. 传感器位置的确定和测试样本的张量转换
如图2(a)所示,对于测试数据集中的水平位移剖面,具有总深度Hmax和规定的传感器间距dspacing,假设的传感器位置是通过算法确定的。首先在地面放置一个传感器(D1 = 0米),然后在dspacing、2dspacing……的深度处依次放置传感器,直到达到最大深度(Dlast)。如果Hmax是dspacing的整数倍,则在最底部放置一个传感器(Dlast = Hmax),其中Dlast表示最深均匀分布传感器的深度。否则,Dlast表示底部以上最深均匀分布传感器的深度。上述算法放置程序确保Dlast与倾角计底部(D = Hmax)之间的距离小于dspacing。

**2.2. 模型构建**
如图1(e)所示,该模型以传感器测量的水平位移作为输入,而没有传感器的位置的水平位移作为输出。因此,该模型作为一个序列到序列的映射:它将稀疏的传感器测量序列作为输入,并预测相应的密集位移剖面作为输出。这种形式与广泛用于序列数据任务的循环神经网络(RNNs)一致。这种序列到序列的映射类似于自然语言处理(NLP)中的任务,例如将文本从一种语言(输入序列)翻译成另一种语言(输出序列)(例如,Mienye等人,2024年),其中循环神经网络(RNNs),如长短期记忆网络(LSTM)、门控循环单元(GRU)和双向LSTM(BiLSTM)被广泛使用(例如,Luo等人,2021年)。LSTM以其捕捉长距离依赖性而闻名(例如,Huang等人,2019年),而GRU提供了更高效的参数替代方案(例如,Loh等人,2024年)。BiLSTM网络通过双向处理数据进一步提高了性能(例如,Yang和Xu,2020年)。受这些NLP进展的启发,本研究旨在利用基于机器学习模型的优势来开发一种数据驱动的挖掘引起的水平位移预测模型。为了获得所需归一化深度 z′ 处的位移值,使用训练剖面数据应用线性插值。具体来说,对于任何不与 z0 中的元素重合的目标深度 z′i(或 z"j),确定两个相邻点 zk0 和 zl0,使得 zk0< />
下载:下载高分辨率图像(357kb)
下载:下载全尺寸图像

图 3. 通过线性插值从训练剖面中提取输入和输出向量的示例,用于不匹配的测试剖面深度。

插值是必要的,以解决固定的训练数据网格和可变的测试测量深度之间的固有错位问题。线性插值是一个合理的选择,因为它在假设位移剖面平滑变化的情况下提供了稳定且计算效率高的估计,如图 3(a) 所示。这种实用的预处理步骤使得训练模型的应用保持一致,同时引入的二次误差最小。

上述提取输入和输出向量的过程对训练集中的每个横向位移剖面都重复进行了。这个过程产生了完整的训练张量:输入序列张量 δinput=δ(z′)1,δ(z′)2,...,δ(z′)ntrain∈rntrain×n×1 和输出序列张量 δoutput=δ(z")1,δ(z")2,...,δ(z")ntrain∈rntrain×m×1,其中 ntrain 是训练剖面的总数,n 是归一化传感器位置的数量,m 是归一化无传感器位置的数量。

2.1.3. 训练和测试数据集的归一化
为了确保深度之间的一致缩放并提高模型训练的稳定性,对输入和输出序列的每个特征(深度通道)独立应用了最小-最大归一化。对于第 k 个深度位置,使用以下公式将所有训练样本中的位移值缩放到 [0, 1] 范围内:
(1) δnorm,k=δk-min(δk,min)/δk,max
其中 δk,min 和 δk,max 是在整个训练集中观察到的第 k 个归一化深度的最小和最大位移值。然后将相同的特征缩放参数应用于测试集中的相应通道,以保持分布一致性并防止数据泄露。

2.1.4. 序列到序列映射任务的正式化
预测任务被正式定义为在每个监测时间步 tk 独立应用的序列到序列映射。对于给定的剖面,归一化深度轴 z ∈ [0,1] 被划分为传感器位置集 z′ 和预测目标集 z"。输入序列是这些传感器深度处的测量位移向量 δinput(z′)。从假设的全分辨率剖面中选择这些值的隐式掩码操作等同于应用二进制掩码 m(z),其中 m(z) = 1 对于 z ∈ z′,m(z) = 0 对于 z∈z"。模型的目标是在所有未测量深度预测完整的位移序列 δoutput(z")。这种空间序列到序列的公式化方法中,深度的处理方式类似于经典 rnn 应用中的时间处理方式,每个时间步都执行一次,从训练数据集中的快照序列中学习剖面的时间演变。

2.2. lstm 网络
长短期记忆(lstm)网络是一种专门的循环神经网络(rnn),旨在捕获长距离依赖性并减轻传统 rnn 中固有的梯度消失问题(例如,yu 和 kim,2019)。在这项研究中,lstm 被用来执行第 2.1 节中定义的序列到序列映射,其中输入序列是长度为 n 的稀疏位移向量 δinput(z′),目标输出序列是长度为 m 的密集位移向量 δoutput(z")。

整个架构作为一个编码器风格的模型运行,如图 4b 所示。lstm 网络逐步处理整个输入序列。在每个时间步 t(t = 1, …, n)时,lstm 单元的输入是一个标量值 xt=δ(z′t),即第 t ? 个归一化传感器深度处的测量位移。lstm 单元根据当前输入 xt 及其之前的状态(ht-1, ct-1)更新其内部隐藏状态 ht 和单元状态 ct,有效地整合了直到深度 t 的所有传感器测量信息。

lstm 单元的核心由三个门控机制控制(图 4a):
- 遗忘门(ft)决定丢弃来自先前单元状态 ct-1 的哪些信息。
- 输入门(it)和候选单元状态(c~t)控制存储多少来自当前输入的新信息。
- 输出门(ot)调节从更新后的单元状态到隐藏状态的信息流。

数学运算如下:
ft=σwf?ht-1,xt+b
it=σwi?ht-1,xt+b
c~t=tanhwc?ht-1,xt+b
ct=ft⊙ct-1+it⊙c~t
ht=ot⊙tanhct
其中 σ 是 sigmoid 函数,tanh 是双曲正切,⊙ 表示逐元素乘法,w 和 b 是可学习的参数。

至关重要的是,最后一个时间步的最终隐藏状态 hn 将整个输入位移剖面的压缩信息封装起来。然后,这个最终表示 hn 通过一个后续的全连接(密集)神经网络层(为了简洁起见,图 4 中未显示),该层对其进行解码并将其映射到长度为 m 的完整输出向量 δ^output(z")。因此,模型处理完整的稀疏输入序列,同时为所有未测量的深度生成全面的预测。这种编码器风格的架构非常适合从稀疏测量序列重建完整剖面的任务。

2.3. gru 网络
门控循环单元(gru)网络是 lstm 网络的一种简化变体,旨在解决类似梯度消失问题,同时提供较低的计算复杂性和更少的参数(例如,wei 等人,2021)。在这项研究中,gru 网络被应用于第 2.1 节中定义的相同序列到序列预测任务。它作为另一种编码器模型,将稀疏输入位移序列 δinput(z′) 映射到密集的目标输出序列 δoutput(z")。

如图 5a 所示,gru 通过将单元状态和隐藏状态合并为单个状态 ht 并使用两个门而不是三个门来简化 lstm 架构。这些门是:
- 更新门(zt),它控制保留先前信息和结合新信息之间的平衡。
- 重置门(rt),它决定在计算新候选状态时忽略多少过去的状态。

在每个序列步 t(t = 1, …, n)时,gru 单元接收标量输入 xt=δ(z′t)——即第 t ? 个传感器深度处的位移——以及之前的隐藏状态 ht-1。单元的操作定义如下:
zt=σwz?ht-1,xt+b
rt=σwr?ht-1,xt+b
rh~t=tanhwh?rt?ht-1,xt+b
ht=1-zt⊙ht-1+zt⊙h~t
这里,σ 和 tanh 分别代表 sigmoid 和双曲正切激活函数,⊙ 表示逐元素乘法,w 和 b 是可学习的参数。候选激活 h~t 结合了当前输入和经过重置过滤的先前状态,而最终隐藏状态 ht 是先前状态 ht-1 和候选状态 ht 的加权组合。

图 5b 展示了 gru 网络在 n 个输入步骤上的展开。与 lstm 编码器类似,gru 也迭代处理整个输入序列。最终的隐藏状态 hn 编码了完整稀疏位移剖面的压缩表示,然后通过一个后续的全连接(密集)神经网络层(图 4 中未显示),将其解码并映射到长度为 m 的完整输出向量 δ^output(z")。因此,gru 模型通过一次前向传递同时处理完整的稀疏输入序列,为所有未测量的深度生成全面的预测。

2.4. bilstm 网络
双向长短期记忆(bilstm)网络通过在前向和后向两个方向处理序列数据来扩展标准 lstm 架构(例如,hu 等人,2023)。这使网络能够利用序列中每个点的过去和未来步骤的上下文信息,增强其建模复杂依赖性的能力。在这项研究中,bilstm 网络被应用于第 2.1 节中定义的相同核心任务:将稀疏输入位移序列 δinput(z′) 编码为密集的目标输出序列 δoutput(z")。

如图 6 所示,bilstm 层由两个独立的 lstm 子层组成(单元结构与图 4a 相同):一个按原始顺序处理输入序列(前向方向),另一个反向处理(后向方向)。对于长度为 n 的输入序列,在每个深度步 t(t = 1, …, n)时,前向 lstm 单元接收输入 xt=δ(z′t) 并更新其隐藏状态 ht(1),而后向 lstm 单元接收输入 xt(从反向序列的角度)并更新其隐藏状态 ht(2)。每个步骤 t 的前向和后向隐藏状态分别使用标准的 lstm 更新方程计算(第 2.2 节)。bilstm 的关键特性是这两个状态的结合。通常,步骤 t 的最终上下文表示是通过连接这两个隐藏状态形成的。这个连接的状态 ht 整合了剖面中所有传感器测量的信息——包括较浅深度(通过前向传递)和较深深度(通过后向传递)的信息。为了产生整个输出序列的最终预测,最后一个组合的隐藏状态 hn 通过一个后续的全连接输出层。因此,bilstm 模型遵循相同的基于编码器的框架:它顺序消费所有稀疏测量值,一次性产生所有未测量深度的全面预测。

2.5. rnn 网络开发的实现过程
rnn 网络开发的实现过程如图 7 所示。过程从准备训练和测试数据集开始,然后定义超参数搜索空间,包括隐藏层数量、每层的隐藏单元数量、学习率、批量大小和 epoch 数量等参数。然后应用网格搜索策略,使用五折交叉验证迭代评估候选参数组合。计算平均验证性能以确定最佳配置。一旦网格搜索完成,就使用选定的超参数在整个训练数据集上训练最终模型,并随后在测试数据集上评估其泛化性能。

3. 数据库描述
在这项研究中,数据来自中国杭州的两个主要挖掘项目:杭州中心(hc)项目和西湖(hx)项目。这两个项目都使用安装在隔板墙、 retaining piles 和土壤中的倾斜仪来监测结构和周围土壤的水平位移。 zk0 和 zl0 处已知的位移值之间进行线性插值来计算 z′i 处的位移。通过对 z′ 和 z" 中每个缺乏精确匹配的元素执行此插值,可以获得训练数据集中剖面的完整输入向量 δinput(z′) 和输出向量 δoutput(z")。图 3 展示了从训练集中代表性的横向位移剖面提取输入和输出向量的过程。在图 3(a) 中,五角星标记表示通过特定剖面的最大深度 h0max=45 米归一化的原始训练测量值,得到归一化深度向量 z0=[0/45,0.5/45,?,45/45]。对于示例测试剖面,最大深度为 hmax=36 米,规定的传感器间距为 dspacing=7.0。因此,归一化后的传感器位置为 z′=[0/36,7/36,?,35/36],而归一化后的无传感器位置为 z"=[0.5/36,1.0/36,?,6.5/36,7.5/36,?,35.5/36]。正如预期的那样,z′ 和 z" 的元素并不与 z0 的元素完全重合。因此,应用线性插值(如前所述)来估计这些目标深度的水平位移。图 3(a) 中用圆圈标记表示传感器位置 z′ 的插值结果,用方块标记表示无传感器位置 z" 的插值结果。图 3(b) 提供了图 3(a) 中框选区域的放大视图。如图所示,z′2 处的位移是从 z180 和 z190 的值插值得到的;z"13 处的位移是从 z170 和 z180 之间插值得到的;z"14 处的位移是从 z190 和 z200 之间插值得到的。然后在归一化传感器位置 z′ 和无传感器位置 z" 处插值得到的位移被用来组装完整的输入向量 δinput(z′) 和相应的输出向量 δoutput(z"),从而为训练数据集中的剖面提供了完全兼容的输入-输出样本,尽管最大深度和测量间隔不匹配。 下载:下载高分辨率图像(357kb) 下载:下载全尺寸图像 图 3. 通过线性插值从训练剖面中提取输入和输出向量的示例,用于不匹配的测试剖面深度。 插值是必要的,以解决固定的训练数据网格和可变的测试测量深度之间的固有错位问题。线性插值是一个合理的选择,因为它在假设位移剖面平滑变化的情况下提供了稳定且计算效率高的估计,如图 3(a) 所示。这种实用的预处理步骤使得训练模型的应用保持一致,同时引入的二次误差最小。 上述提取输入和输出向量的过程对训练集中的每个横向位移剖面都重复进行了。这个过程产生了完整的训练张量:输入序列张量 δinput=δ(z′)1,δ(z′)2,...,δ(z′)Ntrain∈RNtrain×n×1 和输出序列张量 δoutput=δ(z")1,δ(z")2,...,δ(z")Ntrain∈RNtrain×m×1,其中 ntrain 是训练剖面的总数,n 是归一化传感器位置的数量,m 是归一化无传感器位置的数量。 2.1.3. 训练和测试数据集的归一化 为了确保深度之间的一致缩放并提高模型训练的稳定性,对输入和输出序列的每个特征(深度通道)独立应用了最小-最大归一化。对于第 k 个深度位置,使用以下公式将所有训练样本中的位移值缩放到 [0, 1] 范围内: (1) δnorm,k=δk-min(δk,min)/δk,max 其中 δk,min 和 δk,max 是在整个训练集中观察到的第 k 个归一化深度的最小和最大位移值。然后将相同的特征缩放参数应用于测试集中的相应通道,以保持分布一致性并防止数据泄露。 2.1.4. 序列到序列映射任务的正式化 预测任务被正式定义为在每个监测时间步 tk 独立应用的序列到序列映射。对于给定的剖面,归一化深度轴 z ∈ [0,1] 被划分为传感器位置集 z′ 和预测目标集 z"。输入序列是这些传感器深度处的测量位移向量 δinput(z′)。从假设的全分辨率剖面中选择这些值的隐式掩码操作等同于应用二进制掩码 m(z),其中 m(z)=1 对于 z ∈ z′,m(z)=0 对于 z∈z"。模型的目标是在所有未测量深度预测完整的位移序列 δoutput(z")。这种空间序列到序列的公式化方法中,深度的处理方式类似于经典 rnn 应用中的时间处理方式,每个时间步都执行一次,从训练数据集中的快照序列中学习剖面的时间演变。 2.2. lstm 网络 长短期记忆(lstm)网络是一种专门的循环神经网络(rnn),旨在捕获长距离依赖性并减轻传统 rnn 中固有的梯度消失问题(例如,yu 和 kim,2019)。在这项研究中,lstm 被用来执行第 2.1 节中定义的序列到序列映射,其中输入序列是长度为 n 的稀疏位移向量 δinput(z′),目标输出序列是长度为 m 的密集位移向量 δoutput(z")。 整个架构作为一个编码器风格的模型运行,如图 4b 所示。lstm 网络逐步处理整个输入序列。在每个时间步 t(t=1, …, n)时,lstm 单元的输入是一个标量值 xt=δ(z′t),即第 t ? 个归一化传感器深度处的测量位移。lstm 单元根据当前输入 xt 及其之前的状态(ht-1, ct-1)更新其内部隐藏状态 ht 和单元状态 ct,有效地整合了直到深度 t 的所有传感器测量信息。 lstm 单元的核心由三个门控机制控制(图 4a): - 遗忘门(ft)决定丢弃来自先前单元状态 ct-1 的哪些信息。 - 输入门(it)和候选单元状态(c~t)控制存储多少来自当前输入的新信息。 - 输出门(ot)调节从更新后的单元状态到隐藏状态的信息流。 数学运算如下: ft=σWf?ht-1,xt+b it=σWi?ht-1,xt+b c~t=tanhWC?ht-1,xt+b ct=ft⊙ct-1+it⊙c~t ht=ot⊙tanhct 其中 σ 是 sigmoid 函数,tanh 是双曲正切,⊙ 表示逐元素乘法,w 和 b 是可学习的参数。 至关重要的是,最后一个时间步的最终隐藏状态 hn 将整个输入位移剖面的压缩信息封装起来。然后,这个最终表示 hn 通过一个后续的全连接(密集)神经网络层(为了简洁起见,图 4 中未显示),该层对其进行解码并将其映射到长度为 m 的完整输出向量 δ^output(z")。因此,模型处理完整的稀疏输入序列,同时为所有未测量的深度生成全面的预测。这种编码器风格的架构非常适合从稀疏测量序列重建完整剖面的任务。 2.3. gru 网络 门控循环单元(gru)网络是 lstm 网络的一种简化变体,旨在解决类似梯度消失问题,同时提供较低的计算复杂性和更少的参数(例如,wei 等人,2021)。在这项研究中,gru 网络被应用于第 2.1 节中定义的相同序列到序列预测任务。它作为另一种编码器模型,将稀疏输入位移序列 δinput(z′) 映射到密集的目标输出序列 δoutput(z")。 如图 5a 所示,gru 通过将单元状态和隐藏状态合并为单个状态 ht 并使用两个门而不是三个门来简化 lstm 架构。这些门是: - 更新门(zt),它控制保留先前信息和结合新信息之间的平衡。 - 重置门(rt),它决定在计算新候选状态时忽略多少过去的状态。 在每个序列步 t(t=1, …, n)时,gru 单元接收标量输入 xt=δ(z′t)——即第 t ? 个传感器深度处的位移——以及之前的隐藏状态 ht-1。单元的操作定义如下: zt=σWz?ht-1,xt+b rt=σWr?ht-1,xt+b rh~t=tanhWh?rt?ht-1,xt+b ht=1-zt⊙ht-1+zt⊙h~t 这里,σ 和 tanh 分别代表 sigmoid 和双曲正切激活函数,⊙ 表示逐元素乘法,w 和 b 是可学习的参数。候选激活 h~t 结合了当前输入和经过重置过滤的先前状态,而最终隐藏状态 ht 是先前状态 ht-1 和候选状态 ht 的加权组合。 图 5b 展示了 gru 网络在 n 个输入步骤上的展开。与 lstm 编码器类似,gru 也迭代处理整个输入序列。最终的隐藏状态 hn 编码了完整稀疏位移剖面的压缩表示,然后通过一个后续的全连接(密集)神经网络层(图 4 中未显示),将其解码并映射到长度为 m 的完整输出向量 δ^output(z")。因此,gru 模型通过一次前向传递同时处理完整的稀疏输入序列,为所有未测量的深度生成全面的预测。 2.4. bilstm 网络 双向长短期记忆(bilstm)网络通过在前向和后向两个方向处理序列数据来扩展标准 lstm 架构(例如,hu 等人,2023)。这使网络能够利用序列中每个点的过去和未来步骤的上下文信息,增强其建模复杂依赖性的能力。在这项研究中,bilstm 网络被应用于第 2.1 节中定义的相同核心任务:将稀疏输入位移序列 δinput(z′) 编码为密集的目标输出序列 δoutput(z")。 如图 6 所示,bilstm 层由两个独立的 lstm 子层组成(单元结构与图 4a 相同):一个按原始顺序处理输入序列(前向方向),另一个反向处理(后向方向)。对于长度为 n 的输入序列,在每个深度步 t(t=1, …, n)时,前向 lstm 单元接收输入 xt=δ(z′t) 并更新其隐藏状态 ht(1),而后向 lstm 单元接收输入 xt(从反向序列的角度)并更新其隐藏状态 ht(2)。每个步骤 t 的前向和后向隐藏状态分别使用标准的 lstm 更新方程计算(第 2.2 节)。bilstm 的关键特性是这两个状态的结合。通常,步骤 t 的最终上下文表示是通过连接这两个隐藏状态形成的。这个连接的状态 ht 整合了剖面中所有传感器测量的信息——包括较浅深度(通过前向传递)和较深深度(通过后向传递)的信息。为了产生整个输出序列的最终预测,最后一个组合的隐藏状态 hn 通过一个后续的全连接输出层。因此,bilstm 模型遵循相同的基于编码器的框架:它顺序消费所有稀疏测量值,一次性产生所有未测量深度的全面预测。 2.5. rnn 网络开发的实现过程 rnn 网络开发的实现过程如图 7 所示。过程从准备训练和测试数据集开始,然后定义超参数搜索空间,包括隐藏层数量、每层的隐藏单元数量、学习率、批量大小和 epoch 数量等参数。然后应用网格搜索策略,使用五折交叉验证迭代评估候选参数组合。计算平均验证性能以确定最佳配置。一旦网格搜索完成,就使用选定的超参数在整个训练数据集上训练最终模型,并随后在测试数据集上评估其泛化性能。 3. 数据库描述 在这项研究中,数据来自中国杭州的两个主要挖掘项目:杭州中心(hc)项目和西湖(hx)项目。这两个项目都使用安装在隔板墙、 retaining piles>

下载:下载高分辨率图像(357kb)
下载:下载全尺寸图像

图 3. 通过线性插值从训练剖面中提取输入和输出向量的示例,用于不匹配的测试剖面深度。

插值是必要的,以解决固定的训练数据网格和可变的测试测量深度之间的固有错位问题。线性插值是一个合理的选择,因为它在假设位移剖面平滑变化的情况下提供了稳定且计算效率高的估计,如图 3(a) 所示。这种实用的预处理步骤使得训练模型的应用保持一致,同时引入的二次误差最小。

上述提取输入和输出向量的过程对训练集中的每个横向位移剖面都重复进行了。这个过程产生了完整的训练张量:输入序列张量 δinput=δ(z′)1,δ(z′)2,...,δ(z′)ntrain∈rntrain×n×1 和输出序列张量 δoutput=δ(z")1,δ(z")2,...,δ(z")ntrain∈rntrain×m×1,其中 ntrain 是训练剖面的总数,n 是归一化传感器位置的数量,m 是归一化无传感器位置的数量。

2.1.3. 训练和测试数据集的归一化
为了确保深度之间的一致缩放并提高模型训练的稳定性,对输入和输出序列的每个特征(深度通道)独立应用了最小-最大归一化。对于第 k 个深度位置,使用以下公式将所有训练样本中的位移值缩放到 [0, 1] 范围内:
(1) δnorm,k=δk-min(δk,min)/δk,max
其中 δk,min 和 δk,max 是在整个训练集中观察到的第 k 个归一化深度的最小和最大位移值。然后将相同的特征缩放参数应用于测试集中的相应通道,以保持分布一致性并防止数据泄露。

2.1.4. 序列到序列映射任务的正式化
预测任务被正式定义为在每个监测时间步 tk 独立应用的序列到序列映射。对于给定的剖面,归一化深度轴 z ∈ [0,1] 被划分为传感器位置集 z′ 和预测目标集 z"。输入序列是这些传感器深度处的测量位移向量 δinput(z′)。从假设的全分辨率剖面中选择这些值的隐式掩码操作等同于应用二进制掩码 m(z),其中 m(z) = 1 对于 z ∈ z′,m(z) = 0 对于 z∈z"。模型的目标是在所有未测量深度预测完整的位移序列 δoutput(z")。这种空间序列到序列的公式化方法中,深度的处理方式类似于经典 rnn 应用中的时间处理方式,每个时间步都执行一次,从训练数据集中的快照序列中学习剖面的时间演变。

2.2. lstm 网络
长短期记忆(lstm)网络是一种专门的循环神经网络(rnn),旨在捕获长距离依赖性并减轻传统 rnn 中固有的梯度消失问题(例如,yu 和 kim,2019)。在这项研究中,lstm 被用来执行第 2.1 节中定义的序列到序列映射,其中输入序列是长度为 n 的稀疏位移向量 δinput(z′),目标输出序列是长度为 m 的密集位移向量 δoutput(z")。

整个架构作为一个编码器风格的模型运行,如图 4b 所示。lstm 网络逐步处理整个输入序列。在每个时间步 t(t = 1, …, n)时,lstm 单元的输入是一个标量值 xt=δ(z′t),即第 t ? 个归一化传感器深度处的测量位移。lstm 单元根据当前输入 xt 及其之前的状态(ht-1, ct-1)更新其内部隐藏状态 ht 和单元状态 ct,有效地整合了直到深度 t 的所有传感器测量信息。

lstm 单元的核心由三个门控机制控制(图 4a):
- 遗忘门(ft)决定丢弃来自先前单元状态 ct-1 的哪些信息。
- 输入门(it)和候选单元状态(c~t)控制存储多少来自当前输入的新信息。
- 输出门(ot)调节从更新后的单元状态到隐藏状态的信息流。

数学运算如下:
ft=σwf?ht-1,xt+b
it=σwi?ht-1,xt+b
c~t=tanhwc?ht-1,xt+b
ct=ft⊙ct-1+it⊙c~t
ht=ot⊙tanhct
其中 σ 是 sigmoid 函数,tanh 是双曲正切,⊙ 表示逐元素乘法,w 和 b 是可学习的参数。

至关重要的是,最后一个时间步的最终隐藏状态 hn 将整个输入位移剖面的压缩信息封装起来。然后,这个最终表示 hn 通过一个后续的全连接(密集)神经网络层(为了简洁起见,图 4 中未显示),该层对其进行解码并将其映射到长度为 m 的完整输出向量 δ^output(z")。因此,模型处理完整的稀疏输入序列,同时为所有未测量的深度生成全面的预测。这种编码器风格的架构非常适合从稀疏测量序列重建完整剖面的任务。

2.3. gru 网络
门控循环单元(gru)网络是 lstm 网络的一种简化变体,旨在解决类似梯度消失问题,同时提供较低的计算复杂性和更少的参数(例如,wei 等人,2021)。在这项研究中,gru 网络被应用于第 2.1 节中定义的相同序列到序列预测任务。它作为另一种编码器模型,将稀疏输入位移序列 δinput(z′) 映射到密集的目标输出序列 δoutput(z")。

如图 5a 所示,gru 通过将单元状态和隐藏状态合并为单个状态 ht 并使用两个门而不是三个门来简化 lstm 架构。这些门是:
- 更新门(zt),它控制保留先前信息和结合新信息之间的平衡。
- 重置门(rt),它决定在计算新候选状态时忽略多少过去的状态。

在每个序列步 t(t = 1, …, n)时,gru 单元接收标量输入 xt=δ(z′t)——即第 t ? 个传感器深度处的位移——以及之前的隐藏状态 ht-1。单元的操作定义如下:
zt=σwz?ht-1,xt+b
rt=σwr?ht-1,xt+b
rh~t=tanhwh?rt?ht-1,xt+b
ht=1-zt⊙ht-1+zt⊙h~t
这里,σ 和 tanh 分别代表 sigmoid 和双曲正切激活函数,⊙ 表示逐元素乘法,w 和 b 是可学习的参数。候选激活 h~t 结合了当前输入和经过重置过滤的先前状态,而最终隐藏状态 ht 是先前状态 ht-1 和候选状态 ht 的加权组合。

图 5b 展示了 gru 网络在 n 个输入步骤上的展开。与 lstm 编码器类似,gru 也迭代处理整个输入序列。最终的隐藏状态 hn 编码了完整稀疏位移剖面的压缩表示,然后通过一个后续的全连接(密集)神经网络层(图 4 中未显示),将其解码并映射到长度为 m 的完整输出向量 δ^output(z")。因此,gru 模型通过一次前向传递同时处理完整的稀疏输入序列,为所有未测量的深度生成全面的预测。

2.4. bilstm 网络
双向长短期记忆(bilstm)网络通过在前向和后向两个方向处理序列数据来扩展标准 lstm 架构(例如,hu 等人,2023)。这使网络能够利用序列中每个点的过去和未来步骤的上下文信息,增强其建模复杂依赖性的能力。在这项研究中,bilstm 网络被应用于第 2.1 节中定义的相同核心任务:将稀疏输入位移序列 δinput(z′) 编码为密集的目标输出序列 δoutput(z")。

如图 6 所示,bilstm 层由两个独立的 lstm 子层组成(单元结构与图 4a 相同):一个按原始顺序处理输入序列(前向方向),另一个反向处理(后向方向)。对于长度为 n 的输入序列,在每个深度步 t(t = 1, …, n)时,前向 lstm 单元接收输入 xt=δ(z′t) 并更新其隐藏状态 ht(1),而后向 lstm 单元接收输入 xt(从反向序列的角度)并更新其隐藏状态 ht(2)。每个步骤 t 的前向和后向隐藏状态分别使用标准的 lstm 更新方程计算(第 2.2 节)。bilstm 的关键特性是这两个状态的结合。通常,步骤 t 的最终上下文表示是通过连接这两个隐藏状态形成的。这个连接的状态 ht 整合了剖面中所有传感器测量的信息——包括较浅深度(通过前向传递)和较深深度(通过后向传递)的信息。为了产生整个输出序列的最终预测,最后一个组合的隐藏状态 hn 通过一个后续的全连接输出层。因此,bilstm 模型遵循相同的基于编码器的框架:它顺序消费所有稀疏测量值,一次性产生所有未测量深度的全面预测。

2.5. rnn 网络开发的实现过程
rnn 网络开发的实现过程如图 7 所示。过程从准备训练和测试数据集开始,然后定义超参数搜索空间,包括隐藏层数量、每层的隐藏单元数量、学习率、批量大小和 epoch 数量等参数。然后应用网格搜索策略,使用五折交叉验证迭代评估候选参数组合。计算平均验证性能以确定最佳配置。一旦网格搜索完成,就使用选定的超参数在整个训练数据集上训练最终模型,并随后在测试数据集上评估其泛化性能。

3. 数据库描述
在这项研究中,数据来自中国杭州的两个主要挖掘项目:杭州中心(hc)项目和西湖(hx)项目。这两个项目都使用安装在隔板墙、 retaining piles 和土壤中的倾斜仪来监测结构和周围土壤的水平位移。>杭州中心(HC)项目

在HC项目中,如图8所示,倾斜仪被战略性地放置在五个区域(A至E)的隔板墙(标记为“W”)和土壤(标记为“S”)中,以监测水平位移。隔板墙中的倾斜仪标记为“W”(例如,HC-W-10),而土壤中的倾斜仪标记为“S”(例如,HC-S-13)。总共安装了41个倾斜仪,深度范围从35.0米到52.0米,这些倾斜仪分布在挖掘区域的周围,提供了不同深度的水平位移的详细数据。

下载:下载高分辨率图像(319KB)
下载:下载全尺寸图像

图8. HC深挖掘项目的平面图,包括区域划分和倾斜仪布局。

HC项目位于主要由粘土组成的场地中,如图9的地质剖面所示。最大挖掘深度从8.1米到30.2米不等,根据挖掘区域的不同,使用了多达六层的支撑结构来支撑较深的部分。各种土壤层的性质和厚度在Cheng等人的2021年研究中有所描述。

下载:下载高分辨率图像(330KB)
下载:下载全尺寸图像

图9. HC深挖掘项目的土壤分层和支撑结构剖面。

如表1所示,HC项目表现出显著的横向位移,范围从18.5毫米到149.5毫米。每个倾斜仪的监测周期从228天到549天不等,因此所有倾斜仪共监测了19,270个横向位移剖面。该项目的数据提供了关于在以粘土和粉砂为主的环境中挡土结构和土壤行为的关键见解。

表1. HC和HX项目的挖掘特征和数据集划分

| 项目 | 挖掘深度范围内的土壤类型 | 最大挖掘深度(米) | 倾斜仪数量 | 倾斜仪的最大深度(米) | 最大横向位移(毫米) | 监测时间(天) | 监测的横向位移剖面总数 |
|-------------|-------------------|------------|-----------|--------------|-------------|-----------------|
| 杭州中心(HC)项目 | 粉砂 | 8.1–30.2 | 41 | 35.0–52.0 | 18.5–149.5 | 228–549 | 19,270 |
| 惠西(HX)项目 | 粉砂 | 15.8–18.8 | 17 | 21.0–40.0 | 38.5–121.5 | 252–330 | 512 |

在惠西(HX)项目中,如图10所示,倾斜仪被战略性地放置在挖掘现场周围以监测水平位移。倾斜仪安装在挡土桩(标记为“P”)和土壤(标记为“S”)中。总共安装了17个倾斜仪,总深度范围从21.0米到40.0米,这些倾斜仪分布在挖掘区域的周围,提供了水平位移的数据。平面图显示倾斜仪被放置在站场的不同部分,例如HX-P-3和HX-S-3监测不同的位置。

下载:下载高分辨率图像(223KB)
下载:下载全尺寸图像

图10. HX深挖掘项目的平面图,包括区域划分和倾斜仪布局。

图11的地质剖面显示了挖掘的地层,主要由粉砂和粉砂粘土层组成,较深层次含有圆形砾石。这些土壤层的典型参数列在表2中。最大挖掘深度从15.8米到18.8米不等,使用了多达三层的支撑结构来支撑挡土桩,如I-I、II-II和III-III部分所示。在III-III部分,安装了一个额外的倾斜支撑杆以增强稳定性。尽管支撑系统不如HC项目复杂,但由于挖掘深度较浅且砂土的横向位移倾向较低,因此足够使用。

下载:下载高分辨率图像(318KB)
下载:下载全尺寸图像

表2. HX项目的典型土壤参数

| 土壤层 | 单位重量(kN/m3) | 内聚力,c(kPa) | 摩擦角,φ(°) |
|-------------|-----------------|-----------|-------------|
| 粉砂① | 18.0 | 8.0 | 10.0 |
| 粉砂② | 19.3 | 5.0 | 25.0 |
| 粉砂③ | 19.3 | 5.0 | 29.0 |
| 粉砂④ | 19.5 | 6.0 | 23.0 |
| 粉砂粘土① | 18.0 | 10.0 | 9.0 |
| 粉砂粘土② | 19.9 | 28.0 | 16.0 |
| 粉砂粘土③ | 19.6 | 30.0 | 16.0 |
| 圆形砾石 | 19.5 | 3.0 | 42.0 |

如表1所示,惠西项目的横向位移范围从38.5毫米到121.5毫米,由于土壤条件的不同,这通常比HC项目的位移要小。每个倾斜仪的监测周期从252天到330天不等,因此所有倾斜仪共监测了19,270个横向位移剖面。该项目的数据提供了关于在砂质粉砂环境中挡土结构和土壤行为的关键见解。

3.3. 两个项目的比较

HC和HX项目作为对比案例研究,它们在关键岩土工程和施工参数上存在显著差异,从而为测试模型的泛化能力提供了实际边界。主要的对比维度包括:(1)土壤条件:HC场地主要由柔软、可压缩的粉砂粘土组成,表现出显著的时间依赖性变形,而HX场地则由具有不同力学和排水特性的粉砂组成。(2)结构配置:HC挖掘深度明显更深(8.1–30.2米),使用了复杂的支撑系统,最多包含六层支撑结构。相比之下,HX挖掘深度较浅(15.8–18.8米),采用了较简单的支撑系统,最多包含三层支撑结构。(3)监测响应范围:重要的是,HC项目的训练数据涵盖了更广泛的变化范围,包括更大的最大横向位移(高达149.5毫米)和更大的或相等的仪器安装深度(HC:35–52米;HX:21–40米)。这些故意设计的差异使得后续的数据集划分成为测试模型适用性限制及其外推能力的一个严格考验。

4. RNN的发展

4.1. 数据集划分

数据集的划分旨在明确评估模型的泛化能力并探究其适用性限制。HC项目构成训练集(数据的79%,19,270个样本),而岩土工程和结构上不同的HX项目作为独立测试集(数据的21%,5,128个样本)。训练-测试划分和交叉验证折叠都是严格按照倾斜仪来分组的,以防止数据划分之间存在共享的底层剖面,从而避免评估中的乐观偏差。这种策略提出了一个直接和实际的验证挑战:一个在软粘土深挖掘数据上训练的模型是否能够准确预测砂质挖掘的位移,仅使用稀疏的传感器输入?因此,该模型在独立测试集上的表现提供了对其鲁棒性和在新项目条件下的可转移性的定量评估,直接解决了现场特征可能变化的实际部署问题。

4.2. 性能评估

为了评估模型性能,我们使用了平均绝对误差(MAE)和决定系数(R2),这与最近的研究(Ng等人,2023年)一致。它们的数学表达式如下:

平均绝对误差(MAE)用于第i个水平位移剖面样本:
(2) MAEi = 1/m ∑j=1m δ(z"j)i - δ^(z"j)i
其中δ(z"j)i和δ^(z"j)i分别表示第j个深度和样本i的实际和预测输出。

决定系数(R2)用于第i个水平位移剖面样本:
(3) R2i = 1 - 1/m ∑j=1m δ(z"j)i - δ^(z"j)i / (1/m ∑j=1m δ(z"j)i - δˉ(z")i^2
其中δˉ(z")i = 1/m ∑j=1m δ(z"j)i是样本i的观测值平均值。

4.3. 超参数的确定

RNN模型使用均方误差(MSE)损失函数和Adam优化算法进行训练,梯度阈值设置为1.0。基于初步试验,我们定义了关键超参数的搜索空间如下:候选隐藏层数量为[1, 2],隐藏层大小为[20, 40, 60, 80, 100],批量大小为[32, 64, 128, 256],丢弃率为[0.2, 0.3, 0.5],初始学习率为[0.001, 0.01, 0.1],周期数为[30, 50, 100, 500]。此外,还使用了学习率调度器来动态调整学习率,每10个周期将其降低0.8倍。完整的模型设置在表3中。训练好的RNN模型的最佳参数在表4中呈现。

表3. RNN模型设置

| 术语 | 值 | |
|----------------|---------------------------|
| 损失函数 | MSE | |
| 优化算法 | Adam | |
| 梯度阈值 | 1.0 | |
| 候选隐藏层数量 | [1, 2] | |
| 候选隐藏层大小 | [20, 40, 60, 80, 100] | |
| 候选批量大小 | [32, 64, 128, 256] | |
| 候选丢弃率 | [0.2, 0.3, 0.5] | |
| 候选学习率 | [0.001, 0.01, 0.1] | |
| 候选周期数 | [30, 50, 100, 500] | |

表4. 训练好的RNN模型的最佳参数

5. 结果和讨论

5.1. 在三个代表性倾斜仪上比较RNN模型

为了说明目的,使用来自三个代表性倾斜仪(HX-S-2、HX-S-3和HX-8,分别对应于剖面I-I、II-II和III-III)的数据测试了训练好的RNN模型。基于这些数据集比较和分析了不同RNN模型的性能。在此分析中,假设自动倾斜仪中的传感器间隔为d = 5.0米。对于没有传感器放置的区域,预测是在深度方向上以0.5米的间隔进行的。

图12(a)显示了不同RNN模型性能指标(特别是MAE和R2)随时间的比较,针对倾斜仪HX-S-2。在早期阶段(监测时间T < 50天),图12(a)显示所有模型的R2值异常低,接近零,表明预测精度较差,尽管MAE值较低(<1毫米)。这表明尽管模型难以解释早期的变化,但实际预测误差仍然很小。随着监测的进行(50–200天),R2值提高到约0.5,MAE逐渐增加。在后期阶段(T > 200天),R2值再次下降,MAE超过5毫米,反映了模型在处理位移复杂性增加时的困难。总体而言,LSTM和BiLSTM的表现优于GRU,特别是在早期和中期阶段。BiLSTM在保持较低的MAE值方面略有优势,特别是在早期阶段,这表明其考虑前后时间依赖性的能力在预测能力上略有改进。

图12显示了在不同监测时间点(第5天、第31天、第254天和第305天)倾斜仪HX-S-2的测量与预测的水平位移剖面。在早期阶段(第5天和第31天),水平位移随深度的变化较大,预测结果与实际结果的一致性较差,这与该时期观察到的较低R2值相对应。尽管所有模型——LSTM、GRU和BiLSTM——都捕捉到了总体趋势,但BiLSTM在较浅的深度上表现略好。随着监测的进行(第254天和第305天),位移显著增加,超过100毫米,在更深的深度上,模型与实际剖面的吻合度更高。

图13展示了在代表性时间点(第5天、第31天、第254天和第305天)倾斜仪HX-S-2的测量与预测的水平位移剖面。在早期阶段(第5天和第31天),水平位移随深度的变化较大,预测结果与实际结果的一致性较差,这与该时期观察到的较低R2值相对应。尽管所有模型——LSTM、GRU和BiLSTM——都捕捉到了总体趋势,但BiLSTM的表现略好,特别是在较浅的深度上。随着监测的进行(第254天和第305天),位移显著增加,超过100毫米,在更深的深度上,模型与实际剖面的吻合度更高。

图14比较了在四个代表性深度(H = 2.5米、12.5米、22.5米和32.5米)倾斜仪HX-S-2的测量与预测的水平位移时间序列。在所有深度上,BiLSTM模型始终最接近实际数据,特别是在后期监测期间(240至300天),如插图所示。LSTM也表现良好,尽管其偏差略大于BiLSTM,特别是在较深的深度上。GRU虽然捕捉到了总体趋势,但在较浅的深度和后期监测阶段显示出更大的误差。总体而言,BiLSTM在准确预测不同深度和时间段的水平位移趋势方面表现最佳。

图12(b)、图15和图16展示了RNN模型(LSTM、GRU和BiLSTM)在预测倾斜仪HX-S-3的水平位移方面的性能。图12(b)显示,尽管所有模型在早期阶段的性能都很好,MAE值低且R2值高,但BiLSTM始终表现最佳,尤其是在225天之后,保持较低的MAE值和较高的R2值。图15比较了在不同监测时间点的实际与预测位移剖面,BiLSTM在后期阶段(T = 225天和T = 297天)与实际位移的匹配度最高。图16进一步通过比较不同深度(H = 2.5米、12.5米、22.5米和32.5米)的位移时间序列支持了这一观察结果,其中BiLSTM在所有深度上都表现出更高的准确性。总体而言,BiLSTM始终提供最准确的预测,其次是LSTM,而GRU在较深的深度和较长的监测时间内倾向于显示出更大的误差。

图12(c)、图17和图18展示了RNN模型(LSTM、GRU和BiLSTM)在预测倾斜仪HX-S-8的水平位移方面的性能。图12(c)显示,在早期阶段(T < 50天),所有模型的表现都很好,均具有较低的MAE值和较高的R2值。然而,随着监测的进行,BiLSTM持续优于LSTM和GRU,尤其是在219天后,保持较低的MAE值和较高的R2值。图17比较了不同时间的实际位移剖面和预测位移剖面,显示出BiLSTM能够紧密跟随实际位移模式,特别是在后期阶段(T = 第219天、T = 第220天和T = 第252天),而GRU的偏差较大,尤其是在较浅的深度。同样,图18比较了不同深度的位移时间序列,BiLSTM在所有深度上均表现出最佳性能,尤其是在监测期的后期。LSTM也表现良好,但误差略大,而GRU在较深的深度和较晚的时间点偏差更大。总体而言,BiLSTM始终提供最准确的预测,其次是LSTM,GRU的误差较高,尤其是在监测后期。

图17. 在关键时间点,HX-S-8倾斜仪的测量位移与预测位移的对比。下载:下载高分辨率图片(484KB)下载:下载全尺寸图片

图18. 在特征深度处,HX-S-8倾斜仪的位移时间序列预测与监测数据的对比。

总结来说,HX-S-2、HX-S-3和HX-S-8的结果显示了RNN模型性能的一致性模式。在所有三个倾斜仪中,BiLSTM始终优于其他模型,尤其是在监测的后期阶段提供了最准确的预测。

5.2. 在完整测试数据集上比较RNN模型

通过对完整测试数据集进行测试,进一步分析了RNN模型的性能,结果展示在图19和表5中。如图19所示,BiLSTM在MAE方面实现了最低的中位数误差,并且四分位数范围较小,表明其预测更准确和稳定。相比之下,GRU和LSTM的误差略高,变化性也较大。在R2指标方面,BiLSTM再次表现出优越的性能,中位数接近1,表明其更好地捕捉了数据中的变化。GRU和LSTM的R2值较低,分布较广,表明其预测精度较低。

表5. 在完整测试数据集上模型性能的总结。

模型 MAE(毫米) R2
LSTM 0.206 6.20 2.05 1.20 ?12.1 0.99 80.86 0.47
GRU 0.266 6.46 2.02 1.19 ?39.7 0.99 80.82 0.98
BiLSTM 0.196 6.13 1.90 1.14 ?6.9 0.99 80.89 0.33
传统MLBPNN 0.30 10.46 2.36 1.68 ?62.6 0.99 70.78 1.40
SVR 0.22 6.85 2.04 1.26 ?72.3 0.99 50.65 2.05
参数回归 0.04 11.07 3.36 2.48 ?0.65 0.99 10.87 0.19
高斯 0.05 31.70 4.15 4.99 ?11.5 0.99 70.77 0.56
正弦波 0.05 21.13 4.65 3.64 ?28.6 0.98 70.75 4.02

根据表5,BiLSTM的平均MAE最低,为1.90毫米,相比之下GRU为2.02毫米,LSTM为2.05毫米。此外,BiLSTM的标准差最小(1.14毫米),表明其性能更加稳定。在R2方面,BiLSTM的平均值也为0.89,优于GRU(0.82)和LSTM(0.86),表明其拟合数据的能力更强。此外,BiLSTM的R2标准差(0.33)是三个模型中最低的,进一步强调了其稳定性。

图19和表5都证实了BiLSTM在所有测试模型中始终提供最准确和可靠的预测,突显了其在完整测试数据集上的优越性。

需要指出的是,当前研究主要在土壤条件相对均匀的场地(粉质粘土和粉质沙)上验证了所提出的方法。其在涉及复杂地层的挖掘中的性能,例如具有薄而弱层的剖面,这些层会引起高度局部化的变形,需要进一步研究。在这种情况下,纯粹的数据驱动插值可能无法完全捕捉到刚度的突然变化或急剧的变形梯度。因此,在将所提出的方法应用于已知具有异质或层状土壤剖面的场地时,应谨慎操作,且在局部曲率较高的区域,预测精度可能会下降。一个有价值的未来方向是将先前的岩土工程知识(例如,土壤层边界和来自现场调查的分类)整合到学习框架中,创建一个结合测量数据和物理背景的混合模型。

5.3. 与其他模型的比较

与RNN模型并行,还实现了传统的机器学习方法(包括反向传播神经网络(BPNN)和支持向量回归(SVR)以及参数回归模型,传感器间距为5.0米。通过对数据库的横向位移剖面进行初步审查(例如,图13、图14、图15),选择了三种参数函数进行回归:正弦波、立方和高斯,如表5所总结的。参数模型的方程如下:正弦波函数模型表示为y = a1*sin(b1*x + c1),立方模型表示为y = a1*x3 + b1*x2 + c1*x + d1,高斯模型表示为y = a1*exp{-[(x-b1)/c1]2}。在这些方程中,x和y分别代表输入和输出,而a1、b1、c1和d1是需要回归的参数。这些模型在完整测试数据集上的性能也显示在图19和表5中。

基于图19和表5,RNN模型与传统机器学习(ML)模型以及参数回归模型的比较显示,RNN模型,特别是BiLSTM,在准确性和稳定性方面始终优于其他模型。BiLSTM具有最低的中位数MAE和较小的四分位数范围,表明其预测更精确和可靠,而传统的ML模型如BPNN和SVR虽然表现合理,但误差略高,变化性也较大。参数回归模型(立方、高斯和正弦波)的误差更高,分布也更广,特别是在R2方面,反映了其准确性和一致性较差。总体而言,BiLSTM是数据集中表现最好的模型。

5.4. 传感器间距dspacing对模型性能的影响

为了进一步研究传感器间距dspacing的影响,我们假设了dspacing = 1米、3米、7米、9米和11米的值。针对每个间距值训练了BiLSTM模型,并在整个数据集上进行了测试。

图20展示了不同倾斜仪的平均MAE与传感器间距比(dspacing / Hmax)之间的关系,用各种标记表示。即使在较大的比例下(例如0.5),平均MAE也保持在9.2毫米以下。鉴于测试数据集中的最大水平位移为121.5毫米,相对误差仅为7.5%,表明即使传感器间距较宽,预测误差也在可接受范围内。例如,假设最大深度(Hmax)为40米,dspacing / Hmax = 0.5,则传感器间距(dspacing)为20米。这种配置只需要在0米、20米和40米处放置三个传感器。与传统的工程实践相比,其中dspacing通常在0.5到3.0米之间,这种方法将主要成本组成部分——传感器数量——减少了6.7到100倍,同时保持了可接受的监测精度(平均MAE < 9.2毫米)。这种成本降低估计主要针对传感器采购,这是自动化倾斜仪系统总资本支出的主要部分。这个假设基于标准的部署实践和现场倾斜仪系统的固有特性。安装成本基本上是每个钻孔固定的:钻一个到目标深度的钻孔,并安装一个预组装的带有预定义间隔传感器的传感器串,并作为一个整体单元灌浆。一旦达到最小安装长度,钻孔、放置和灌浆所需的人工、设备和材料基本上与传感器密度无关,因此增加传感器会增加传感器串的成本,但不会成比例地增加安装时间或复杂性。在几个月到几十年的典型监测期间,运营和维护成本也相对较低,因为工业级传感器设计用于长期、低维护操作,系统诊断是在系统级别进行的,而不是针对每个传感器。数据采集和存储成本也基本固定,因为使用了集中式数据记录器和基于云的平台,处理额外传感器数据的增量成本相对于基础设施和软件费用来说可以忽略不计。因此,尽管全面的生命周期成本分析将包括所有成本组成部分,但传感器节点的数量仍然是主要的成本驱动因素,优化传感器间距以减少传感器数量可以大幅降低整体监测预算。

图20. 平均MAE值与dspacing/Hmax之间的关系。

除了成本考虑之外,在实际项目中实施稀疏传感器部署时,还应考虑几个实际约束。首先,自动化倾斜仪串的物理安装需要小心处理,以确保传感器对齐和电缆保护;稀疏间距减少了传感器节点的数量,但并不简化钻孔或灌浆程序。其次,传感器间距必须与预期的变形剖面兼容:在高曲率区域(例如,靠近挖掘底部或软层界面)可能需要局部更密集的间距,以避免位移信号的混叠。第三,当部署的传感器较少时,冗余和容错性变得更加关键;在稀疏阵列中,单个传感器的故障会导致比密集阵列更大的信息缺口。因此,对于关键基础设施项目,建议采用结合稀疏基线间距与高风险区域有针对性的局部密集化的混合策略。第四,数据传输和电源供应限制(例如,在偏远或深部挖掘现场)与传感器数量无关,但可能会影响无线系统与有线系统的选择。这些实际约束应基于项目逐一进行评估,以平衡监测可靠性、准确性和成本。

图20中的红色曲线代表最佳拟合的二次方程,捕捉了MAE随dspacing / Hmax增加的一般趋势。最佳拟合方程MAE = 1.43 + 2.16(dspacing / Hmax) + 11.19(dspacing / Hmax)2(R2 = 0.36)量化了这一趋势。它表明,随着dspacing / Hmax比率的增加,平均绝对误差(MAE)非线性上升,表明较大的传感器间距会导致更高的预测误差。这种关系对于平衡监测精度和安装成本至关重要。对于安全监测至关重要的关键深部挖掘项目,应选择较小的dspacing / Hmax比率,以保持高精度并确保及时发现潜在的结构问题。对于精度要求不那么严格的非关键项目,增加dspacing/Hmax可以减少传感器数量并节省成本,只要结果误差保持在可接受的范围内。

上述分析基于均匀的传感器间距方案,提供了一个简单、可推广的基线,不需要预先了解特定站点的条件。非均匀传感器间距的影响——例如,在高变形梯度区域(例如,靠近软层或挖掘面)收紧间距,在其他地方放松间距——代表了进一步优化的有希望的方向。这可能会在固定传感器数量的情况下提高精度,或者在目标精度下实现更大的成本降低。然而,开发这样的优化方案需要整合岩土工程或施工阶段的数据来识别关键区域,这与创建混合数据物理模型的未来工作方向一致。这里提出的均匀间距框架建立了一种基础且普遍适用的方法。

6. 结论

本研究介绍了一种新颖的循环神经网络(RNN)框架,该框架利用稀疏传感器数据来预测自动化监测中的挖掘引起的水平位移。利用来自中国杭州两个主要深部挖掘现场的数据,这项研究展示了多种RNN架构——LSTM、GRU和BiLSTM——在稀疏数据条件下准确建模位移剖面的有效性。我们的发现表明,BiLSTM模型的表现优于其他RNN变体,实现了最低的MAE(1.90毫米)和最高的R2(0.89)。这种优越的性能主要归因于其双向处理信息的能力,这增强了位移数据中时间依赖性的利用。此外,与传统的ML模型如BPNN和SVR相比,BiLSTM模型在预测精度和稳定性方面也显示出显著的优势,突显了RNN架构在处理序列位移数据方面的优越能力。所提出方法的稳健性在不同挖掘条件下得到了验证,确认了其在验证条件范围内的泛化能力——特别是对于挖掘,其中关键位移特征(剖面形状、幅度范围和影响深度)与训练数据包含的特征相似或较不严重,即使土壤类型和支持系统不同。对于由于薄弱层导致局部变形模式非常明显的场地,建议进一步验证并结合地质先验知识进行优化。我们研究的一个关键方面是探讨传感器间距(dspacing)对模型性能的影响。结果表明,即使传感器间距较大,预测误差仍保持在可接受的范围内,这体现了模型的稳健性。这种关系对于工程应用至关重要,因为它有助于制定平衡精度与成本效益的传感器部署策略。通过减少所需传感器的数量同时保持高预测精度,我们的方法为深挖掘项目的实时监测提供了经济高效的解决方案。这一进展不仅提升了安全性和风险管理水平,还优化了建筑工程中的资源分配,尤其是在挖掘工作复杂且需要密切监控的城市环境中。文章还讨论了实际部署中的考虑因素,包括传感器冗余、高曲率区域的局部加密以及系统可靠性,以指导实际应用。未来的工作可以进一步改进模型,探索先进的深度学习技术,并扩展训练数据库以包含更多类型的土壤剖面和施工方法,从而拓宽其适用范围。

**作者贡献声明:**
陈成:撰写——审阅与编辑、撰写——初稿、软件开发、方法论、资金筹集、正式分析、概念构建。
李卓峰:撰写——审阅与编辑、撰写——初稿、方法论。
吕青:撰写——审阅与编辑、撰写——初稿、方法论。
冯松:撰写——初稿、数据整理。
詹良通:撰写——初稿、方法论。
陈云敏:监督、方法论。
刘兴旺:监督、项目管理、概念构建。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号