基于LLM的多智能体框架，用于隧道爆破中的自动按次付费（PPV）预测徐健、范海平、达尼尔·贾赫德·阿尔马哈尼

《Geosciences》：LLM-Powered Multi-Agent Framework for Automated PPV Prediction in Tunnel Blasting Jian Xu, Haiping Fan and Danial Jahed Armaghani

【字体：大中小】 时间：2026年05月01日 来源：Geosciences 2.1

编辑推荐：

　　摘要准确预测爆破引起的峰值粒子速度（PPV）对于评估结构损伤风险和确保隧道施工安全至关重要。本研究提出了一种基于AI代理的评估-优化工作流程，该流程自动化了从数据集输入到模型训练、性能评估、超参数优化和集成构建的整个模型开发过程，在数据集定义后仅需有限的

　　摘要准确预测爆破引起的峰值粒子速度（PPV）对于评估结构损伤风险和确保隧道施工安全至关重要。本研究提出了一种基于AI代理的评估-优化工作流程，该流程自动化了从数据集输入到模型训练、性能评估、超参数优化和集成构建的整个模型开发过程，在数据集定义后仅需有限的人工干预。该框架采用多代理架构，包括三个协作代理——协调器、评估器和优化器——并由大型语言模型（LLM）推理层支持。评估器代理分析模型的多个指标性能并生成诊断性见解；优化器代理将这些见解转化为结构化的优化计划；协调器则协调评估-优化循环和停止逻辑。该工作流程应用于102个隧道爆破事件的数据集。训练并评估了九种候选回归模型，涵盖了基于树的模型、基于核的模型、神经网络模型和正则化线性模型。结果表明，该工作流程可以得出三个重要观察结果：（i）在五种基于树的模型中，粉末因子是主要预测因子（相对重要性为28.7–50.5%）；（ii）在50次蒙特卡洛重复80/20分割的情况下，KNN和投票集成在统计上无法区分，并形成了最稳定的性能簇，而梯度提升模型位于同一簇内但方差较大；（iii）在嵌套的5×5交叉验证下，顶级模型的未泄露R2值约为0.84–0.86，这量化了任何未来的单次80/20分割PPV研究可能遇到的小样本过度优化问题。因此，本研究不仅提供了一种适用于表格地质回归的便携式代理架构，还提出了关于单次分割基准测试的具体警告。

1. 引言
爆破仍然是隧道工程中不可或缺且经济高效的一种岩石挖掘和破碎技术。爆破作业的一个主要且不可避免的后果是产生爆破引起的地面振动，这些振动会通过岩石传播并对相邻结构的结构完整性构成重大威胁[1,2,3]。这些振动可能导致累积损伤，从而引发严重的安全问题、运营中断和潜在的经济责任[4,5]。因此，准确预测和精细控制这些振动不仅是运营目标，对于确保工程安全、符合法规要求以及有效风险管理也至关重要[6]。
峰值粒子速度（PPV）定义为波传播过程中粒子的最大瞬时振动速度，被广泛用作表征隧道爆破振动强度的关键指标[7]。其预测在隧道爆破作业中至关重要，以最小化对附近结构的振动损害并确保安全的挖掘实践。传统的经验方法长期以来一直是标准方法，依赖于爆破参数与产生的地面振动之间的既定数学关系。然而，这些传统技术常常难以处理爆破场景中复杂的非线性关系，其中多个变量以不可预测的方式相互作用。传统的经验公式通常只考虑两个因素——装药量和爆炸距离——而完全忽略了其他显著影响地面振动的因素[8,9,10]。这种简化方法未能考虑到地质条件、地形造成的高程差异、岩石性质、岩体结构、延迟时间和爆破几何形状等重要因素[11]。忽略这些重要因素会导致结果不够准确，从而限制了经验预测的实际价值。
因此，研究人员越来越多地转向机器学习方法，希望通过数据驱动的模型来捕捉这些复杂模式[12,13,14]。支持向量机（SVM）被认为是一种多功能的PPV预测工具，具有高精度和快速计算的优势[15]。人工神经网络（ANN）方法已成功实现，使用四层前馈反向传播多层感知器并通过Levenberg–Marquardt算法进行训练，决定系数值高达0.957[16]。使用均方根误差和系数相关性进行的评估研究表明，基于人工神经网络的PPV预测比传统经验公式和多元回归分析产生的误差更低[17,18]。
从单一机器学习模型发展到由元启发式算法优化的混合系统，标志着PPV预测精度和可靠性的显著进步[19,20,21,22]。结合遗传算法（GA）、粒子群优化（PSO）、帝国竞争算法（ICA）、人工蜂群（ABC）和萤火虫算法（FA）优化器的混合人工神经网络模型表现出逐渐改进的性能，其中FA-ANN模型实现了最高的精度水平（训练时R2 = 0.913，测试时R2 = 0.910）[23]。研究一致表明，混合模型显著降低了预测误差，例如ANN与FA结合使用时PPV减少了60%，基因表达编程与布谷鸟优化算法结合使用时PPV值减少了55.33%[24]。此外，通过将基于树的算法与优化技术相结合，先进的集成方法也获得了重视。增强了鲸鱼优化算法（WOA）的随机森林模型相比常规RF模型表现出更优的性能[25]。XGBoost已成为优化的基础算法，研究表明PSO优化的XGBoost模型比原始实现具有更高的预测精度[26]。包括WOA、灰狼优化（GWO）和贝叶斯优化在内的多种元启发式算法已成功应用于微调XGBoost超参数，所有优化模型的性能均优于基线XGBoost[27]。
尽管机器/深度学习方法具有巨大潜力，但大多数PPV研究仍然依赖于大量手动工作流程：分析师必须预先选择模型家族、设置或搜索超参数、比较指标，并决定何时停止或尝试另一种配置[28]。这样的工作流程耗时且难以完全重现，对于解释为什么某个模型表现更好或接下来应追求哪种改进方向提供的结构化推理也非常有限。
代表性的AutoML平台如Auto-Sklearn、TPOT和H2O AutoML也可以在有限的人工干预下自动化模型比较和超参数调整。然而，在工程应用中，目标不仅是获得有竞争力的分数，还要保留一个可追溯的工作流程，以解释为什么选择某个模型，哪些变量主导了响应，以及为什么应该或不应该继续改进。因此，本研究被定位为一个面向领域的代理工作流程，而不是替代成熟的AutoML库。
同时，更广泛的人工智能社区已经开发了结合多种专门角色的“代理”系统——规划、评估和优化——通常由大型语言模型（LLM）协调，以对自然语言和数值证据进行推理。在工程导向的AI中，这样的系统最好理解为基于角色的工作流程，其中复杂任务被分解为可检查的决策阶段，而不是不受限制的自主代理。最近在地质工程中的LLM应用主要集中在检索、解释支持和文本辅助分析[29]，而本研究将LLM嵌入到模型开发工作流程中，作为性能诊断和优化规划的推理层。在地球科学和工程地质学中的应用正在出现，但据我们所知，尚未有专门用于爆破-振动预测和PPV模型开发的显式LLM驱动代理框架在同行评审文献中报道。
本文通过提出并实现一种基于AI代理的评估-优化工作流程来解决上述问题，用于隧道爆破引起的PPV预测，并评估代理层在自动化之外的实际贡献。该框架的设计如下：（i）协调器协调训练、评估和优化轮次；（ii）评估器代理合成多指标性能、跨模型诊断和特征重要性总结；（iii）优化器代理将评估见解转化为可执行步骤——超参数搜索和集成构建——而不是单独的固定优化器运行。本研究应被视为LLM辅助代理工作流程在PPV预测方面的概念验证应用，目的是测试这种架构是否可以在保持与现有非线性回归器竞争性的同时提供一个透明的模型开发流程。因此，本研究的目标是：
（1）一种适用于表格地质回归的便携式、基于角色的LLM-评估器-优化器-协调器架构，其中LLM仅限于诊断角色，所有评分、拟合和搜索保持确定性；
（2）使用现场隧道爆破数据集，对比一系列回归器（包括基于树的模型、基于核的模型、神经网络模型和线性模型）来评估该流程，并以适合工程解释的形式报告预测精度、残差诊断和特征重要性；
（3）讨论实际限制——如小样本量和超参数搜索与泛化之间的权衡——以便未来的工作可以在相同的基于代理的设计基础上构建其他与爆破相关或地质预测任务。

2. 材料
2.1. 数据集描述
本研究收集了来自中国重庆秀山县隧道建设的数据。该隧道建于2024年，是铁路系统的一部分，位于一个以丘陵裸露和喀斯特侵蚀地貌为特征的地区，地形相对平坦。隧道现场的岩性主要由强风化至弱风化的凝灰岩和硬塑性粉质粘土组成。这些岩层通常具有良好的自稳定性能，有利于隧道施工。
本研究使用的数据集来自一个隧道爆破项目，包含102个爆破事件。对于每个爆破事件，测量了六个被广泛认为是影响爆破引起地面振动的关键因素的输入参数，以及相应的PPV作为目标变量。输入参数包括每次延迟的最大装药量（Qmax）、爆破点到监测点的距离（DI）、装药量与孔间距比（B/S）、填塞长度（St）、粉末因子（PF）和孔深（HD）。每个变量的描述如下：
Qmax：单个延迟间隔内引爆的爆炸物的最大重量。该参数直接决定了每次引爆释放的能量，是影响爆破引起振动强度的最主要因素之一。
DI：爆破源到振动监测点的距离。根据波衰减理论，地面振动随着与爆破点的距离增加而减弱。
B/S：爆破模式设计中装药量与孔间距的比率。这个几何参数控制了爆破的约束条件和破碎效率。
St：放置在爆炸孔中爆炸物上方的惰性材料（通常是钻屑）的长度，用于约束爆炸气体。适当的填塞可以改善爆炸能量的利用并影响振动传播。
PF：每单位体积岩石消耗的爆炸物数量。较高的粉末因子表示更强烈的爆破，通常会导致更强烈的地面振动。
HD：爆破孔的总深度。较长的孔会产生更大的爆炸柱长度，从而影响振动幅度和爆破能量的空间分布。

2.2. 统计分析
表1总结了数据集的描述性统计信息。102个样本完整，没有任何变量缺失。Qmax的范围从45.804 kg到305.60 kg，平均值为179.623 kg，变异系数（CV）为36.46%，反映了不同爆破轮次之间装药量的显著变化。DI的范围在285 m到531 m之间，CV相对适中，为18.91%，表明监测站的位置在一个相对可控的范围内。B/S在所有参数中表现出最低的变异性（CV = 7.74%），范围从0.70到0.92，表明在整个项目中爆破模式几何形状得到了相对控制。St的范围从1.90 m到3.60 m，CV为15.13%。PF的范围从0.232到0.94 kg/m3，CV为28.34%，显示出现场遇到的爆破条件的多样性。HD的范围从5.23 m到23.17 m（CV = 28.45%），涵盖了广泛的钻孔配置。目标变量PPV在所有参数中表现出最高的变异性，CV为57.32%，范围从0.13 mm/s到11.05 mm/s。这种广泛的分布突显了爆破引起振动的复杂性以及准确预测的挑战。
表1. 爆破数据集的描述性统计信息。所有七个变量的频率分布和核密度估计（KDE）显示在图1中。直方图显示Qmax大致遵循以180 kg为中心的单峰分布，而DI显示出双峰模式，集中在310 m和490 m附近，反映了两个不同的监测距离或隧道部分。B/S比率在其狭窄的范围内显示出近乎均匀的分布，St显示出右偏态模式，大多数值集中在2.2 m到2.8 m之间。粉末因子（PF）的分布略微左偏，较大的粉末因子对应更高的频率。冲击密度（HD）显示出多模态分布，集中在15米左右。孔隙压力值（PPV）的分布相对平坦，这与它的高变异系数（CV）和扁平的峰度形状一致。图1展示了所有变量的频率分布和核密度估计（KDE）。图2显示了所有变量的箱线图。四分位数范围（IQR）定义明确，没有观测值超出箱线图边界的1.5倍IQR，表明数据集干净且没有异常测量值。

2.3. 相关性分析
进行了皮尔逊相关性分析（r），以检验输入参数与PPV之间的线性关系以及参数之间的依赖性[30]。图3显示了相关性矩阵。在六个输入参数中，PF与PPV的正相关性最强（r = 0.783），其次是B/S（r = 0.776）和HD（r = 0.661）。这些结果在物理上是合理的：较高的粉末因子表示每单位体积使用的炸药更多，自然会产生更强的地面振动。较大的负担与间距比会增加炸药能量的限制，可能提高振动传递效率。更大的孔洞深度对应更长的炸药柱，释放更多能量，从而导致更高的PPV值[31]。相比之下，钻孔直径（DI）与PPV呈强负相关（r = ?0.691），这与振动随距离衰减的公认原理一致。 stemming长度（St）也表现出中等程度的负相关（r = ?0.569），因为较长的stemming长度可以提高炸药气体的限制，使爆炸能量更有效地用于岩石破碎而不是振动。孔隙最大深度（Qmax）与PPV仅呈弱正相关（r = 0.268）。尽管Qmax传统上被认为是经验PPV预测方程中的主要控制因素（例如USBM方程[32]），但在当前数据集中的相对较低相关性可能归因于其他参数的同时变化所造成的混淆效应。

关于参数之间的相关性，B/S与PF（r = 0.681）和B/S与HD（r = 0.551）之间存在中等到强的正相关，而DI与PF（r = ?0.527）和DI与B/S（r = ?0.508）之间存在中等程度的负相关。这些相关性表明输入参数之间存在多重共线性，这进一步支持采用对相关特征具有鲁棒性的机器学习模型，而不是传统的多元线性回归。图4展示了关键变量的成对散点图矩阵，提供了数据集中双变量关系和边际分布的全面视觉概览。这在许多机器学习研究中是常见的图表和分析方法[32,33,34]。总体而言，散点模式证实了输入参数与PPV之间的关系是非线性的，这加强了在所提出的基于AI的代理工作流程中使用先进机器学习技术的合理性。

3. 方法
本研究提出了一种基于AI代理的评估-优化器工作流程，用于自动化预测和优化爆破引起的PPV。整个工作流程遵循评估-优化器模式，这是代理AI系统中一个成熟的设计范式。该模式将机器学习优化问题分解为两个互补的角色：评估代理负责评估模型质量并生成诊断性见解，优化代理将这些见解转化为可执行的改进措施。更高层次的协调代理协调评估和优化之间的迭代循环，自主决定何时继续改进模型以及何时终止过程。如图5所示，完整的工作流程包括六个阶段：（1）输入和预处理：加载爆破数据集，将其分为训练集和测试集（80/20），并进行标准化；相同的划分用于所有基线模型、优化模型和集成模型。（2）初始模型训练：在数据集上训练九种不同的候选机器学习模型，包括基于树的模型、基于核的模型、正则化线性模型、神经网络模型和提升模型。（3）基于大语言模型（LLM）的评估：评估代理分析所有模型的多个性能指标，对模型进行排名，识别弱点，并通过LLM生成可操作的推荐。（4）LLM引导的优化：优化代理解释评估报告并制定优化计划，然后通过超参数调整和集成构建来执行该计划。（5）决策：协调代理评估是否达到优化目标（即达到目标R2分数，改进低于预定义阈值，或优化轮次达到最大次数）。（6）输出：在收敛后，框架生成最终报告，其中包含最佳模型、其性能指标、迭代过程中的R2进展以及特征重要性排名。

与传统的机器学习管道和现成的AutoML工具（Auto-Sklearn、TPOT、H2O AutoML、FLAML）不同，这里的贡献不是对所有可能的模型管道进行无限制搜索。相反，该框架使用基于角色的评估-优化器架构，其中LLM提供可追溯的诊断和规划支持，而底层的模型拟合、评分和搜索执行保持确定性。AutoML平台在预定义的预处理和学习算法空间内进行优化，目标是最小化预期分数。这里提出的工作流程故意较为狭窄：模型家族及其超参数范围是根据模型类别知识和小样本考虑预先确定的，ML训练器的模型拟合、评分和搜索执行保持确定性scikit-learn代码，而LLM层仅作为规划器，（i）优先考虑要优化的模型，（ii）用自然语言总结跨模型诊断，（iii）合理化协调器的停止决策。因此，本文并不声称在得分上优于AutoML；它声称在单站点PPV研究的典型数据集规模上具有决策链的可追溯性和可检查性。

3.1. 协调代理
协调代理作为整个工作流程的顶层控制器。它初始化ML训练器、评估代理和优化代理组件，并管理它们之间的数据和控制信号流。每次优化轮次后，协调代理评估是否进行下一次迭代或终止。实施了三个停止标准：（i）所有模型中的最佳R2分数达到或超过用户定义的目标（R2 ≥ 0.95）；（ii）最新迭代中的R2改进低于最小阈值（ΔR2 < 0.01），表明已收敛；或（iii）达到最大优化轮次数（报告实验中为五轮）。协调代理维护了所有迭代结果的累积池。当在给定轮次生成优化模型或集成模型时，它们会被合并到现有的结果池中，以便评估代理始终可以访问完整的模型历史记录。终止时，协调代理会编制一份综合摘要报告，包括R2进展历史、排名最高的模型和最终的建议集。在当前实现中，协调代理主要作为工作流程控制器，而不是完全自主的策略师。其主要职责是排序、结果汇总和应用明确的停止标准；因此，不应将本手稿解释为在此层面上主张无限制的LLM决策制定。

3.2. 评估代理
评估代理负责全面的模型性能评估。在每次迭代中，评估代理接收所有训练模型的结果，并进行多指标比较、特征重要性汇总、LLM驱动的分析以及人工参与的支持。所有模型使用四个回归指标进行评估：均方根误差（RMSE）、平均绝对误差（MAE）、决定系数（R2）和平均绝对百分比误差（MAPE）。模型主要根据R2进行排名，其他指标提供补充的诊断信息。对于一组n个测试样本，其真实值和预测值分别为和，则：

对于暴露特征重要性属性的模型（例如，通过Gini不纯度或基于增益的重要性的基于树的模型），评估代理通过平均来汇总所有适用模型的特征重要性向量。这种跨模型汇总提供了更稳健且不依赖于模型的视角，说明哪些输入参数对PPV预测最具影响力。评估代理将所有模型结果（包括指标、交叉验证分数和特征重要性值）格式化为结构化的文本摘要，并将其与特定领域的系统提示一起提交给LLM。系统提示指导LLM作为专注于回归任务和PPV预测的专家ML评估器。然后LLM生成自然语言分析，内容包括：（i）模型性能的总体评估，（ii）表现最佳模型的识别及其成功原因，（iii）弱点和失败模式的列表，以及（iv）特征重要性见解。生成的文本随后被解析为结构化的弱点和建议，作为规划信号传递给优化代理。因此，LLM在评估和优化之间充当推理层，而不是替代确定性模型训练。

3.3. 优化代理
优化代理将评估代理的诊断输出转化为具体的、可执行的优化计划并执行它。其操作包括两个阶段：规划和执行。优化代理接收评估报告（包括模型排名、识别的弱点和建议），并通过系统提示将其提交给LLM，指示LLM作为专家模型优化器。LLM被要求返回一个结构化的JSON响应，指定：（i）要优化的模型，（ii）在预定义超参数范围内的建议搜索方向，（iii）特征工程建议，（iv）集成策略（类型、成员模型和理由），以及（v）优化的优先列表。搜索范围是根据模型类别知识和小样本考虑预先定义的；LLM优先考虑模型，并可能强调这些预定义范围的部分，而不是从零开始生成无限制的搜索空间。如果LLM的响应解析不正确，优化代理将回退到基于规则的默认计划，针对前三名模型并使用预定义的超参数搜索空间。优化代理通过两种主要机制执行计划：对于每个目标模型，优化代理调用ML训练器的超参数优化函数，在指定的参数空间内进行随机搜索，使用200个采样配置和5折交叉验证，并通过R2进行评分。“200次迭代”指的是给定优化轮次中的每个选定模型，而不是整个工作流程。在报告的实验中，只有前三名模型在单次优化轮次中进行了调整。然后使用搜索确定的最佳超参数配置重新训练模型，并记录在保留的测试集上的性能。

3.4. ML训练器
ML训练器是初始训练阶段和优化执行背后的计算引擎。它负责模型实例化、训练、评估和超参数搜索。ML训练器维护了一个包含九种候选回归模型的注册表，涵盖五个算法家族，如表2所示。数据集使用随机分割分为训练集（80%）和测试集（20%），并使用固定的种子（‘andom_state = 42’）。相同的划分用于所有基线模型、优化模型和集成模型，以便所有报告的变体都在相同的保留子集上进行比较。输入特征已经标准化，将每个特征的中心值设置为零均值，方差为单位方差。每个模型都在训练集上进行训练，并使用第3.2节中定义的四个指标在保留的测试集上进行评估。此外，还在训练集上进行了5折交叉验证，以评估模型的泛化稳定性。对于提供特征重要性属性的模型（基于树的模型和线性模型），会提取这些重要性值并连同性能指标一起存储。表3总结了为每个模型定义的超参数搜索空间。这些空间旨在覆盖广泛的配置范围，同时保持计算上的可行性，以便在每个选定的模型上进行200次迭代的随机搜索。由于数据集较小（n = 102），因此有意将界限保持在适度的范围内；例如，树深度和集成大小被限制在实际范围内，以平衡模型的灵活性和过拟合风险。表3. 候选模型的超参数搜索空间。

3.5. 工作流程配置
整个工作流程由一个集中式的配置系统管理，该系统分为三个层次：
- LLM配置：提供者、模型标识符、系统提示以及用于推理层的设置。在实现中，通过聊天完成界面为Mistral AI（'mistral-large-latest'）配置工作流程，为评估器和优化器提供特定任务的系统提示，温度设置为0.7，最大令牌数为4096，不使用少样本示例，也不进行领域微调。
- ML配置：要训练的模型列表、训练/测试分割比例、交叉验证的折叠次数、超参数搜索类型以及搜索迭代次数。
- 代理配置：要计算的评估指标、可用的优化策略（超参数调整、特征工程、模型选择、集成创建）、最大优化迭代次数、目标R2分数以及提前停止的耐心度。

这种模块化的配置设计使我们能够轻松地将工作流程适应不同的数据集、性能目标和计算预算，而无需修改核心算法组件。
为了可重复性，当外部API访问不可用时，也可以使用基于规则的客户端来执行工作流程；然而，这样的客户端应被视为确定性干运行测试的备用实现，而不是生产级LLM后端的替代品。

4. 结果
4.1. 工作流程执行总结
提出的基于AI代理的评估器-优化器工作流程在包含102个样本的数据集上执行，这些样本有六个输入参数，目标变量为PPV。数据集被分为81个训练样本（80%）和21个测试样本（20%），所有基线模型、优化模型和集成模型的子集都是重复使用的。工作流程配置使用了以下设置：目标R2为0.95，最多5轮优化，改进阈值为0.01，以及针对每个选定模型的200个采样配置的随机超参数搜索。
Orchestrator代理在一个优化迭代（加上初始训练轮次）中完成了工作流程。只有排名前三的模型被进行了调整，因此随机搜索阶段涉及3 × 200 × 5 = 3000次交叉验证，而不是调整所有九个基线模型。在配备Intel(R) Core(TM) i7-14700和32 GB RAM的环境中，报告的端到端运行时间约为40秒。由于R2的改进幅度低于阈值（ΔR2 < 0.01），工作流程在第一次优化轮次后终止，表明在这个数据集上进一步搜索的边际收益不值得。

4.2. 初始模型训练结果
在初始训练阶段，所有九个候选机器学习模型都在数据集上进行了训练。所有模型的性能指标在表4中进行了总结，并在图6中进行了可视化。表4. 初始训练和优化阶段后所有模型的性能比较。图6. 所有训练/优化模型之间的性能比较。在最初的九个模型中，梯度提升（GB）表现最佳，其R2为0.9356，RMSE为0.7608 mm/s，MAE为0.5981 mm/s。其次是SVR（R2 = 0.9219）和随机森林（R2 = 0.9155）。这三个表现最好的初始模型的R2值均高于0.91，表明它们在PPV预测方面具有很强的能力。
集成方法和非线性模型的一致性优于线性基线模型。ElasticNet是唯一的正则化线性模型，在初始模型中排名最后，其R2为0.8564，这证实了相关性分析中发现的PPV预测问题的非线性特征。MLP神经网络的R2为0.8635，表明相对较小的样本量（81个训练样本）可能限制了神经网络方法的有效性，相比之下基于树的集成方法表现更好。
交叉验证结果提供了关于模型泛化稳定性的见解。SVR表现出最稳定的交叉验证性能（CV R2 = 0.823 ± 0.053），而KNN也相当一致（0.831 ± 0.070）。相比之下，决策树显示出最高的变异性（0.623 ± 0.219），表明有过度拟合的倾向。尽管梯度提升在测试集上的表现最好，但其交叉验证变异性为0.810 ± 0.153，这是小型数据集上提升方法的典型特征。

4.2.1. 不确定性量化
表4中的单分割排名是使用‘random_state = 42’计算得出的。由于测试集仅包含21个样本，单分割排名对特定的分割方式很敏感。为了量化这一点，我们对50个独立的随机种子重复了整个80/20分割、StandardScaler拟合、基线模型拟合和Voting-ensemble拟合过程。对于每个种子，都存储了测试集的平均R2、标准差和95%置信区间（CI）。总结统计信息见表5；完整分布显示在图7中。图7. 50次重复实验中的Monte-Carlo 80/20测试集R2分布（平均值 ± 标准差；95% CI）。在多次分割的情况下，KNN（平均R2 = 0.876，95% CI [0.747, 0.937]）和Voting集成（0.867, [0.743, 0.937]）是最稳定的两个模型；SVR（0.858, [0.753, 0.923]）和MLP（0.858, [0.720, 0.934]）位于下一个群体；梯度提升（0.845, [0.676, 0.943]）仍处于领先群体中，但方差明显较大。最初报告的GB的单分割R2 = 0.9356位于其自身分布的顶部，并且在KNN、SVR、MLP和Voting集成的95% CI范围内。这表明原始排名对随机分割的选择不具鲁棒性，尽管非线性模型的领先群体识别是稳健的。ElasticNet和决策树明显低于这个群体，因此不适合作为该数据集上的独立PPV预测器。

4.2.2. 排名的统计显著性
为了测试排名前五的Monte-Carlo模型在统计上是否有意义，我们对50个配对的R2值进行了配对Wilcoxon符号秩检验。双侧p值和秩双序列相关（rbc）效应大小在表6中报告。在α = 0.05的情况下，KNN和Voting集成在统计上无法区分（p = 0.37）。梯度提升显著低于Voting集成（p < 0.001，rbc = +0.56，中等效应），也低于KNN（p = 0.015），这与它的较大方差一致。SVR、MLP和GB之间的差异不显著。总的来说，这项分析确认没有单一模型可以被视为最佳；相反，一个由非线性模型组成的领先群体——KNN、Voting集成、SVR、MLP和GB——在它们的置信区间内表现相似，而ElasticNet和决策树明显位于其下方。

4.3. 优化和集成结果
在评估器代理的分析之后，优化器代理通过200次迭代和5折交叉验证选择了前三名模型——梯度提升、SVR和随机森林——进行超参数优化。此外，还构建了一个结合这三个优化模型的Voting集成。
与初始模型相比，优化结果在图8中展示。一个重要的发现是，超参数优化后的梯度提升和SVR版本在测试集上的表现并未超过它们的初始（默认超参数）版本：GB-Opt的R2为0.9045，而初始GB的R2为0.9356；SVR-Opt的R2为0.8740，而初始SVR的R2为0.9219。优化后的随机森林（R2 = 0.9208）相比初始RF（R2 = 0.9155）有轻微的改进，R2提高了ΔR2 = +0.0053。图8. GB、RF和SVR之间的优化性能比较。这个反直觉的结果——其中两个模型的性能在优化后反而下降——可以归因于数据集规模较小（n = 102）。由于只有81个训练样本和5折交叉验证，每个折叠大约包含16个样本，这可能不足以让随机搜索可靠地识别出能够很好地泛化到保留测试集的超参数配置。通过比较同一训练/测试分割上的CV和保留测试集的性能，得到了支持这一解释的证据。GB在调整后的CV R2从0.810 ± 0.153提高到0.848 ± 0.110，而其测试集R2从0.9356下降到0.9045；SVR也表现出类似的模式，在CV中的R2从0.823 ± 0.053增加到0.883 ± 0.058，在测试集上从0.9219下降到0.8740。因此，默认配置可以描述为在这个数据集上具有竞争力，而不是普遍接近最优。
Voting集成平均了这三个最佳模型的预测结果，其R2为0.9178，RMSE为0.8596 mm/s，MAE为0.6863 mm/s。值得注意的是，该集成在所有13个模型中实现了最低的MAPE（16.80%），表明其相对误差性能优越。然而，集成并未超过最佳的单个模型（GB，R2 = 0.9356）。这种差异表明存在一个度量依赖的权衡：GB保留了更多的总体响应方差，而集成在相对误差稳定性方面表现更好，尤其是在PPV较低的情况下，基于百分比的误差更为敏感。
图9显示了GB模型的R2收敛历史，表明最佳R2分数在多次迭代中保持在0.9356。Orchestrator代理正确识别了这一平台期，并在一次优化轮次后终止了工作流程，证明了提前停止机制的有效性。

4.3.1. 对前三名模型的嵌套交叉验证
上述CV–test差异引发了这样一个问题：在n = 21的情况下，测试值本身是否可靠。因此，我们对整个标准化数据集应用了嵌套的5 × 5交叉验证，内循环使用与表3中相同的搜索空间，并且每次内循环使用50个随机样本。图10显示了GB、SVR和RF的外层折叠R2的平均值和标准差。图10. 前三名模型的嵌套5 × 5交叉验证外层折叠R2。在嵌套CV下，这三个模型的表现相似，分布重叠。SVR的平均值最高（0.858），方差最小（0.053），而GB（0.838 ± 0.146）和RF（0.839 ± 0.114）的尾部较长，其中有一个外层折叠的R2分别接近0.58和0.64。由此得出两个结论：首先，这个数据集上的未泄露的性能上限更接近0.84–0.86，而不是单分割的0.9356，这证实了Monte-Carlo的结果。其次，基于树的模型的尾部较低是由于某些折叠中高PPV极端值或低PPV群体的代表性不足；这是n = 102的结果，而不是算法家族的特性。

4.3.2. 与网格搜索和默认参数基线的比较
为了检查随机搜索的负面结果是否是由于搜索空间不匹配造成的，我们添加了一个仅使用四个超参数（n_estimators ∈ {50, 100, 200}, learning_rate ∈ {0.05, 0.1}, max_depth ∈ {3, 5}, subsample ∈ {0.9, 1.0}）的受限网格搜索，即24种组合 × 5折CV = 120次拟合。结果总结在图11中。图11. 三种调整方案下梯度提升的CV最佳值和保留测试集R2。所有三个分数都在表5中GB的95% CI范围内，即在这个分割上统计上无法区分。然而，有两个观察结果是可重复的：首先，scikit-learn的默认GB超参数在这个数据集上具有很强的竞争力，实际上没有任何一种搜索方法超过它。其次，随机搜索获得了更高的CV最佳值，但测试值低于网格搜索，这是CV在小样本上过度优化的典型特征：更广泛的搜索找到了更多恰好赢得内层折叠的配置，但这些配置并不具有泛化能力。

4.4. 预测PPV与实际PPV的对比
图12展示了四种表现最佳模型的预测PPV与实际PPV的散点图。在所有四个子图中，数据点都紧密地聚集在1:1对角线上，证实了预测值和测量值之间的PPV（爆破振动概率）有很强的吻合度。图12显示了测量值与预测值的对比。梯度提升（Gradient Boosting）在1:1线附近的聚集最为紧密，大多数预测值的偏差小于1毫米/秒。该模型在整个PPV值范围内（0.13–11.05毫米/秒）表现一致良好，没有系统性的低估或高估倾向。支持向量机（SVR）也显示出类似的高一致性，但在较高的PPV值（>7毫米/秒）时散布稍大。优化的随机森林（Random Forest）整体表现良好，但在中等范围内（3–6毫米/秒）有轻微的低估趋势。投票集成（Voting ensemble）通过结合多个模型的误差平均效应，实现了平衡的预测结果。

4.5 残差分析
对最佳模型（梯度提升）的残差分析如图13所示，包括三个诊断图：(a) 残差与预测值的关系图，(b) 带有正态分布拟合的残差分布图，以及 (c) 正态Q-Q图。残差与预测值的关系图表明，残差在预测值的整个范围内大致对称分布，没有明显的漏斗形模式。大多数残差落在±1毫米/秒的范围内，只有少数数据点的残差超过了±1.5毫米/秒。残差直方图显示残差分布接近正态分布，这表明模型无偏差。残差的标准差约为0.75毫米/秒。Q-Q图确认残差主要遵循正态分布，仅在尾部有轻微偏差。这些诊断结果共同表明，梯度提升模型提供了可靠且校准良好的PPV预测，没有系统性的误差模式。

4.6 特征重要性分析
图14比较了五种基于树的模型（梯度提升、随机森林、XGBoost、RF-Opt和GB-Opt）的相对特征重要性，并将其标准化为百分比。粉末因子（Powder Factor，PF）在所有模型中都被一致认为是最重要的预测因子，其相对重要性从RF-Opt的28.7%到XGBoost的50.5%不等。这一发现与第2.3节中观察到的PF与PPV之间的强皮尔逊相关性（r = 0.783）相符，并且在物理上也是直观的：单位体积岩石中的更高爆炸浓度直接转化为更强的爆破诱导振动[34]。距离（Distance，DI）是第二重要的特征，对总重要性的贡献率为14.2–19.0%。这反映了振动随距离衰减的公认原理。负担与间距比（Burden-to-Space Ratio，B/S）排名第三，重要性值在16.3%到28.9%之间。B/S比控制了爆破的封闭几何形状，影响了能量从爆炸荷载传递到地面振动的效率。杆长（Stemming Length，St）的贡献率为9.1–15.8%，反映了其在限制爆炸气体和减少表面振动方面的调节作用。孔深（Hole Depth，HD）的重要性相对较低（2.7–11.5%），表明其对PPV的影响部分被其他相关变量（如PF和B/S）所涵盖。最大延迟荷载（Maximum Charge per Delay，Qmax）始终被认为是最不重要的特征（1.4–6.3%），这与它在经验PPV预测方程（如USBM公式）中的传统重要性形成对比。这一发现表明，在多变量机器学习的背景下，Qmax所携带的预测信息在很大程度上被粉末因子和距离所取代，后者是地面振动强度的更直接物理决定因素。

5. 讨论
本研究提出的框架自动化了从准备数据集输入到训练、评估、优化和报告的整个模型开发流程。最佳模型（梯度提升，R2 = 0.9356）在现有数据集上实现了具有竞争力的预测准确性。代理工作流程得出了三个发现：(i) 对爆破控制因素的重新排序，强调了粉末因子的作用，并降低了最大延迟荷载的重要性，相对于经验性的USBM模型而言；(ii) 在102个事件的数据集上直接量化证明了随机搜索提高了交叉验证的R2值，同时降低了GB和SVR的保留测试R2值，这是小样本交叉验证过拟合的典型特征；(iii) 在一个度量指标上存在权衡，即投票集成实现了最低的MAPE（16.80%），尽管梯度提升实现了最高的R2值。
orchestrator-evaluator-optimizer架构、提示角色、超参数空间模板和停止规则与数据集无关，可以重新用于其他表格地质技术回归任务，如沉降预测、边坡安全系数估计或岩石爆裂强度。然而，拟合的PPV模型是针对秀山隧道现场（岩性、爆破几何形状和荷载范围）的，因此在其他地方部署之前需要重新训练。跨现场泛化、迁移学习和在多站点PPV数据集上的领域适应仍然是未解决的问题。
小数据集（n = 102）是本研究的主要限制。80/20的分割只留下了21个测试案例，而在81个训练样本上进行5折交叉验证时，每组大约只有16个案例。这种设置有助于解释为什么随机搜索提高了GB和SVR的交叉验证分数，但却降低了它们的保留测试性能，表明存在特定于组的过拟合现象。在蒙特卡洛分割基准下，前五种非线性模型的R2分布有相当大的重叠，置信区间宽度约为0.15–0.25。在嵌套的5 × 5交叉验证下，前三名模型的平均R2值降至0.838–0.858，且方差有重叠。在受限的网格搜索下，无论是网格搜索还是随机调整都无法在保留测试中超越默认的梯度提升模型。总体而言，这些结果表明，数据集而非算法家族是限制因素：当n = 102且采用80/20分割时，更精细的搜索可以利用的残差方差与分割本身引起的方差相当，因此额外的搜索只是在交叉验证过度优化和测试优化不足之间进行权衡。
第二个限制是缺乏外部基准。本文没有与Auto-Sklearn、TPOT、H2O AutoML或FLAML进行直接比较。本研究中的LLM辅助层的价值不在于自动追求更高的R2值，而在于生成一条人类可读的推理路径，将模型诊断与下一步优化行动和停止决策联系起来。针对更大多站点PPV数据集的多平台、受控基准测试是一个明确的后续研究方向。
第三，代理工作流程的可扩展性意味着对于更大的数据集还有两个可扩展性问题：随着模型数量增加，提示长度的增长以及嵌套交叉验证在多站点数据库规模下的时间成本。使用分布式CV执行和结构化的LLM工具调用来扩展工作流程是一个明确的后续研究方向。

6. 结论
本研究开发了一个基于LLM辅助的评估器-优化器工作流程，用于隧道爆破中的PPV预测。应用于102个事件的隧道爆破现场数据集，所提出的LLM辅助评估器-优化器工作流程实现了完全自动化的模型比较、目标调整、集成构建和报告，遵循确定性和可检查的搜索协议。主要结论如下：
(1) 在50次蒙特卡洛80/20分割中，非线性模型——KNN、投票集成、SVR、MLP和GB——形成了一个领先集群，置信区间有95%的重叠，而不是一个唯一的最佳模型。配对Wilcoxon检验显示KNN和投票集成在统计上无法区分；GB显著低于投票集成（p < 0.001，rbc = +0.56）。因此，报告的GB单次分割R2 = 0.9356是一个尾部结果，并非一个与现场无关的估计。
(2) 在嵌套的5 × 5交叉验证下，GB、SVR和RF的平均R2值分别降至0.838、0.858和0.839。这将数据集施加的上限缩小到大约0.84–0.86，解释了为什么随机和基于网格的调整都未能在保留测试中超过默认参数的梯度提升：限制因素是单站点样本量，而不是算法家族。
(3) 在五种独立的基于树的模型中，粉末因子是最重要的预测因子（相对重要性为28.7–50.5%），而经典USBM类型经验模型中的主要变量——最大延迟荷载——始终是最不重要的（1.4–6.3%）。负担与间距比和杆长携带了USBM类型模型未使用的非平凡的预测信息。
因此，本研究为表格地质技术回归提供了一种可移植的代理架构，三个定量科学发现具有跨模型和重采样方案的稳健性，并对单次分割基准测试提出了具体的警示。仍有三个开放的研究方向：(i) 多站点外部验证和迁移学习；(ii) 与成熟的AutoML框架（Auto-Sklearn、TPOT、H2O AutoML、FLAML）进行受控基准测试；(iii) 将LLM层从自然语言规划器扩展为适用于大样本设置的结构化工具调用接口。

热点排行