一种用于XGBoost超参数调优的元启发式设计:旨在构建一种完美的预测矿物勘探潜力的策略

《Remote Sensing Applications: Society and Environment》:A metaheuristic design for hyperparameter tuning of XGBoost: Towards shaping an impeccable strategy for predictive modeling of mineral prospectivity

【字体: 时间:2026年03月15日 来源:Remote Sensing Applications: Society and Environment 3.8

编辑推荐:

  矿物潜力性制图(MPM)中,基于XGBoost的机器学习模型通过粒子群优化(PSO)动态调整超参数,显著提升铜矿预测精度,对比结果显示PSO-XGBoost在混淆矩阵和ROC曲线分析中表现更优。

  
Saeid Esmaeiloghli|Mahyar Yousefi|Emmanuel John M. Carranza
伊斯法罕理工大学采矿工程系,伊朗伊斯法罕 8415683111

摘要

在过去二十年里,机器学习(ML)由于其在处理多源地球科学数据集中嵌入的非线性关系方面的能力,已成为数据驱动的矿产潜力绘图(MPM)领域的前沿技术。XGBoost是一种基于提升学习的旗舰算法,在MPM中因其能够加速训练过程、提高预测准确性、降低过拟合风险以及提升泛化能力而受到广泛关注。然而,要获得一个训练良好的XGBoost模型,通常需要仔细调整多个超参数,即n_estimatorsmax_depthmin_child_weightgammasubsamplecolsample_bytreelearning_rate。受此挑战的启发,我们在本文中提出了一个计算框架,该框架采用粒子群优化(PSO)算法来发现能够产生最高精度MPM预测的最优XGBoost相关超参数。PSO算法是通过使用训练数据集和五折交叉验证策略进行设计的,以找到全局最优的超参数设置,从而实现性能稳健的XGBoost模型。PSO-XGBoost模型是通过在R编程语言中编写的函数实现的。通过一个实际案例实验,展示了所提出的混合模型在伊朗南部Baft-Sarduiyeh地区对斑岩型铜矿潜力进行预测建模的潜力。将PSO-XGBoost模型与手动调整的XGBoost模型进行比较分析后,发现前者在混淆矩阵评估指标上表现更优,并且在接收者操作特征(ROC)分析中产生了更好的性能曲线。研究结果表明,使用PSO优化的超参数调整XGBoost可以显著提高预测能力,并促进对矿产潜力的更准确建模。

引言

矿产潜力绘图(MPM)是一门利用知识和数据驱动的地理计算技术来提取、权衡和综合多源地理信息,以支持金属勘探的科学和技术(Bonham-Carter, 1994; Carranza, 2011, 2008; Yousefi et al., 2019; Saremi et al., 2024; Hoseinzade et al., 2025)。近年来,随着人工智能时代的到来,机器学习(ML)和深度学习(DL)技术因其在处理具有复杂概率分布的多源地球科学数据集以及学习预测图与目标变量之间的非线性关系方面的强大能力而受到广泛关注(Karpatne et al., 2018; Bergen et al., 2019; Reichstein et al., 2019)。这些算法大致可以分为监督学习和无监督学习两类。在监督学习场景中,通常会训练分类器来学习预测层与标记勘探数据之间的空间交互(Carranza and Laborte, 2015a; Rodriguez-Galiano et al., 2015)。相比之下,无监督模型完全基于未标记的勘探数据进行训练,寻找多源地球科学数据集中的潜在空间模式(Chen, 2015; Chen and Wu, 2017; Esmaeiloghli et al., 2021a; Esmaeiloghli and Yousefi, 2025; Masoumi et al., 2026)。
近年来,在各种ML框架中,提升学习技术因其能够量化勘探变量之间的非线性关系、提供关于预测层对潜力模型贡献的信息、更短的运行时间以及较低的过拟合可能性而成为数据驱动MPM中用户友好的解决方案(例如,Brandmeier et al., 2020; Fan et al., 2023)。这些算法遵循集成学习方法,通过组合性能略优于随机猜测的分类器来获得更高性能的分类函数(Brandmeier et al., 2020)。表1概述了在各种实际案例研究中成功应用提升算法进行矿产潜力预测的研究成果。可以清楚地看到,XGBoost(即极端梯度提升)已成为矿产勘探文献中预测建模的旗舰提升模型(表1)。它提供了可扩展、可解释的工作流程,并因其能够产生稳健的结果、提高准确性和缩短执行时间而优于其他ML/DL算法。此外,XGBoost模型能够处理大型数据集,从而提供可解释的结果,并内置了交叉验证和提前停止功能(Chen and Guestrin, 2016)。
尽管XGBoost模型在提高预测能力方面表现出色,但其应用仍需要微调初始化参数(即超参数)以实现最佳的MPM预测(Yin and Li, 2022; Roshanravan and Kreuzer, 2025)。超参数的错误初始化可能会降低学习函数的性能。相反,准确的超参数校准可以显著提高ML模型的准确性、稳健性和泛化能力。然而,超参数调整往往既费时又需要专业知识(Feurer and Hutter, 2019; Yang and Shami, 2020)。在矿产勘探领域,常见的超参数调整方法包括试错搜索(例如,Xiong and Zuo, 2022; Soltani et al., 2025, 2024)、随机搜索(例如,Silva dos Santos et al., 2022; Fan et al., 2023)、网格搜索(例如,Shaw et al., 2022; Dong and Zhang, 2024)和贝叶斯优化(例如,Fan et al., 2023, 2022; Yin and Li, 2022)。试错搜索是一种手动测试策略,对于多个超参数来说并不容易实现。相比之下,网格搜索需要测试所有超参数的组合,这种过程不节省内存且不适合高维计算。随机搜索的执行速度比网格搜索快,但无法保证找到全局最优解(Feurer et al., 2022)。贝叶斯优化策略通过概率替代建模提供样本效率,而元启发式算法则无需梯度信息就能在高维、非凸搜索空间中导航。此外,元启发式算法在超参数调整过程中保持了探索与利用之间的平衡(Yang, 2010a, 2010b)。这些特性使它们特别适合优化复杂的ML模型,因为在这些模型中超参数是相互依赖的,且响应面不规则。因此,最近的研究人员使用元启发式优化器来克服局部最优问题并发现全局最优超参数(表2)。这些优化器旨在探索可用解决方案的空间,并在传统策略不足或不切实际时同时检查和比较多个解决方案,从而收敛到全局最优解(Yang, 2010a, 2010b)。
对于XGBoost模型来说,确定最优超参数是一个更为复杂的挑战,因为与传统的ML模型(例如RF和SVM)不同,它需要调整更多的超参数才能实现高精度的MPM预测(Parsa, 2021; Yin and Li, 2022)。如表2所示,目前还没有研究使用元启发式算法来调整XGBoost相关超参数。受此启发,我们组织了这项研究,开发了一个计算框架,该框架采用粒子群优化(PSO)算法来找到能够产生最高精度MPM预测的超参数。PSO是群体智能领域中用于优化工程问题的成熟元启发式算法(Shi, 2001)。当感兴趣的解位于连续数值空间时,它具有比其他元启发式优化方法更明显的优势(Eberhart and Kennedy, 1995)。因此,当超参数空间包括整数和连续参数时,PSO适合优化XGBoost相关超参数,其连续性质允许进行细粒度的探索而不会产生离散化伪影。此外,PSO算法的基于种群的架构使得候选超参数设置的并行评估成为可能,从而加速了计算密集型基于树的模型的优化过程。PSO优化的XGBoost模型被命名为PSO-XGBoost,并在R编程语言中实现。通过将其应用于伊朗南部Baft-Sarduiyeh地区的斑岩型铜矿化勘探目标,证明了PSO-XGBoost在MPM中的相关性。混淆矩阵和接收者操作特征(ROC)曲线被用作定量和图形评估指标,以评估PSO-XGBoost模型在预测研究区域铜矿存在性方面的有效性。

代码片段

XGBoost算法

XGBoost是一种集成ML算法,由Chen和Guestrin(2016)提出,它通过串行训练方案结合弱学习器(树模型)的预测来产生一个强学习器(树模型)。它通过使用正则化项来避免过拟合并提高泛化能力。此外,并行学习和分布式计算可以提高训练速度。图1展示了XGBoost的计算蓝图示意图

地质背景和矿化

研究区域位于Baft和Sarduiyeh地区的1:100,000比例尺地质图中,位于伊朗南部的Urmia-Dokhtar岩浆弧(UDMA)南部。UDMA是伊朗重要的成矿省,由阿拉伯板块在阿尔卑斯造山运动期间俯冲到中央伊朗板块下方形成(Berberian and King, 1981)。该地区拥有众多巨型和超大型铜矿床,分布在热液和表生系统中

执行平台和编程

为了启动PSO-XGBoost模型,我们使用R编程平台(版本4.1.2,Bird Hippie;R Core Team, 2021)中开发的函数编写并执行了一个用户友好的计算机程序。安装并调用R包xgboost(Chen et al., 2022)和pso(Bendtsen, 2022)是访问和编译必要函数和命令的前提条件。此外,还使用了easyROC作为交互式Web界面来进行R语言中的ROC分析

结论

在这项研究中,我们开发了一个基于PSO的创新框架,用于优化与XGBoost模型相关的超参数,以实现矿产潜力的预测建模。研究结果表明,混合PSO-XGBoost模型可以显著提高MPM应用中的预测能力。PSO算法通过系统地搜索超参数的数值空间,比手动调整方案具有更快的收敛速度和更高的效率

CRediT作者贡献声明

Emmanuel John M. Carranza:撰写 – 审稿与编辑。Mahyar Yousefi:撰写 – 审稿与编辑、验证、数据整理。Saeid Esmaeiloghli:撰写 – 原始草稿、可视化、验证、软件开发、方法论设计、调查、正式分析、概念化

代码可用性

代码名称:XGBoost超参数调优的粒子群优化(PSO-XGBoost)。
开发者和联系方式:Saeid Esmaeiloghli(电子邮件:esmaeiloghli@gmail.com)。
首次可用年份:2026年。
所需硬件:配备Intel(R) Core(TM) i5 @ 2.40 GHz处理器、四个核心、8.00 GB或更高内存的计算机。
所需软件:R 4.1.2或更高版本。
编程语言:R语言环境。
程序大小:9.89 KB。
包含教程命令的计算机代码已存放在

出版伦理声明

本研究准确描述了所进行的工作,所有数据均真实无误,方法论足够详细,以便其他人能够复制这项工作。
本手稿完全为原创作品;如果使用了他人的工作或文字,已适当引用或注明出处,并在必要时获得了许可。
本材料未在其他地方全部或部分发表。
本手稿目前未被考虑用于

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

作者衷心感谢编辑和四位匿名审稿人对手稿的仔细评估和富有洞察力的评论,这些评论显著提高了本文的质量、清晰度和严谨性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号