具有快速确定基学习器最优参数区间的决策森林

《Pattern Recognition》:Decision Forest with Fast-Determined Optimal Parameter Intervals of Base Learners

【字体: 时间:2026年02月28日 来源:Pattern Recognition 7.6

编辑推荐:

  提出基于二分法的最优参数区间捕获方法BiOPIC,通过参数扰动增强决策森林的多样性,在保证模型精度的同时减少50%以上计算时间,并在黄瓜病害和芒果病害识别任务中分别达到95.55%和100%的准确率。

  
王全|王飞|雷浩|陈博东|林志平|聂飞平
中国西安交通大学人工智能与机器人研究所人机混合增强智能国家重点实验室,西安,710049

摘要

基础学习者的多样性和能力对于提升集成模型的泛化性能至关重要。然而,像决策森林这样的同质集成模型缺乏内在的参数级多样性,即使采用自助采样或随机特征子空间,其性能也会受到限制。为了解决这一限制,我们提出了一种创新的决策森林框架,通过算法参数扰动来注入额外的多样性。通过策略性地改变单个树的超参数值,该框架在不损害单个学习者能力的情况下促进了更大的基础学习者多样性。关键贡献是一种基于二分法的最佳参数区间捕获(BiOPIC)方法,该方法能够高效地识别出确保基础学习者多样性和能力的最佳参数区间,同时显著提高计算效率。BiOPIC引入的多样性与现有的多样性机制(如自助采样或随机子空间方法)兼容。在具体的BiOPIC-Forest实例上的实验表明,与基于网格搜索的森林相比,时间消耗大幅减少,而分类准确性没有下降。具体来说,BiOPIC-Forest框架的运行时间节省了大约50%或更多,同时达到了或超过了基于网格搜索的森林的分类性能。此外,它在植物疾病识别数据集“黄瓜”和“芒果”上的表现也优于其他无搜索决策森林。这些实验结果验证了我们提出的框架在农业智能应用中的实际潜力,并建立了一种新的集成构建范式,可以快速确定基础学习者的最佳参数区间。

引言

模式分类任务[1]、[2]可以通过多种方法完成,其中集成学习方法占有重要地位。集成构建中的一个关键挑战在于效率和准确性之间的固有权衡。虽然增加基础学习者的多样性通常可以提高泛化能力,但这通常会以更高的计算复杂度或训练时间为代价。在这种情况下,决策森林一直是一类强大且流行的集成方法。
早期的发展主要集中在通过数据或特征操作来多样化基础学习者,以提高集成准确性。Bagging[3]通过自助采样引入了样本级多样性,而随机子空间方法(RaS)[4]则作用于特征子集。随机森林(RaF)[5]成功结合了这两种策略,成为广泛采用的基准。后续的创新,如旋转森林[6]和基于倾斜决策树的集成[7]、[8],通过引入特征变换进一步丰富了基于森林的分类器家族。读者可以参考详细综述[9],了解更多与决策森林相关的早期工作。
近年来,研究扩展到了几个专门的方向,通常旨在在不大幅牺牲效率的情况下提高准确性。这些包括针对迁移学习的适应[10]、动态集成大小和特征选择[11]、通过MapReduce实现的大数据可扩展性[12]、针对新类别的增量学习[13]、保护隐私的设计[14],以及无需显式特征的序列分类[15]。同时,提高可解释性[16]和在保持竞争力的同时简化模型的努力[17]反映了人们对性能和实用性的持续关注。
大量的工作致力于通过增强基础学习者的能力或多样性[18]来提高分类准确性[19]。例如多粒度级联森林(gcForest)[20]、基于多变量决策树的集成[21]、多样性来源的平衡同步[23],以及具有倾斜或旋转分割的双随机森林[24]都体现了这一趋势。然而,许多此类方法主要依赖于自助采样或随机子空间策略,这可能无法充分利用潜在的变异来源,并在全面追求时引入效率瓶颈。
算法参数扰动提供了另一种实现多样性的途径,但其集成到像决策森林这样的同质集成模型中仍需进一步探索。深度集成技术(如Deep Ensembles[25]和Packed Ensembles[26])使用参数初始化方差,而集成选择方法[27]、[28]可以在参数生成的候选池上进行优化。然而,它们通常会带来显著的计算和搜索开销,加剧了效率-准确性之间的权衡。
作为多样性来源之一,算法参数扰动对于引入决策森林非常有价值。在大多数现有的决策森林中,基础学习者(决策树)总是完全生长出来的,而不受超参数约束。因此,人们未能利用算法参数扰动来获得额外的基础学习者多样性。然而,决策森林是同质集成模型,它们自然比异质集成模型具有更少的基础学习者多样性。因此,决策森林比异质集成模型更迫切需要基础学习者的多样性。实际上,诸如叶节点中的最小样本数量和决策树中随机子空间的特征数量等超参数都可以很容易地被视为构建森林的多样性来源,而在[21]中提出的多变量决策树(MDTs)和BDTKS[29]中直接包含了超参数。此外,即使仅改变一个超参数,决策树的结构也可能发生变化,这有利于增加决策森林中基础学习者之间的多样性。因此,决策森林引入算法参数扰动以增强多样性是必要且可行的。
在这项研究中,主要目标是将算法参数扰动作为决策森林中的一类多样性机制,并通过一种高效的区间识别方法来支持,以避免穷举搜索。我们提供了一个自动确定基础学习者最佳参数区间的决策森林框架。为了提高基础学习者之间的多样性,在集成中生长单个决策树的过程中加入了算法参数扰动。为了提高最终决策森林的效率,我们提出了一种新的基于二分法的最佳参数区间捕获方法(BiOPIC),在构建最终决策森林之前确定最佳参数区间。与网格搜索中通过构建森林来验证每个候选参数值不同,BiOPIC通过策略性构建的森林结合统计测试来识别一组候选参数区间,然后验证这些区间。这种方法大大减少了后续验证阶段需要构建的森林数量。因此,使用BiOPIC寻找最佳参数区间比传统的网格搜索方法效率更高。此外,森林是在参数区间上构建的,而不是在精确值上,从而在集成构建过程中引入了额外的多样性来源,从而有可能提高决策森林的泛化能力。
这项工作的主要贡献总结如下:
  • 将算法参数扰动作为另一种多样性来源引入决策森林,丰富了构建具有多样性的决策森林的方法。
  • 提出了一种基于二分法的最佳参数区间捕获(BiOPIC),这是一种高效的自动参数区间确定方法,可以快速确定构建最终决策森林的最佳参数区间。
  • 实验结果验证了BiOPIC-Forest在模式分类中的价值和有效性,其在植物疾病识别中的应用进一步展示了其实际潜力。代码和所用数据可在以下链接获取:https://github.com/bhxspring/BiOPIC-Forest
  • 在集成学习中,特别是在决策森林中,基础学习者的多样性和它们的能力之间的相互作用构成了一个基本的权衡。多样性确保了单个错误是不相关的,从而使集成能够减少总体方差并更有效地泛化;如果没有足够的多样性,集成只是放大了共同的偏差。然而,这种多样性不能以牺牲个体能力为代价。弱学习者(如极度随机化的树)可能会贡献高多样性,但也会引入高偏差,限制了集成的潜在准确性。相反,高度复杂和准确的基础学习者可能会变得相关,从而降低多样性并增加过拟合。构建强大集成的艺术在于策略性地平衡这种紧张关系:在保持足够个体能力的同时注入多样性。因此,在这项研究中,我们提出通过识别参数区间来将算法参数扰动应用于决策森林。在这个区间内的参数值变化会在决策树之间引入多样性,同时保持相应树的能力。

    章节片段

    基于网格搜索的参数确定

    网格搜索是一种广泛用于超参数调优的方法。网格搜索的原始目的是找到具有最佳超参数组合的最佳学习模型。网格搜索通过穷举评估每个候选超参数值配置下的学习模型性能来运行。
    尽管它很有用,但由于随着超参数数量的增加,网格搜索在计算上非常昂贵,因为它占用大量的时间和资源

    提出的方法

    当前的决策森林实现大多忽略了基础学习者参数变化所带来的潜在多样性。鉴于参数选择从根本上通过决定模型结构来影响分类器的性能,这种忽视尤其显著。虽然从广泛可能的值中选择最佳参数存在相当大的计算挑战,但我们观察到,多样化的参数配置可以产生结构上不同但相对

    实验和讨论

    为了验证提出的BiOPIC-Forest方法的效率和有效性,我们首先在第4.1节中检验了其与基于网格搜索的森林的准确性和时间。然后我们在第4.2节中将BiOPIC-Forest与其他无搜索森林进行了比较。最后在第4.3节中通过植物疾病识别任务展示了该方法的实际适用性。
    前两个小节的实验是在列出的八个分类数据集上进行的

    结论

    本研究引入了基于二分法的最佳参数区间捕获(BiOPIC)方法及其集成学习框架BiOPIC-Forest,用于高效和准确的模式分类。在基准数据集和实际植物疾病识别任务上进行的实验表明,该框架可以在最小的计算成本下显著提高分类性能,展示了其在实际应用中的潜力。

    CRediT作者贡献声明

    王全:撰写——原始草稿,验证,软件,资金获取,概念化。王飞:监督,方法论,资金获取。雷浩:方法论,概念化。陈博东:撰写——审稿与编辑。林志平:撰写——审稿与编辑,监督。聂飞平:撰写——审稿与编辑,监督。

    利益冲突声明

    作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
    王全报告获得了中国国家自然科学基金的支持。王全报告获得了中央高校基本科研业务费的支持。王全报告获得了陕西省重点研发计划的支持。

    致谢

    我们感谢匿名审稿人的建设性评论和建议,这帮助我们显著改进了手稿。这项工作得到了中国国家自然科学基金[资助编号62306231];中央高校基本科研业务费[资助编号xzy012023072];陕西省重点研发计划[资助编号2025NC-YBXM-224];以及中国 Scholarship Council [资助编号202406280136]的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号