编辑推荐:
动态增强分箱(DEB)框架通过软分箱、多项式展开和显式交互项构建高保真线性特征空间,结合轻量级贝叶斯优化引擎实现参数自动调优,在工业数据集上实时推理速度提升3倍,训练吞吐量提高8.8倍,结构复杂度降低32倍,同时保持与XGBoost相当的预测精度。
Jiang Wei|XiCheng Yang|YuXin Wang|LingYuLe Wang
中国江苏省常州市常州市工业技术学院计算机科学与信息工程学院,邮编213032
摘要
本文提出了动态增强分箱(DEB)这一结构化的白盒框架,旨在弥合梯度提升决策树(GBDTs)的准确性与线性模型的可解释性之间的差距。DEB通过结合软分箱、多项式展开和显式交互项来构建高保真的线性特征空间,并通过轻量级的贝叶斯引擎进行优化。大量实验表明,DEB在预测准确性方面可与XGBoost相媲美,同时具有显著的操作优势:在工业数据集上的实时推理速度提升了3倍,在大规模合成基准测试中的训练吞吐量提高了8.8倍,与集成基线相比结构复杂性降低了32倍。通过平衡非线性逼近与理论透明度和可扩展性,DEB为高风险、对延迟敏感的工业应用提供了一种稳健的解决方案。
引言
建模复杂的多维非线性关系已成为现代数据科学的基石。尽管传统的线性回归(LR)由于其严格的可解释性和计算效率而在工业应用中仍然占主导地位[1]、[2],但它从根本上缺乏捕捉现实世界数据集中普遍存在的非线性动态、周期性和局部异质性的能力[3]、[4]、[5]、[6]。因此,线性假设往往成为预测性能的主要瓶颈。
为了解决这一难题,学术界开发了一系列方法[7]、[8]、[9]、[10]、[11],从手动数学函数拟合(例如三角函数展开)到复杂的机器学习范式(例如梯度提升决策树如XGBoost、LightGBM [12]、[13],以及深度架构如TabNet [14])。最近的研究还探索了这些方法在医疗监测[15]和网络安全[16]等领域的应用。虽然这些方法为非线性建模提供了理论基础,但它们通常迫使从业者在可解释性和准确性之间做出选择。
尽管取得了显著进展,现有解决方案仍存在固有的权衡,限制了它们的通用性。我们在表1中总结了这些限制。
如上所述,现有方法在优化模型复杂性和操作成本之间的权衡方面存在困难。手动拟合方法需要专家的直觉来定义特定函数,这带来了较高的技术门槛[25]。黑盒集成模型倾向于最大化复杂性以逼近数据流形,但这以决策边界不透明和不同的计算成本为代价[26]、[27]。虽然传统的分箱方法试图找到折中方案,但它通常依赖于硬阈值,且无法提供系统化的梯度来优化结构参数,从而导致违反物理平滑性的人为不连续性[28]、[29]。
为了解决这些难题,我们从基函数回归和广义加性模型(GAMs)中获得了灵感。我们提出的方法将分箱作为一种离散化策略,但通过核平滑的视角重新构思了它。
从理论上讲,我们的方法与自然样条和GAMs的原则一致,后者将复杂函数分解为局部基函数展开。然而,标准的样条方法通常需要手动选择节点或复杂的迭代拟合算法。我们提出了一种协同重构方法:我们不仅简单地平滑边界,还将软分箱(概率单位划分)与全局多项式和特征交互相结合。这构建了一个统一的非线性模式感知前端,能够自动学习宏观趋势和微观波动,成为基于树的分割的凸且可微的替代方案。
在本文中,我们提出了动态增强分箱(DEB)框架,这是一种自适应的线性建模范式,旨在弥合可解释的白盒模型和高性能黑盒集成之间的差距。我们的主要贡献包括:
1.协同特征重构架构:与之前仅使用软分箱或多项式的做法不同,DEB构建了一个融合了先进软分箱、多项式展开和交互项的统一特征空间。该架构系统地解决了传统分箱的边界不连续性和信息丢失问题,使线性模型能够高保真地捕捉复杂的周期性和非线性模式。
2.自动化贝叶斯优化引擎:我们发现特征工程超参数(分箱数量、多项式阶数)构成了一个低维但高敏感度的搜索空间。利用这一洞察,我们集成了一个轻量级的贝叶斯优化(BO)引擎。这用智能的、高效样本的搜索替代了手动试错方法,以最小的迭代开销收敛到最优架构,有效消除了手动调优的瓶颈。
3.操作效率和通用灵活性:DEB并不单纯追求超越当前最佳技术的准确性,而是关注效率的帕累托前沿。它在预测准确性上可与XGBoost相媲美,但提供了更快的推理速度和更高的训练吞吐量(快近一个数量级)。此外,DEB表现出出色的灵活性:它可以平滑地逼近任意模式——无论是严格的线性、复杂的曲率还是高频周期性——而无需切换模型,使其成为适用于多种工业场景的多功能通用线性学习器。
本文的其余部分组织如下:第2节详细介绍了DEB框架的数学公式。第3节进行了全面的实验,验证了该机制,评估了性能,并分析了可解释性。最后,第4节总结了这项工作。
部分摘录
框架概述
我们将DEB框架正式定义为一个基于广义基函数展开的可扩展、可解释的建模系统。DEB的主要目标是弥合广义线性模型(GLMs)的透明性与非参数集成的高表达能力之间的根本差距。如图1所示,该框架通过一个集成三个核心模块的完整流程来运作。
该过程从特征构建模块开始,该模块明确地展开低维输入
实验设置
我们的评估协议采用了一种渐进式结构,旨在验证DEB框架的能力,从理论验证逐步过渡到工业应用适用性。为了确保严格的评估,我们使用了决定系数(R2)和均方误差(MSE)等标准指标[42]:,并利用交叉验证来最小化偏差[43]。
分析首先进行内部机制验证。我们使用受控的合成环境来隔离特定因素
结论
本研究解决了表格建模中的一个根本性对立:线性模型的透明性与集成方法的预测能力之间的权衡。我们提出了DEB,这是一种结构化的白盒范式,通过结合软分箱、多项式展开和显式交互来构建高保真的线性特征空间,从而弥合了这一差距。
我们的严格实验基准验证表明,DEB成功占据了帕累托前沿
CRediT作者贡献声明
Jiang Wei:撰写 – 审稿与编辑、资源获取、概念构思。XiCheng Yang:撰写 – 原始草稿、方法论、调查、数据整理、概念构思。YuXin Wang:撰写 – 原始草稿、可视化、监督、调查。LingYuLe Wang:调查、监督。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本研究得到了中国国家自然科学基金(项目编号62371075)的支持。
Wei Jiang在中国天津大学获得了软件工程博士学位。他目前是中国常州市工业技术学院计算机信息工程学院的副教授。他的研究兴趣包括图像处理、计算机视觉和机器学习。