基于滞后特征工程与装袋树集成的周度销售额预测

《Machine Learning with Applications》:Forecasting Weekly Sales Using Lag-Based Feature Engineering and a Bagged Tree Ensemble

【字体: 时间:2026年05月20日 来源:Machine Learning with Applications 4.9

编辑推荐:

  准确零售销售预测对库存管理、人员配置及促销规划至关重要,但周度需求因强季节性、不规则促销活动及门店特异性行为而难以预测。研究人员针对沃尔玛门店-部门周度销售数据,提出了一种防泄漏预测框架,结合广泛的滞后特征工程与由装袋随机森林(Random Forest, R

  
准确零售销售预测对库存管理、人员配置及促销规划至关重要,但周度需求因强季节性、不规则促销活动及门店特异性行为而难以预测。研究人员针对沃尔玛门店-部门周度销售数据,提出了一种防泄漏预测框架,结合广泛的滞后特征工程与由装袋随机森林(Random Forest, RF)和轻量梯度提升机(LightGBM)组成的堆叠集成模型。为防止数据泄漏,采用65-15-20的严格时间划分策略,特征工程涵盖滞后销售额、滚动统计量、促销指标及宏观经济变量。研究评估了六种基线模型,包括线性回归、多层感知机(Multilayer Perceptron, MLP)、长短期记忆网络(Long Short-Term Memory, LSTM)、随机森林、极端梯度提升(eXtreme Gradient Boosting, XGBoost)及LightGBM。最终集成模型通过多种子装袋与岭回归(Ridge Regression)元学习训练,在保留测试集上取得R2=0.9809,优于所有单一模型及简化堆叠变体。结果表明,将方差缩减树集成与轻量元学习器结合,可为促销期零售需求预测提供稳定且精确的方法。
研究背景方面,零售销售预测是运营管理领域的核心问题,直接影响库存控制、人员配置与促销决策。与工业时间序列不同,零售需求受强季节性、异质性消费者行为及促销活动引发的需求突变影响,常导致传统统计模型的平滑性与稳定性假设失效。现有研究虽广泛采用机器学习方法,但在促销期的预测稳定性、数据泄漏防护及模型方差控制方面仍存在不足。大型零售商如沃尔玛的门店-部门周度销售表现出促销期尖峰、地域差异及节假日效应,传统线性与参数模型性能显著下降。因此,研究人员旨在构建一种兼顾高精度、鲁棒性与防泄漏特性的预测框架,以解决促销期需求波动带来的挑战。
关键技术方法方面,研究人员采用沃尔玛2010年2月5日至2012年10月26日的门店-部门周度销售数据集,包含宏观经济指标、燃油价格、节假日标记及促销降价变量。特征工程包括滞后销售额(1、2、4、8、26、52周)、13周滚动均值与标准差、月份与年内周次等季节指标、促销降价变量及宏观经济特征。模型方面,评估了线性回归、MLP、LSTM、RF、XGBoost及LightGBM六种基线模型,并通过多种子装袋(三个随机种子)减少方差,最终采用RF与LightGBM作为基学习器,以岭回归为元学习器构建堆叠集成。验证采用严格时间划分(65%-15%-20%)与前进式验证,确保无数据泄漏。
研究结果方面,首先,单模型性能显示LSTM表现最优(R2≈0.9688),其次为RF(R2≈0.9538)、XGBoost(R2≈0.9523)与LightGBM(R2≈0.9518),均显著优于线性回归(R2≈0.9255)。其次,堆叠集成(RF+LightGBM+线性回归元学习器)提升至R2≈0.9549,RF+XGBoost组合为R2≈0.9542,前者稳定性更佳。最终,多种子装袋结合岭回归元学习器的集成模型取得R2=0.9809,RMSE=0.0278,MAE=0.0098,显著优于单模型与简单堆叠。前进式验证中,该模型在多个时间折叠中保持R2>0.98,验证了时间稳定性。SHAP(SHapley Additive exPlanations)分析表明,滞后52周与滞后1周销售额为最重要特征,滚动统计量次之,促销变量贡献较小,宏观经济变量影响有限。目标洗牌诊断测试显示,洗牌后模型R2降至-0.0011,证实性能源于真实预测结构而非数据泄漏。
讨论与结论部分,研究人员指出,零售需求预测具有强非线性,尤其在促销期。树基模型能有效捕捉非规则模式与特征交互,而序列模型如LSTM在建模时间依赖性方面表现优异。堆叠可校正单模型误差,但仅通过装袋进一步降低方差,才能显著提升促销周的预测稳定性。该框架结合了滞后特征工程、多种子装袋与岭回归元学习,在保证防泄漏的同时实现了高精度与鲁棒性。研究发表于《Machine Learning with Applications》,为促销期零售需求预测提供了可部署的解决方案。未来可探索非线性元学习器、概率预测及自适应重训练策略,以提升在有限历史数据场景下的适用性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号