综述：层次化评估函数：一种用于优化需求预测模型的多指标方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Hierarchical evaluation function: a multi-metric approach for optimizing demand forecasting models

【字体：大中小】 时间：2026年01月23日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　需求预测中多指标评估函数HEF的优化应用与实证研究，提出整合R2、MAE、RMSE的层级评估框架，通过网格搜索、粒子群优化和贝叶斯优化在Walmart、M3、M4、M5数据集验证，HEF在全局指标上优于单一MAE评估，尤其在异质时序和高度粒化场景中提升预测稳定性与泛化能力。

阿道夫·冈萨雷斯 | 维克托·帕拉达

智利圣地亚哥大学工程学院计算机工程与信息学系

摘要

在竞争激烈且充满不确定性的商业环境中，需求预测需要能够整合多种评估视角的模型，而不仅仅是通过单一指标进行超参数优化。这种传统方法往往优先考虑一个误差指标，当指标提供相互矛盾的信号时，可能会导致结果偏差。在这种情况下，提出了层次评估函数（HEF）作为一种多指标框架，用于超参数优化，它结合了解释能力（R²）、对极端误差的敏感性（RMSE）和平均准确性（MAE）。使用四个广泛认可的预测领域基准数据集（Walmart、M3、M4和M5数据集）评估了HEF的性能。预测模型通过网格搜索（Grid Search）、粒子群优化（PSO）和Optuna进行了优化，基于比例差异的统计分析证实，无论使用哪种优化器，HEF都能提供优于单一指标参考函数的结果，特别是在异构的月度时间序列（M3）和高度细粒度的日需求场景（M5）中。研究结果表明，HEF在较低的计算成本下提高了模型的稳定性、泛化能力和鲁棒性，巩固了其作为可靠评估框架的地位，有助于改进模型选择、提高需求预测的准确性，并支持在动态和竞争性商业环境中的决策制定。

引言

在竞争激烈且变化多端的商业环境中，库存管理是一个多维度的挑战，尤其是在需求不确定性高、预算受限和物理存储空间有限的情况下做出决策时。在这种情况下，预测多种产品的需求、优化资源配置以及考虑物流能力属于NP难问题（Cárdenas-Barrón等人，2021年；Zhang等人，2021年）。选择能够最大化盈利能力的库存单位需要考虑利润率、补货时间和采购成本，同时还要受到包装问题带来的空间限制。在这种情况下，准确的需求预测成为战略规划的关键组成部分，有助于资源优化、成本降低和预见市场变化。尽管历史上一直使用统计模型，但近年来机器学习技术的应用越来越多（Wahedi等人，2023年；Tang，2024年；Tan等人，2024年；Jahin等人，2025年；Mittal，2024年；Yang等人，2025年）。然而，需求受外部因素和突然结构变化影响的随机性仍然是一个重大挑战（Trull等人，2024年；Peláez等人，2024年）。

在高不确定性环境下，预测模型需要具备灵活性，以适应消费模式的突然变化，这就需要强大的建模框架和严格的评估机制来指导参数和超参数的优化。这些过程通常依赖于基于平均绝对误差（MAE）和均方根误差（RMSE）等指标的评估函数，这两种指标提供了互补的见解：MAE对异常值更具鲁棒性，而RMSE对极端误差的惩罚更为严厉（Chicco等人，2021年；Hyndman和Athanasopoulos，2021年；Koutsandreas等人，2022年）。然而，单独使用这些指标可能会导致片面或有偏的解释。正如Koutsandreas等人（2022年）指出的，目前没有共识认为哪种指标更优；因此，建议同时使用多个指标以获得更全面的评估。

在这方面，复合评估函数越来越受到关注，因为它们通过层次化或加权方案整合了多种指标，提供了更平衡的模型性能评估。在需求预测中，选择合适的评估函数至关重要，因为不恰当的选择可能会引入偏差并影响实际环境中的预测准确性（Mu?oz等人，2025年；Seiringer等人，2025年）。尽管预测算法和启发式或元启发式技术有所进步，但与可扩展性、计算效率和适应变化环境相关的挑战依然存在（Iqbal等人，2025年）。

鉴于这种情况，设计定制的评估函数似乎是一种有效的方法，可以以一致且灵活的方式结合多种指标。然而，缺乏明确的指导和实施标准限制了不同预测方法之间的客观比较（Amin等人，2023年；Vilar，2025年）。为了解决这一问题，本研究提出了层次评估函数（HEF），这是一种层次化和动态的函数，它结合了R²、MAE和RMSE指标，以高效地指导在高变环境中的预测模型优化。实证证据表明，与单变量评估相比，这种指标组合提高了模型的区分能力（Ferouali等人，2025年；Pakdel等人，2025年）。此外，还提出了将其与网格搜索、粒子群优化（PSO）和贝叶斯优化等优化技术结合使用的方法，旨在以灵活高效的方式选择最优的超参数配置（Mu?oz等人，2025年；Iqbal等人，2025年）。

在该框架下，研究证实评估函数的选择对需求预测模型的性能有决定性影响。结果显示，HEF在R2、全局相对准确性（GRA）、RMSE和RMSSE等全局指标上的表现始终优于使用MAE作为评估函数的情况，从而增强了其解释能力和对大误差的鲁棒性。相比之下，MAE作为评估函数在减少绝对误差（MAE和MASE）和计算效率方面具有优势，使其在短期或资源受限的情景中成为实用的选择。因此，不应将这两种函数视为互斥的选择，而应根据应用目标做出战略决策：HEF更适合业务规划和长期视角，而MAE在运营和短期设置中更为高效。总之，本研究证明HEF是一种强大且适应性强的方法，能够提高动态环境中需求预测模型的准确性和稳定性，从而克服了一维指标的局限性。

文章结构如下：在引言和文献综述之后，介绍了方法论基础，包括HEF的数学公式、所考虑的预测模型以及使用的优化器。随后描述了实验设计，并展示了与基准函数的比较结果。最后一部分讨论了研究结果并提出了结论，以及未来可能的研究方向。

文献综述

需求预测是包括工业生产、医院管理和能源规划在内的多个行业战略规划的核心要素。多项研究表明，预测需求的能力有助于资源优化、成本降低以及对市场动态变化的更快响应。在能源领域，已经使用季节性时间序列模型进行短期电力需求预测，这些模型提高了预测准确性。

材料与方法

预测模型中参数和超参数的优化通常被视为一个一维问题，依赖于基于MAE或RMSE等指标的函数。尽管这些指标提供了有用的信息，但它们不足以全面评估模型性能。

（Michelucci & Venturini，2023年）。同样，像R²这样的解释性指标在高误差分散的情景中往往会高估模型的拟合度（Bischl等人，2023年）。这些局限性凸显了……

结果

通过应用所描述的协议，获得了每种数据集组合、训练和测试配置、模型、评估函数及优化方法的结果。以下部分展示了HEF相对于传统方法的比较结果，证明了其在提高预测能力方面的持续优势。报告的值对应于Walmart、M3、M4和M5数据集中统计验证的案例总数。

讨论

结果清楚地表明了评估函数对需求预测模型性能的影响。将仅旨在最小化平均绝对误差的MAEF与旨在平衡解释能力、累积准确性和对极端误差惩罚的HEF进行比较，在所有训练配置（91:9、80:20和70:30）以及使用的三种优化器（网格搜索、PSO和Optuna）中都观察到了一致的模式。在每种情况下，MAEF……

主要发现

研究证实，评估函数的选择对需求预测模型的性能有决定性影响。在不同训练和测试划分（91:9、80:20和70:30）以及多种优化器下进行的MAEF与HEF比较显示，无论在何种实验设置中，都存在一致且统计上显著的模式。在性能方面，HEF在R2、GRA、RMSE等全局指标上始终优于MAEF。

CRediT作者贡献声明

阿道夫·冈萨雷斯：概念构思、研究设计、方法论、软件开发、监督、初稿撰写、审稿与编辑。维克托·帕拉达：撰写、审稿与编辑。

资金

本研究未获得任何外部资金支持。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究工作。

联系信箱：

粤ICP备09063491号

摘要

引言

文献综述

材料与方法

结果

讨论

主要发现

CRediT作者贡献声明

资金

利益冲突声明

热点排行