热启动与冷启动策略在超参数调优中的泛化性能对比:理论分析与改进方法

《Neural Networks》:Warm-Start or Cold-Start? A Comparison of Generalizability in Gradient-based Hyperparameter Tuning

【字体: 时间:2026年01月31日 来源:Neural Networks 6.3

编辑推荐:

  本文系统比较了双层优化(BO)中热启动(warm-start)与冷启动(cold-start)策略的泛化性能。研究发现,尽管热启动具有更快的收敛速度,但其在验证集上表现出更严重的过拟合现象。通过建立泛化误差上界理论,揭示了热启动因内层动态误差累积导致泛化能力下降的机制。作者进一步提出学习率调度和随机扰动初始化(RPI)等方法,有效缩小了两者的泛化差距。该研究为梯度式超参数调优(HPT)策略选择提供了重要理论依据和实践指导。

  
章节亮点
本文通过理论分析和实验验证,深入探讨了热启动与冷启动策略在泛化性能上的差异。研究首次从泛化角度系统比较了两种策略,发现热启动虽然收敛更快,但泛化能力较差。通过建立泛化误差上界理论,揭示了热启动策略因内层迭代动态误差累积而导致泛化性能下降的内在机制。
理论分析
在本节中,我们旨在从泛化角度分析和比较双层优化中的冷启动与热启动策略。在介绍结果前,我们先给出一些在当前研究中被广泛采用的符号和假设。我们用‖·‖表示l2-范数,并以公式(1)的形式给出外层和内层目标函数的两组假设。令w=(x,y)表示所有参数。
假设1
函数f和g满足以下性质:f是Lf-光滑的,g是Lg-光滑且μ-强凸的。此外,混合偏导数?xy2g和?yx2g存在且满足 Lipschitz 连续条件。
改善热启动策略的几种方法
受理论发现的启发,我们提出两种方法来提高热启动策略的泛化性能,缩小其与冷启动策略之间的差距。
通过比较公式(6)和(7),我们发现影响泛化误差的主要因素是内层迭代动态相关的部分,特别是T的指数基。该组分的影响随着外层迭代次数呈指数级增长。受此启发,我们提出以下改进方法:首先,采用学习率调度策略,动态调整内层优化过程的学习率;其次,我们创新性地提出随机扰动初始化(RPI)方法,通过在每次迭代时对初始点添加随机扰动,打破内层优化的误差累积链,从而显著提升热启动的泛化性能。
实验
我们通过以下两个方面的实验来验证我们的理论发现:
  1. 1.
    冷启动与热启动策略的泛化性能比较,旨在验证定理2和3中建立的泛化误差界的合理性。
  2. 2.
    应用第5节提出的两种方法后的泛化性能变化,通过调整内层学习动态来证明所提方法的有效性。
结论
本文深入研究了超参数调优中基于迭代微分的双层优化两种常用策略(热启动与冷启动)的泛化性能比较。先前研究认为热启动策略具有更快的收敛速度,而我们发现其在验证集上表现出更差的泛化性能,即更明显的过拟合现象。为解释这一现象,我们建立了泛化误差上界理论,揭示热启动因内层动态误差累积而导致泛化能力下降的机制。实验结果表明,通过调整内层学习动态(如学习率调度和RPI方法),可有效改善热启动的泛化性能。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号