利用稳健的非参数检验方法，通过随机优化来衡量训练过程中的变异性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Journal of Selected Topics in Signal Processing》：Measuring Training Variability From Stochastic Optimization Using Robust Nonparametric Testing

【字体：大中小】 时间：2026年01月04日 来源：IEEE Journal of Selected Topics in Signal Processing 13.7

编辑推荐：

　　深度神经网络因随机优化易产生模型差异，传统指标如测试准确率难以捕捉此差异。本文提出α-trimming水平和假设检验框架，用于量化模型相似性并确定采样数量，实验验证其优于现有指标。

摘要：

深度神经网络的训练通常涉及随机优化，这意味着每次训练都会产生不同的模型。这意味着训练过程中的超参数（例如随机种子）可能会对训练模型的变异性产生显著影响。通过摘要统计量（如测试准确率）来衡量模型质量可能会掩盖这种依赖性。我们提出了一种稳健的假设检验框架和一个新颖的摘要统计量——α——来衡量模型之间的相似性。直接使用α进行假设检验是具有挑战性的，因为我们无法准确描述零假设下的分布。我们的框架通过确定近似分布与一组单独训练模型的预期分布的相似程度来解决这个问题，并将这种近似作为参考。然后，我们使用α来建议应该采样多少次训练，以确保集成模型能够可靠地代表真实模型的性能。我们还展示了如何使用α来衡量模型的变异性，并通过实验表明，与单独使用的性能指标（如验证准确率、 churn或预期校准误差）相比，它更具表达力。在迁移学习中对随机种子进行微调的应用说明了我们新指标的优势。

引言

深度学习模型在医疗保健、教育、网络安全和其他关键领域取得了先进的性能。训练这些模型需要大量的时间、精力以及财务资源。训练算法对于非凸目标使用随机优化，这意味着不同训练过程中产生的模型通常会收敛到不同的解决方案。显然，这些训练出的模型对应于不同的功能，但这仅仅是一种表面上的区别吗？即使目标值和验证/测试准确率相似，模型之间仍可能存在显著差异。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号