编辑推荐:
本综述探讨了Softmax函数在图像分类中的模型校准问题,提出了一种结合RMSNorm的概率感知参数化Softmax方法,并通过引入输出中心偏差(Output Centroid Deviation, OCD)这一不变性概念,分析了Softmax损失的特性。该方法旨在改善深度学习模型在置信度估计中的过度自信问题,为高风险应用(如自动驾驶、医学诊断)中的可靠性决策提供了新的优化策略。
突出要点
- •
- 1.
该文研究了监督学习中的Softmax损失,重点发现了输出中心偏差(Output Centroid Deviation, OCD)。研究表明,当使用Softmax交叉熵作为目标函数时,OCD是一种不变性属性。
- •
- 2.
在技术上,该文引入了参数化的RMSNorm Softmax,以改变Softmax的动态特性,并在分类器优化中实证展示了更好的性能。
- •
- 3.
在模型校准方面,该文提出了一种新颖的校准算法,该算法通过优化参数化结构,在具有决策不变性的每一批数据中最小化平方校准误差。
输出中心偏差(Output Centroid Deviation, OCD)
Softmax交叉熵是深度学习中广泛使用的损失函数,旨在最大化正确类别的概率。其标准形式为 lce= -log pc,其中 pc= ezc/ ∑j=1mezj。我们在Softmax映射中引入了两个超参数,表达为 lce= -log (ezc/τ/ (∑j≠cezj/τ+ ezc/τ - φ)),其中φ是一个软间隔。原始Softmax pc= ezc/ ∑j=1mezj中 τ = 1 且 φ = 0,它将模型输出 zj映射为概率输出 pj。参数化的Softmax交叉熵可近似为...
参数化RMSNorm Softmax
在本节中,我们提出了参数化RMSNorm Softmax,并分析了其部分特性的变化。提出的参数化RMSNorm Softmax描述如下:lrce= -log (erc/ ∑j=1merj),其中 rj= zj/ (γ√(∑j=1mzj2) + β),γ 和 β 是超参数。β 在缓解因输出幅值过小而导致的训练不稳定中起着至关重要的作用。逻辑上,(3)式中真实类别输出与其他类别输出之间的绝对差异最大化被替换为相对差异最大化...
参数化Softmax校准
卷积神经网络(Convolutional Neural Networks, CNNs)的概率输出在其概率预测中常常表现出过度自信,即 P(? = y|^p = p) < p。我们的假设认为,这种现象源于优化过程中(尤其是在高容量深度模型中)使用了Softmax损失,导致输出幅度被放大。原始Softmax的不饱和区域仅在类别输出之间差异相对较小时存在。因此,很大一部分...
实验
本节分三部分进行实证分析:展示Softmax交叉熵下的OCD不变性,验证提出的参数化Softmax校准方法,并评估参数化RMSNorm在监督学习中的表现。
数据集和模型描述 我们使用了四个图像数据集:CIFAR-10/100、SVHN和Tiny-ImageNet。CIFAR-10/100有40,000张训练图像,测试和验证集各10,000张;Tiny-ImageNet有100,000张训练图像,测试和验证集各10,000张;...
结论
这项工作通过提出输出中心偏差(Output Centroid Deviation, OCD)的概念,研究了Softmax在构建输出到概率映射方面的特性。此外,在分类器优化中,提出了一种作为损失函数中输出到概率映射的参数化变体Softmax。另外,为了模型校准,提出了一种在Softmax中构建决策不变函数的参数化Softmax校准方法。本研究的主要结论总结如下:(1) 在...