方差最优臂选择:资源配置最小化与最优臂识别
《IEEE Transactions on Signal Processing》:Variance-Optimal Arm Selection: Misallocation Minimization and Best Arm Identification
【字体:
大
中
小
】
时间:2026年02月24日
来源:IEEE Transactions on Signal Processing 5.8
编辑推荐:
本文提出UCB-VV和SHVV算法处理高方差臂选择问题,分别优化误分配最小化和固定预算最佳臂识别。通过推导上界和下界证明UCB-VV的理论最优性,SHVV的误差概率达到下界水平。创新性地将集中不等式扩展到次高斯分布,并验证在股票期权交易中的实证优势。
摘要:
本文旨在从一组个独立的手臂中选择方差最大的手臂。具体来说,我们关注两种情况:(i) 最小化资源错配情况,这种情况会根据方差对抽取次数不足的最佳手臂的数量进行惩罚;(ii) 固定预算下的最佳手臂识别情况,这种情况评估算法在固定抽取次数后确定方差最大手臂的能力。我们开发了一种名为UCB–VV的新在线算法用于资源错配最小化(MM),并证明了其资源错配的上界随着时间推移呈的速率增长,其中表示时间范围。通过推导资源错配的下界,我们证明了UCB–VV具有最优性。对于固定预算下的最佳手臂识别(BAI)情况,我们提出了SHVV算法。我们证明了SHVV的错误概率上界随着时间推移呈的速率增长,其中表示问题的复杂度,这一速率与相应的下界相匹配。我们利用样本方差和标准差的新浓度不等式,将该框架从有界分布扩展到次高斯分布。基于此,我们推导出了次高斯分布下实证夏普比率(SR)的浓度不等式,这在文献中是前所未有的。实证模拟表明,UCB–VV在不同次优性差距下始终优于