通过确定性扰动梯度搜索优化连续过松弛Q学习算法
《IEEE Transactions on Artificial Intelligence》:Optimizing Successive Over-Relaxation Q-Learning With Deterministic Perturbation Gradient Search
【字体:
大
中
小
】
时间:2026年02月28日
来源:IEEE Transactions on Artificial Intelligence CS6.4
编辑推荐:
逐次超松弛Q学习(SOR-QL)作为Q-learning的改进算法虽有效,但存在依赖状态转移概率和强制自转移等局限。本文提出直接优化松弛参数的新算法,无需状态转移概率且保证渐近收敛,实验表明其平均误差比次优算法低2-6倍,标准差低3-10倍,计算效率更高。
影响声明:
Q学习(QL)是一种广泛使用的强化学习(RL)算法,已被应用于多个领域,例如自主导航。在这项工作中,我们考虑了一个v...显示更多摘要:
最近提出了一种称为“连续过度松弛Q学习”(SOR-QL)的算法,作为广泛流行的Q学习算法的替代方案,因为它在适用的情况下能够提供更好的性能。然而,SOR-QL存在一些局限性,使其在现实世界应用中效果不佳。具体来说,SOR-QL需要知道状态转移概率,并且要求每个状态的自转移概率必须为正。此外,SOR-QL中使用的参数始终低于一个未知的最优阈值。为了克服这些局限性,我们提出了一种优化版的SOR-QL,该算法可以直接优化其相关的松弛参数。我们的算法完全不使用状态转移概率,而是直接优化松弛参数。同时,我们也不对状态转移概率施加任何特殊结构。我们提出的算法是一种纯数据驱动的、双时间尺度的随机逼近方案:在较慢的时间尺度上更新SOR-QL中的松弛参数,在较快的时间尺度上执行SOR-QL的更新。我们证明了该算法的渐近收敛性。实验结果表明,与现有的各种最先进算法相比,我们的算法在大多数情况下具有更快的计算时间,并且在性能(表现为误差)方面具有最低的成本。在不同强化学习(RL)环境中,我们的算法在平均误差和标准误差指标上的表现分别优于次优算法2到6倍和3到10倍。
引言
强化学习(RL)主要处理在不确定性条件下进行动态决策的问题,尤其是在没有系统模型时[1]、[2]。这类问题多年来一直在马尔可夫决策过程(MDP)[3]的框架下进行研究,但需要知道状态转移概率(也称为系统模型)。RL算法主要是随机逼近算法[4],旨在在没有系统模型的情况下,通过利用来自真实数据源或模拟设备的数据来找到MDP的解决方案。RL算法大致可以分为两类:一类模仿值迭代(如Q学习),另一类模仿策略迭代(如演员-评论家算法)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号