通过确定性扰动梯度搜索优化连续过松弛Q学习算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Artificial Intelligence》：Optimizing Successive Over-Relaxation Q-Learning With Deterministic Perturbation Gradient Search

【字体：大中小】 时间：2026年02月28日 来源：IEEE Transactions on Artificial Intelligence CS6.4

编辑推荐：

　　逐次超松弛Q学习（SOR-QL）作为Q-learning的改进算法虽有效，但存在依赖状态转移概率和强制自转移等局限。本文提出直接优化松弛参数的新算法，无需状态转移概率且保证渐近收敛，实验表明其平均误差比次优算法低2-6倍，标准差低3-10倍，计算效率更高。

影响声明：

Q学习（QL）是一种广泛使用的强化学习（RL）算法，已被应用于多个领域，例如自主导航。在这项工作中，我们考虑了一个v...显示更多

摘要：

最近提出了一种称为“连续过度松弛Q学习”（SOR-QL）的算法，作为广泛流行的Q学习算法的替代方案，因为它在适用的情况下能够提供更好的性能。然而，SOR-QL存在一些局限性，使其在现实世界应用中效果不佳。具体来说，SOR-QL需要知道状态转移概率，并且要求每个状态的自转移概率必须为正。此外，SOR-QL中使用的参数始终低于一个未知的最优阈值。为了克服这些局限性，我们提出了一种优化版的SOR-QL，该算法可以直接优化其相关的松弛参数。我们的算法完全不使用状态转移概率，而是直接优化松弛参数。同时，我们也不对状态转移概率施加任何特殊结构。我们提出的算法是一种纯数据驱动的、双时间尺度的随机逼近方案：在较慢的时间尺度上更新SOR-QL中的松弛参数，在较快的时间尺度上执行SOR-QL的更新。我们证明了该算法的渐近收敛性。实验结果表明，与现有的各种最先进算法相比，我们的算法在大多数情况下具有更快的计算时间，并且在性能（表现为误差）方面具有最低的成本。在不同强化学习（RL）环境中，我们的算法在平均误差和标准误差指标上的表现分别优于次优算法2到6倍和3到10倍。

引言

强化学习（RL）主要处理在不确定性条件下进行动态决策的问题，尤其是在没有系统模型时[1]、[2]。这类问题多年来一直在马尔可夫决策过程（MDP）[3]的框架下进行研究，但需要知道状态转移概率（也称为系统模型）。RL算法主要是随机逼近算法[4]，旨在在没有系统模型的情况下，通过利用来自真实数据源或模拟设备的数据来找到MDP的解决方案。RL算法大致可以分为两类：一类模仿值迭代（如Q学习），另一类模仿策略迭代（如演员-评论家算法）。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号