编辑推荐:
针对深度强化学习(DRL)在高维状态-动作空间中的探索效率问题,提出一种基于概念嵌入的层次化DRL框架,通过解耦识别与决策模块、引入先验知识约束,降低探索空间复杂度,并验证了其相较于传统HDRL方法更稳定的训练效果。
戴英龙|易志毅|赵强富|陈明|王国军
湖南师范大学信息科学与工程学院,长沙,410081,中国
摘要
当组合状态-动作空间变得过大时,深度强化学习(DRL)面临挑战。分层DRL(HDRL)提供了一种潜在的解决方法;然而,设计一个高效的分层结构仍然具有挑战性。为了解决这个问题,我们提出了一个具有概念嵌入的通用HDRL框架,以限制探索空间。据我们所知,这是第一个明确通过分层策略结构中的概念嵌入来形式化识别-决策解耦的框架。它进一步阐明了抽象状态空间和目标空间之间的内在关系。这导致了一个透明的推理流程。它使得结构化推理和先验知识的整合成为可能。与不受限制的试错策略相比,高级抽象概念预计将指导策略学习过程并提高探索效率。我们定义并分析了在该框架下探索空间的复杂性,并通过实验验证了其有效性。
引言
深度强化学习(DRL)利用深度学习技术高效地识别高维环境数据并近似复杂的决策函数(Wang等人,2024年)。自从Mnih等人(2015年)提出Deep Q-Network(DQN)并在Atari游戏中实现了人类水平的性能以来,DRL已经发展到越来越复杂的任务,如Go(Silver等人,2017年)、机器人操控(Levine等人,2016年)和StarCraft(Vinyals等人,2019年)。随着状态-动作空间的扩大,DRL经常面临与探索效率和训练稳定性相关的挑战。分层RL(HRL)通过在不同时间抽象层次上结构化代理的决策过程,提供了一种合理的解决可扩展性挑战的方法(Eppe等人,2022年)。这种方法将复杂任务分解为更简单的子任务,使代理能够有效地解决具有挑战性的问题(Pateria等人,2021年)。特别是,HRL通过将隐藏层结构化为不同的抽象层次,为DRL的发展带来了巨大潜力。这种方法提供了多种好处,包括在高抽象层次上探索宏观策略、用更少的尝试进行高效学习,以及获得可应用于不同任务的可转移的微观技能(Eysenbach等人,2019年)。
Sutton等人(1999年)提出的选项公式化框架中,将选项视为包含一系列动作的子策略,是一个突出的HRL框架。在选项公式化框架中,上层策略(称为policy-over-options)在完成前一个选项后从预定义的选项集中选择一个选项。通常,选项可以被视为标准RL框架中的动作。然而,由于选项的持续时间不同,Sutton等人将问题扩展到了半马尔可夫决策过程(semi-MDPs)。Bacon等人(2017年)进一步扩展了策略梯度定理,以纳入选项公式化,并引入了Option-Critic架构。该架构利用深度学习技术端到端地学习选项和policy-over-options,而不依赖于子目标的先验知识或额外奖励。然而,端到端学习架构可能会遇到退化情况,例如一个选项解决了整个任务,或者一个选项被简化为单个动作。此外,自动生成不受限制的目标可能会导致目标表示空间不稳定,因为目标的表示会随着下层策略的动作空间的变化而频繁变化。因此,追求完全自主的学习可能不是最终的解决方案。在许多复杂任务中(Kulkarni等人,2016年;Tessler等人,2017年),结合先验知识对于增强代理的学习过程非常有益。
虽然选项框架通过定义可重用的动作原语来关注时间抽象,但它对如何表示或实现抽象目标提供的指导有限。Feudal RL(FRL)由Dayan和Hinton(1992年)引入,是另一个直观且突出的分层框架,强调分层目标分解。他们受到封建领地分层方面的启发,其中上层决策者将特定任务委托给下层决策者。这种方法遵循自上而下的目标解耦,使下层决策者能够专注于其直接上级提供的奖励。FRL的两个关键原则包括奖励隐藏和信息隐藏。受到FRL框架的启发,Vezhnevets等人(2017年)引入了FeUdal Networks(FuN),它包括一个完全可微分的神经网络。该架构包括一个称为Manager的上层模块,负责在较低的时间分辨率下设置抽象目标,以及一个称为Worker的下层模块,该模块遵循这些目标并执行原始动作。Worker同时受到环境奖励和内在奖励的指导。他们展示了方向性目标对于实现最佳模型性能的关键重要性。学习目标嵌入是一项具有挑战性的任务。
此外,针对不同应用的RL中的分层框架,如导航(Feng等人,2025年;Zhu和Hayashibe,2023年)、机器人操控(Yang等人,2022年)、社区能源交易(Yan等人,2022年)、细胞迁移检测(Wang等人,2022年)和临床辅助(Yun等人,2022年),可以使用各种替代方法进行开发。这些领域通常呈现出不同的挑战。例如,自主导航需要在高维观察和稀疏奖励下进行高效探索,机器人技术需要可解释的分层规划以实现安全和灵活的控制,而医疗决策则受益于模块化推理和先验专家知识的整合。已经探索了分层方法来提高DRL的可扩展性。然而,获得对分层DRL(HDRL)的统一理解仍然是一个挑战。该领域仍然缺乏一个具有DL视角的清晰HDRL框架。所提出的分层算法的实际应用极其有限且效率低下。
在这里,我们引入了一个清晰的HDRL框架,为多个层次的状态空间抽象和动作空间抽象提供了通用的视角。在我们提出的方法中,识别和决策功能与DRL策略解耦,并作为两个功能模块实现。识别模块处理高维观察数据以推断环境的潜在状态,并通过在不同层次上聚类相似特征来发展分层抽象。决策模块通过基于这些潜在状态规划动作并将在相应抽象层次上将总体目标分解为子目标来形成分层决策框架。此外,我们结合了概念嵌入来引入先验约束。嵌入先验知识的主要优势是它减少了HDRL探索空间的复杂性。此外,它可以提高深度模型的样本效率和泛化能力,减轻与过度灵活性相关的问题。
所提出的框架旨在提高HDRL的可解释性和效率。本研究的主要贡献总结如下:
1.我们提出了一个HDRL框架,明确地将识别和决策功能与代理的策略解耦,并通过概念嵌入来约束状态和目标空间。
2.我们引入了量化探索空间复杂性的正式定义和原则,提供了一个理论框架来分析和比较不同的HDRL结构。
3.通过结合概念嵌入技术,该框架使得将领域先验知识注入学习过程成为可能,从而提高训练效率并提高可解释性。这在以前的HDRL研究中较少被探索,实现了灵活性与结构化抽象的平衡。
4.分析和实验验证了所提出的框架。结果表明,与传统缺乏先验知识约束的HDRL算法相比,所提出的方法实现了更稳定和高效的学习。
本研究的其余部分组织如下。第2节简要回顾了相关的分层方法。第3节描述了HDRL框架并分析了探索复杂性。第4节展示了一些实验结果,验证了分层架构的优势。第5节讨论了分层方法。第6节总结了研究。
章节片段
相关工作
在DRL时代之前,大多数传统的HRL工作都集中在决策的时间抽象上。从DRL的角度来看,分层架构包括两个主要的信息处理组件:用于抽象状态信息的识别和用于规划和行动的决策。
生成抽象状态空间以降低计算成本的想法可以追溯到Boutilier和Dearden(1994年)的研究。同时,Singh等人
初步介绍
与依赖于MDP公式化的传统RL不同,HRL将问题领域扩展到了半MDPs,以适应持续时间可变的动作。DRL通过处理高维输入和促进分层策略的端到端训练,对HRL做出了显著贡献。
实验设置
我们选择了MiniGrid-DoorKey(Chevalier-Boisvert等人,2023年)环境作为一个易于理解的例子来说明所提出框架的实现。随机生成的环境大小分别为8×8和16×16,如图2所示。在网格世界中,代理的任务是导航到一个钥匙,拾起它,用它来解锁一扇门,最后到达一个目标柱以获得正面奖励。这个环境是部分可观察的
讨论
我们认为分层方法可以有效降低DRL探索的复杂性。不幸的是,现有的HDRL算法在实验中产生了不令人满意的结果。分层方法提出了重要的未解决的问题,例如HDRL算法是否能够有效地学习有用的分层抽象。在这项研究中,我们使用先验知识来约束分层架构的抽象并取得了良好的性能。
结论
DRL方法在探索高维复杂环境中的策略方面具有巨大潜力。然而,由于组合状态-动作空间(也称为探索空间)过大,现有的DRL方法遇到了重大挑战。我们观察到,当探索空间超出一定范围时,这些方法无法发现有效的策略。为了缓解这个问题并减少探索空间,我们提出了一种新的分层DRL
CRediT作者贡献声明
戴英龙:撰写——原始草稿,软件,方法论,资金获取,概念化。易志毅:撰写——审阅与编辑,软件,方法论。赵强富:撰写——审阅与编辑,验证,监督。陈明:撰写——审阅与编辑,资金获取。王国军:撰写——审阅与编辑,监督。
利益冲突声明
戴英龙报告得到了中国国家自然科学基金的支持。王国军报告得到了中国国家自然科学基金的支持。戴英龙报告得到了湖南省重点研发计划的支持。戴英龙报告得到了中国博士后科学基金的支持。戴英龙报告得到了中国国家留学基金委的支持。陈明
致谢
这项工作部分得到了中国国家自然科学基金(资助编号62306110和62372121)、湖南省重点研发计划(资助编号2024AQ2020)、中国博士后科学基金(资助编号2021M693976)、中国国家留学基金委(资助编号202306720022)以及湖南省自然科学基金(资助编号2023JJ30411)的支持。