HAVEN：分层扩散与基于价值的轨迹选择方法在离线安全强化学习中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：HAVEN: Hierarchical diffusion and value-based trajectory selection for offline safe reinforcement learning

【字体：大中小】 时间：2026年03月18日 来源：Neurocomputing 6.5

编辑推荐：

　　Offline RL通过静态数据集学习决策策略，但安全约束的长期与局部控制矛盾限制了其应用。HAVEN通过分层扩散架构和VALS选择机制，分解长规划为子目标层和轨迹段层，结合价值导向筛选高安全性能候选轨迹，解决单模型无法平衡全局与局部安全的问题，显著提升安全与性能平衡。

王尔莉|刁贺|陈向林|张京奎|柴晓峰|齐强|张萍

中国电子科技大学，成都，611731，中国

引言

离线强化学习（RL）提供了一个有前景的框架，用于学习有效的决策策略，而无需与环境进行主动交互，而是依赖于从先前行为中收集的静态数据集[1]、[2]、[3]。它在多个领域展示了令人印象深刻的结果，包括自动驾驶[4]、[5]、[6]、[7]、机器人技术[8]、[9]、[10]、[11]、[12]、医疗保健[13]和对话系统[14]。尽管取得了这些进展，但由于存在重大的安全顾虑[15]、[16]，离线RL在安全关键环境中的部署仍然受到限制，尤其是在高风险环境中，违反操作约束可能会导致重大风险[17]、[18]、[19]。

离线安全RL的目标是学习满足安全约束的高奖励策略。在这种情况下，一个核心挑战是安全数据集不匹配（SDM）问题[20]：行为策略的分布通常与期望的最优安全策略不符，导致外推错误或泛化能力差。

早期的离线安全RL方法主要通过将约束直接纳入策略或价值函数优化来调整基于价值的方法。例如，CPQ[21]学习保守的Q值以惩罚超出分布范围的行动，而基于DICE的方法（如COptiDICE[22]）将问题重新定义为静态分布校正目标。然而，这些方法往往依赖于对潜在次优且不安全的行为策略的正则化。这种对给定数据分布的过度依赖可能会限制代理发现比原始数据集中表示的策略更安全或性能更好的策略的能力。

为了克服这一限制，一种较新的方法范式侧重于使用条件生成模型来重塑数据集本身。这种以数据为中心的方法旨在直接缓解安全数据集不匹配（SDM）问题。扩散模型特别适合这项任务，因为它们已经证明了学习复杂轨迹分布并根据特定目标（如期望的回报和成本水平）生成高保真样本的能力。在这一范式中的一个代表性工作是OASIS[20]，它使用条件扩散模型合成新的轨迹，填充状态空间中更安全、更有回报的区域，为后续的策略学习提供增强的数据集。

虽然条件分布建模范式非常强大，但在OASIS等方法中的实现揭示了两个关键限制，这些限制阻碍了可靠的安全性。首先，单一的扩散过程产生了根本性的矛盾：稀疏的成本信号需要较长的规划范围[23]、[24]来捕捉远处的安全关键事件，而可靠的约束满足则需要细粒度的局部控制。单一模型难以解决这种权衡，因为扩展规划范围通常会降低局部粒度，并导致模型忽略关键的短期安全细节。其次，这些模型未能充分利用扩散模型的一个关键优势：生成多样性。由于它们的随机性质，它们可以产生丰富的候选轨迹，但以往的工作通常只采样单一路径，错过了从多样化集合中选择最佳解决方案的机会。

为了解决这种复杂性，结构化推理在各种AI领域被证明是有效的——从异构图推理用于事实验证[25]到序列决策制定。一种解决远程控制和局部控制之间紧张关系的有前途的架构方法是利用分层规划[26]、[27]。然而，将其应用于离线安全RL并不简单，因为简单的分解并不能保证约束合规性。这表明必须通过某种机制来增强层次结构，以明确引导生成过程朝向安全性。基于价值的选择策略非常适合这一角色，因为它可以利用扩散模型的潜在生成多样性——以往工作的第二个关键限制——来主动筛选出既高性能又安全的轨迹。此外，在层次结构中集成选择功能特别强大，因为它允许在每个层次上应用专门的标准：例如，在高级计划中优先考虑全局目标，同时在低级细化中严格执行局部约束。

为此，我们引入了分层扩散和基于价值的轨迹选择（HAVEN）框架，这是第一个将分层扩散架构与多级基于价值的选择机制VALue-based 选择（VALS）相结合的框架，专门用于解决离线安全RL的独特需求。图1展示了一个示例。在操作上，HAVEN采用两阶段过程：高级扩散模型首先生成多样化的、长范围的子目标计划，然后VALS从中选择最有前途的候选者。所选计划随后指导低级模型合成细粒度的轨迹片段，VALS再次执行选择以确保遵守局部安全约束。与连续的潜在规划不同，后者在抽象表示中操作，其中约束是不透明的，HAVEN采用显式的状态空间层次结构，使得在子目标级别可以直接进行安全验证。这种设计独特地促进了解耦的局部细化，允许代理在片段内纠正特定的约束违规，而不会破坏全局轨迹结构。HAVEN的新颖之处不仅在于应用层次结构，还在于其组件的协同设计。层次结构分解了规划问题，而集成的VALS模块提供了确保长范围子目标和局部轨迹片段在安全性和性能方面都得到优化的关键指导。这种整体设计使得能够合成更优质的数据集，从而促进学习出既安全又高效的策略。

我们的贡献可以总结如下：

•

我们引入了HAVEN，这是一个具有分层扩散架构的新型离线安全RL框架。这一核心设计通过显著提高局部规划精度和可靠地执行安全约束，克服了单一轨迹生成的关键限制。

•

我们提出了VALS，这是一个基于价值的模块，它利用扩散模型的生成多样性来主动筛选候选轨迹。这一选择过程显著提高了用于策略学习的增强数据集的质量和安全性。

•

广泛的实验表明，HAVEN的表现优于基线方法。HAVEN在所有评估的任务中都独特地满足了安全约束，同时实现了显著的奖励，为平衡性能和安全性树立了新的标准。

部分摘录

离线RL

离线RL旨在从固定数据集中学习策略，而无需进一步与环境交互。在这种情况下，一个核心难点是外推错误，当评估的数据集支持范围之外的行动时就会发生这种错误。早期方法通过将策略更新限制在行为策略附近来解决这个问题。例如，BCQ[28]使用生成模型将行动限制在分布范围内。CQL[29]和BEAR[30]进一步通过

具有受限马尔可夫决策过程的离线安全RL

离线安全RL问题可以在受限马尔可夫决策过程（CMDP）[17]的框架下进行建模，该框架扩展了标准马尔可夫决策过程（MDP），通过成本函数纳入安全约束。

MDP定义为元组

，其中：

是状态空间，

是动作空间，

是转移概率函数，

是奖励函数，

是折扣因子，

是初始状态分布。

为了建模安全约束，MDP通过成本

方法

HAVEN的概述如图2所示。HAVEN保留了OASIS建立的条件分布建模范式，但通过两项关键创新对其进行了改进：一个分层扩散模型，将轨迹生成分解为子目标级别的规划和片段级别的细化，以及基于价值的选择（VALS），这是一种专门用于从多样化候选者集合中识别高奖励、低成本轨迹的机制。在本节中，我们将详细阐述

实验

评估设置。 根据OASIS [20]建立的评估协议，我们将HAVEN与最先进的（SOTA）安全离线RL算法进行基准测试。评估使用DSRL基准[71]中的任务，在Bullet-Safety-Gym环境[72]中执行。为了确保性能评估的稳健性，实验至少使用五个不同的随机种子进行，每个种子执行100个评估周期。报告的指标代表了

结论

在这项工作中，我们解决了离线安全RL中长范围规划和局部约束满足之间的根本矛盾——这是单一生成模型难以处理的挑战。我们引入了HAVEN，这是一个新颖的框架，其核心贡献是将分层扩散架构与多级基于价值的选择机制（VALS）协同集成。通过分解轨迹生成并在子目标和

生成式AI和AI辅助技术的声明

在准备这项工作期间，作者使用了Gemini 2.5 Pro来提高语言表达和可读性。使用该工具/服务后，作者根据需要审查和编辑了内容，并对已发表文章的内容负全责。

CRediT作者贡献声明

王尔莉：撰写——审阅与编辑，撰写——初稿，方法论，概念化。刁贺：撰写——审阅与编辑，方法论。陈向林：方法论。张京奎：撰写——审阅与编辑。柴晓峰：形式分析。齐强：撰写——审阅与编辑，监督。张萍：撰写——审阅与编辑，监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

王尔莉于2023年获得中国电子科技大学的工程学士学位。他目前在中国电子科技大学攻读硕士学位。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号