在离线强化学习中，通过样本内价值函数缓解过度乐观（OOD Overoptimism）问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《NEOTROPICAL BIOLOGY AND CONSERVATION》：Mitigating OOD Overoptimism via In-Sample Value Function in Offline Reinforcement Learning

【字体：大中小】 时间：2026年02月25日 来源：NEOTROPICAL BIOLOGY AND CONSERVATION 0.8

编辑推荐：

　　本文提出离线强化学习中的In-sample Expectile Value Regularization（IEVR）方法，通过在样本学习获得的期望值约束OOD动作值，解决传统方法因过度估计OOD动作值导致的安全问题。理论分析表明，该方法能有效控制OOD估值，实验验证其在D4RL基准上的性能优于现有方法。

刘文辉|罗康阳|吴志坚|郝善峰|黄定江

华东师范大学数据科学与工程学院，中国上海中山北路3663号，200062

摘要

离线强化学习（RL）旨在在没有在线交互的情况下，从预先记录的决策数据中学习。在这种环境下，准确评估离分布（OOD）行为具有挑战性，通常会导致过度乐观的估计。一些方法通过在训练过程中完全避免使用样本外行为（即样本内学习）来缓解这一问题。虽然这些方法安全地利用了数据集的行为，但它们的泛化能力不可避免地会受到影响。为了弥合这一差距，我们发现了一个关键见解：从设计良好的样本内学习方法中得出的价值函数可以有效约束OOD行为的价值。基于此，我们开发了一种简洁有效的样本内期望值正则化（IEVR）方法，该方法仅使用样本内期望值来限制OOD行为，同时保持样本内行为的标准贝尔曼更新。我们提供了关于IEVR收敛性的理论分析，并通过误差界限和实验验证了样本内期望值作为正则化形式的有效性。最后，广泛的实验结果表明，IEVR在D4RL基准测试的多种任务中显著提高了性能。

引言

强化学习（RL）在游戏智能（Mnih等人，2015年；Vinyals等人，2019年）和自然语言处理（Ge等人，2023年；Ouyang等人，2022年）等领域取得了实质性进展。然而，它依赖于在线试错学习过程，这限制了其在交互危险或成本高昂的应用场景中的适用性，例如自动驾驶（He等人，2023年；Kiran等人，2022年）、医疗保健（Kondrup等人，2024年；Ling等人，2017年）、电力系统（Chen等人，2024年；Wu等人，2025年）、直升机（Xian等人，2022年；Zhao等人，2024年）和机器人控制（Gu等人，2017年；Sontakke等人，2023年；Wang等人，2024a；Xiang和Su，2021年）。为了解决这一限制，离线RL（Fujimoto等人，2019年）作为一个有前景的方向出现，它允许在没有在线交互的情况下从历史决策数据中学习。尽管具有潜力，但这种范式也存在重大挑战，因为直接将传统的在线RL算法应用于离线数据可能导致学习到的策略失败。主要原因在于难以准确评估OOD行为的价值（Levine等人，2020年），尤其是错误地过于乐观的估计。例如，在自动驾驶中，基于城市道路数据训练的RL代理可能会高估不熟悉的结冰道路的安全性，从而导致次优或冒险的决策。

现有研究探索了各种策略来有效解决OOD行为价值的高估问题。一些方法（Kumar等人，2020年；Yu等人，2021年）直接惩罚OOD行为价值以抑制这些行为的乐观估计。然而，它们可能会过于保守，随后通过其他价值正则化算法（Huang, Dong, Xie, Zhang, 2024a, Huang, Dong, Zhang, 2024b；Liu等人，2024年）来缓解这一问题。尽管如此，它们仍然存在价值偏差，限制了其在离线环境中的有效性。在另一系列工作中（Fujimoto和Gu，2021年；Kumar等人，2019年；Li等人，2023年；Wu等人，2019年），明确施加了策略约束，以使学习到的策略接近行为策略。虽然这些约束有助于防止潜在危险的OOD行为，但它们也可能限制策略学习。此外，当数据收集策略不理想时，这些方法的性能通常会下降。值得注意的是，上述方法在训练过程中使用了数据集之外的行为，因此被称为样本外学习。

相反，仅在学习过程中使用数据集内行为的方法被称为样本内学习（Chen等人，2020年；Kostrikov等人，2022年；Ma等人，2022年；Xu等人，2023年；Yang等人，2021年）。虽然这些方法有助于安全地学习策略，但它们的性能显著受损，这促使人们重新评估样本内学习的潜在优势。我们认为，设计良好的样本内学习方法可以自然地有助于缓解OOD行为的过度乐观。具体来说，从样本内学习方法中得出的价值函数可以适当地约束未见行为的过高估计值。这基于两个关键直觉：首先，通过其对应的样本内行为来限制样本外状态-行为对的价值，自然会鼓励其价值与分布内行为的价值保持一致，从而抑制潜在的过度乐观估计。其次，样本内价值估计可以视为最大化的样本内行为价值，从而提供了一个相对较高的上限，从而避免了对于离分布行为的过于悲观的约束。因此，设计良好的样本内学习方法有潜力被扩展为有效的价值正则化方法。

为此，我们提出了一种简洁有效的方法，称为样本内期望值正则化（IEVR），该方法仅使用样本内期望值来限制OOD行为，同时保持样本内行为的标准贝尔曼更新。具体来说，我们首先介绍了样本内价值正则化（IVR）框架，旨在阐明如何利用样本内值进行OOD正则化。在此基础上，我们结合了最先进的样本内学习方法IQL（Kostrikov等人，2022年）中的样本内期望值，形成了我们的方法IEVR。此外，我们还提供了关于IEVR在表格马尔可夫决策过程下的理论分析，并通过广泛的实验验证了其有效性。

总体而言，我们的主要贡献总结如下：

1)
我们发现样本内价值函数可以作为OOD行为价值的有效约束，建立了样本内学习和价值正则化方法之间的联系。
2)
我们开发了一个通用的IVR框架，以及两个实现版本IEVR和 $X$ -VR，表明通过样本内价值约束OOD行为价值为离线RL提供了一种有效的正则化原则。
3)
我们从理论上证明了样本内价值函数可以有效控制OOD行为价值的估计。
4)
通过广泛的实验，结果表明IEVR在性能上显著优于相应的样本内学习方法，并且与现有的最先进方法相比具有竞争力。

章节片段

预备知识

强化学习（RL）通常在马尔可夫决策过程（MDP）框架内进行，该框架由元组

M = 〈 S, A, P, r, γ 〉

定义，其中

S

和

A

代表状态空间和动作空间。转移概率函数

P : S \times A \to [0, 1]

和奖励函数

r : S \times A \to [r_{\min}, r_{\max}]

分别定义了环境的动态和奖励。γ∈（0, 1）是折扣因子。RL的目标是找到一个策略

π : S \times A \to [0, 1]

，以最大化预期的累积折扣奖励。

方法

在本节中，我们将详细介绍我们的方法——样本内期望值正则化（IEVR）。简而言之，我们首先通过引入一种新的样本内价值正则化贝尔曼（IVRB）运算符来构建我们的样本内价值正则化（IVR）框架，旨在阐明如何利用样本内值进行OOD正则化。然后，通过将IQL中的样本内期望值整合到IVR中，我们得出了我们的方法IEVR。此外，我们在最后部分提供了IEVR的理论分析。

实验

在本节中，我们通过以下方式验证了所提出的IEVR的有效性：1）将其性能与现有方法进行比较，特别关注相对于最先进的样本内学习方法IQL（Kostrikov等人，2022年）所取得的性能提升；2）研究两个主要超参数λ和τ对不同价值设置下性能的影响；3）通过Q值分析样本内价值估计的属性。

结论

在本文中，我们介绍了一种新颖的方法IEVR，该方法利用样本内学习方法IQL中的样本内期望值来约束OOD行为，同时保持样本内行为的标准更新。这项工作认识到样本内价值函数可以自然地作为OOD行为的有效约束，从而建立了样本内学习和价值正则化方法之间新的联系。这提供了双重好处：1）提高

CRediT作者贡献声明

刘文辉：撰写——原始草稿、软件、方法论、调查、概念化。罗康阳：撰写——原始草稿、方法论。吴志坚：撰写——审稿与编辑、软件。郝善峰：软件。黄定江：撰写——审稿与编辑、监督、资源。

利益冲突声明

黄定江报告称，他的工作得到了国家自然科学基金的支持。如果有其他作者，他们声明没有已知的利益冲突或个人关系可能影响本文所述的工作。

致谢

本工作部分得到了国家自然科学基金（62072185, U1711262）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言