CORIMP：一种基于相关性驱动的插补方法，用于具有不完整动作数据的离线强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：CORIMP: A Correlation-driven Imputation Approach for Offline Reinforcement Learning with Incomplete Action Data

【字体：大中小】 时间：2026年01月27日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　离线强化学习面临维度特定缺失动作数据（DSMADP）问题，导致传统填补方法效果不佳。本文提出CORIMP模型，利用MLP学习同一动作样本内不同维度间的内在相关性，指导缺失维度填补。理论分析表明该方法能有效控制填补误差，实验验证在缺失率达0.9时仍保持95%以上完整数据集性能。

邵玉琳|徐远波|李希明

吉林大学，长春，130012，中国

摘要

离线强化学习（RL）是一种数据驱动的范式，它从静态数据集中学习策略，而无需与环境实时交互。然而，由于传感器故障或通信中断等问题，从现实世界收集的动作数据往往是不完整的，这会显著影响离线RL的性能。我们关注维度特定的缺失动作数据问题（DSMADP），并利用这些昂贵但不完整的数据来提升离线RL的性能。受到物理系统中关节运动协调性的启发，我们提出在每个动作示例的各个维度之间存在内在相关性——称为示例内维度间相关性。基于这一洞察，我们提出了一种基于MLP的相关性驱动的填充模型，称为CORIMP。它通过学习从观测到的维度到缺失维度的映射来模拟这些相关性，然后利用可用数据指导缺失值的填充。理论上，我们限制了CORIMP的填充误差及其对离线RL性能的下游影响。在缺失D4RL数据集的变体上的实验结果证明了我们方法的有效性。值得注意的是，使用TD3BC算法时，CORIMP填充后的数据集达到了Halfcheetah-medium-expert数据集性能的95.15%（基准）。与完全填充的数据集相比，它在两个维度上的缺失率从0.1到0.9的情况下平均提高了99.12%。

引言

作为一种试错范式，在过去的几年中，在线强化学习（RL）在各种模拟任务中蓬勃发展（Feng, Tan, 2016; Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, et al., 2015; Silver, Huang, Maddison, Guez, Sifre, Van Den Driessche, Schrittwieser, Antonoglou, Panneershelvam, Lanctot, et al., 2016）。然而，在许多现实世界应用中，部署在线RL是复杂的，收集交互数据通常成本高昂（Kim, Kim, Jung, Oh, 2022; Kiran, Sobh, Talpaert, Mannion, Al Sallab, Yogamani, Pérez, 2021; Singh, Kumar, Singh, 2022; Wang, Wang, Wang, Liang, Meng, 2025）。离线RL作为一种数据驱动的范式，为从静态离线数据集中学习策略提供了有希望的方向，而无需进一步与环境交互（Lange, Gabel, Riedmiller, 2012; Levine, Kumar, Tucker, & Fu）。

离线RL的数据驱动特性决定了对高保真度离线数据集的需求。以往的研究主要集中在模拟任务上，这些任务通常具有稳定的环境，缺乏现实世界中常见的干扰（Muratore, Gienger, Peters, 2019; Niu, Qiu, Li, Zhou, Hu, Zhan, et al., 2022; Park, Margolis, Agrawal, 2024）。来自现实世界交互的数据更具代表性，能够准确反映复杂场景（Zheng et al., 2024）。此外，尽管获取此类数据成本高昂，但由于它提供了来自具有挑战性环境的独特见解，因此它是必不可少的。然而，由于复杂因素，这些数据集经常存在数据不完整的问题（Fatyanosa et al., 2024）。例如，深海AUV操作会因极端压力和机械影响而面临传感器故障（Liu, Xu, Song, & Jiang, 2025）。这些故障会中断数据收集，导致数据集不完整，从而降低离线RL的性能。实际上，缺失数据填充在智能交通（Fang, He, Xu, Chen, 2024; Xing, Liu, Anish, Liu, 2023; Zhou, Shen, Zhang, Deng, Kong, Xia, 2025）和传感器网络（Fatyanosa, Firdausanti, Prayoga, Kuriu, Aritsugi, Mendonca, 2024; Ma, Wang, Peng, 2024; Xing, Zheng, Wu, Chen, 2025）等实际工程背景下得到了广泛应用，为恢复不完整的RL数据集提供了宝贵的见解。

现实世界数据集的完整性从根本上受到感知子系统和控制子系统之间可靠性不对称性的限制。虽然状态估计通常依赖于可靠的高带宽感知流（例如，摄像头），但动作数据是通过单独的执行器侧反馈或控制上行链路记录的。不幸的是，这些动作记录渠道往往容易受到网络不稳定（例如，数据包丢失）或机械故障的影响，导致动作数据丢失，而环境观测流保持完整。

在离线RL领域，与我们工作最接近的先前研究（Yang, Zhong, Xu, Zhang, Zhang, Han, Zhang, 2024; Zheng, Henaff, Amos, Grover, 2023）调查了涉及不完美动作数据的场景。关键的是，它们将动作向量视为一个原子单位，依赖于一个粗略的假设，即异常均匀影响所有维度。然而，这个假设忽略了异构动作记录渠道中固有的独立故障模式。为了弥合理想化假设与现实世界故障之间的差距，我们深入研究了各个维度的粒度。我们特别解决了特定动作记录渠道被破坏导致特定样本中动作维度不完整的问题，如图1所示。我们将这个问题正式定义为维度特定的缺失动作数据问题（DSMADP）。

据我们所知，我们是第一个在离线RL中研究维度级别数据不完整问题的团队。我们认为，从现实世界环境中获得的这些昂贵但不完整的数据是不可替代的，因为它们包含了复杂的环境动态。简单地丢弃这些部分损坏的样本是浪费的，因为它们保留了对于提升模型性能至关重要的决策信息。我们的见解在于充分利用数据中的内在相关性来恢复这些缺失的维度，从而为稳健的离线策略学习打下坚实的基础。

在这项工作中，我们专注于DSMADP。首先，我们研究了这种不完整数据如何影响离线RL的性能。具体来说，我们检查了Halfcheetah-medium数据集中分别在两个和三个维度上出现缺失动作数据的情况，缺失率范围从0.1到0.9。如图2所示，可以观察到：（1）在缺失维度数量固定的情况下，随着缺失率的增加，性能显著下降；（2）对于固定的缺失率，缺失维度的数量越多，性能越差。为了减轻这种不完整数据的影响，我们提出了一种简单而有效的基于MLP的相关性驱动填充模型，称为CORIMP。它从一个有趣的现实世界现象中获得了灵感：移动物体的关节之间存在复杂的相互作用，它们需要保持特定的关系以保持平衡并实现预期目标。基于这一洞察，对于给定的动作示例，CORIMP利用来自非缺失维度的可用数据，根据捕获的维度间相关性来填充缺失维度的值。广泛的实验表明，CORIMP能够有效地处理各种不完整数据场景，有效减轻了不完整数据对离线RL的影响，并实现了与基准数据集相当或更好的性能水平。

本工作的贡献总结如下：

•

我们是第一个在离线RL中提出并解决维度特定缺失动作数据问题（DSMADP）的团队。

•

我们系统地分析了不同任务和数据集类型在暴露于DSMADP时的敏感性模式。

•

我们提出了CORIMP，这是一种简单而有效的基于MLP的相关性驱动填充模型，它通过学习缺失维度与观测维度的相关性来填充缺失的维度。

•

我们从理论上限制了CORIMP的填充误差及其对离线RL性能的下游影响。

•

我们通过在D4RL数据集的变体上进行广泛的实验，证明了CORIMP的有效性。

部分摘录

离线强化学习

离线RL旨在从预先收集的数据集中学习策略，而无需与环境交互（Lange, Gabel, Riedmiller, 2012; Levine, Kumar, Tucker, & Fu）。现有的离线RL工作通常可以分为基于模型的方法（Chen, Lu, Rajeswaran, Lee, Grover, Laskin, Abbeel, Srinivas, Mordatch, 2021; Janner, Li, Levine, 2021; Kidambi, Chang, Sun, 2021; Kidambi, Rajeswaran, Netrapalli, Joachims, 2020; Li, Wang, Ling, 2025; Rigter, Lacerda, Hawes, 2022; Sun, Zhang, Jia,

维度特定的缺失动作数据

在离线RL设置中，我们得到了一个固定的数据集

D = {(s_{i}, a_{i}, r_{i}, s_{i + 1}) i = 1 N

，该数据集由未知的行为策略π_β收集，其中i索引数据集中的转换（样本），N是数据集的大小。这里，s_i是状态，a_i是动作，r_i是奖励，

s_{i + 1}

是每个索引i处的下一个状态。代理只能从这个数据集中学习策略π(a|s)，而无需进一步交互。数据集的质量对于确保学习到的策略的性能至关重要。

方法论

在本节中，我们首先介绍了一个为DSMADP量身定制的实际训练流程。接下来，我们详细介绍了CORIMP，它由三个部分组成。首先，我们详细介绍了其关键的初步步骤：缺失数据识别。其次，我们描述了其架构。最后，我们详细阐述了实现细节。

理论分析

本节分析了CORIMP的理论属性。我们模拟了底层的数据生成过程，并限制了填充误差，随后量化了其对下游离线RL值估计的影响。

实验设置

缺失数据设置。两个关键参数，缺失率p∈[0, 1]，用于衡量包含缺失数据的样本的比例，以及具有缺失数据的维度数量

c = 0,1, , , ,C

，其中C是动作数据集中的总维度数。在我们的生成协议中，c维度的子集被选定一次，并在整个数据集中保持不变。对于每个样本，这些维度中的值将以概率p被屏蔽。

数据集。我们在三个D4RL数据集上评估了我们的方法（Fu,

结论

本文探讨了离线RL中的维度特定缺失动作数据问题（DSMADP）。一方面，我们彻底研究了不同任务和数据集类型对DSMADP的反应。另一方面，我们提出了CORIMP，一种相关性驱动的填充模型，以减轻DSMADP的影响。在缺失D4RL数据集的变体上的实验结果证明了其有效性。我们的发现强调了在离线RL中解决DSMADP的重要性，并提供了实用的

CRediT作者贡献声明

邵玉琳：概念化、方法论、软件、验证、形式分析、调查、数据整理、写作——原始草稿、可视化。徐远波：概念化、方法论、形式分析、资源、写作——审阅与编辑、监督、项目管理、资金获取。李希明：方法论、验证、形式分析、写作——审阅与编辑。

利益冲突声明

作者声明他们没有需要披露的竞争利益或财务冲突。

联系信箱：

粤ICP备09063491号

摘要

引言