作为一种试错范式,在过去的几年中,在线强化学习(RL)在各种模拟任务中蓬勃发展(Feng, Tan, 2016; Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, et al., 2015; Silver, Huang, Maddison, Guez, Sifre, Van Den Driessche, Schrittwieser, Antonoglou, Panneershelvam, Lanctot, et al., 2016)。然而,在许多现实世界应用中,部署在线RL是复杂的,收集交互数据通常成本高昂(Kim, Kim, Jung, Oh, 2022; Kiran, Sobh, Talpaert, Mannion, Al Sallab, Yogamani, Pérez, 2021; Singh, Kumar, Singh, 2022; Wang, Wang, Wang, Liang, Meng, 2025)。离线RL作为一种数据驱动的范式,为从静态离线数据集中学习策略提供了有希望的方向,而无需进一步与环境交互(Lange, Gabel, Riedmiller, 2012; Levine, Kumar, Tucker, & Fu)。
离线RL的数据驱动特性决定了对高保真度离线数据集的需求。以往的研究主要集中在模拟任务上,这些任务通常具有稳定的环境,缺乏现实世界中常见的干扰(Muratore, Gienger, Peters, 2019; Niu, Qiu, Li, Zhou, Hu, Zhan, et al., 2022; Park, Margolis, Agrawal, 2024)。来自现实世界交互的数据更具代表性,能够准确反映复杂场景(Zheng et al., 2024)。此外,尽管获取此类数据成本高昂,但由于它提供了来自具有挑战性环境的独特见解,因此它是必不可少的。然而,由于复杂因素,这些数据集经常存在数据不完整的问题(Fatyanosa et al., 2024)。例如,深海AUV操作会因极端压力和机械影响而面临传感器故障(Liu, Xu, Song, & Jiang, 2025)。这些故障会中断数据收集,导致数据集不完整,从而降低离线RL的性能。实际上,缺失数据填充在智能交通(Fang, He, Xu, Chen, 2024; Xing, Liu, Anish, Liu, 2023; Zhou, Shen, Zhang, Deng, Kong, Xia, 2025)和传感器网络(Fatyanosa, Firdausanti, Prayoga, Kuriu, Aritsugi, Mendonca, 2024; Ma, Wang, Peng, 2024; Xing, Zheng, Wu, Chen, 2025)等实际工程背景下得到了广泛应用,为恢复不完整的RL数据集提供了宝贵的见解。
现实世界数据集的完整性从根本上受到感知子系统和控制子系统之间可靠性不对称性的限制。虽然状态估计通常依赖于可靠的高带宽感知流(例如,摄像头),但动作数据是通过单独的执行器侧反馈或控制上行链路记录的。不幸的是,这些动作记录渠道往往容易受到网络不稳定(例如,数据包丢失)或机械故障的影响,导致动作数据丢失,而环境观测流保持完整。
在离线RL领域,与我们工作最接近的先前研究(Yang, Zhong, Xu, Zhang, Zhang, Han, Zhang, 2024; Zheng, Henaff, Amos, Grover, 2023)调查了涉及不完美动作数据的场景。关键的是,它们将动作向量视为一个原子单位,依赖于一个粗略的假设,即异常均匀影响所有维度。然而,这个假设忽略了异构动作记录渠道中固有的独立故障模式。为了弥合理想化假设与现实世界故障之间的差距,我们深入研究了各个维度的粒度。我们特别解决了特定动作记录渠道被破坏导致特定样本中动作维度不完整的问题,如图1所示。我们将这个问题正式定义为维度特定的缺失动作数据问题(DSMADP)。
据我们所知,我们是第一个在离线RL中研究维度级别数据不完整问题的团队。我们认为,从现实世界环境中获得的这些昂贵但不完整的数据是不可替代的,因为它们包含了复杂的环境动态。简单地丢弃这些部分损坏的样本是浪费的,因为它们保留了对于提升模型性能至关重要的决策信息。我们的见解在于充分利用数据中的内在相关性来恢复这些缺失的维度,从而为稳健的离线策略学习打下坚实的基础。
在这项工作中,我们专注于DSMADP。首先,我们研究了这种不完整数据如何影响离线RL的性能。具体来说,我们检查了Halfcheetah-medium数据集中分别在两个和三个维度上出现缺失动作数据的情况,缺失率范围从0.1到0.9。如图2所示,可以观察到:(1)在缺失维度数量固定的情况下,随着缺失率的增加,性能显著下降;(2)对于固定的缺失率,缺失维度的数量越多,性能越差。为了减轻这种不完整数据的影响,我们提出了一种简单而有效的基于MLP的相关性驱动填充模型,称为CORIMP。它从一个有趣的现实世界现象中获得了灵感:移动物体的关节之间存在复杂的相互作用,它们需要保持特定的关系以保持平衡并实现预期目标。基于这一洞察,对于给定的动作示例,CORIMP利用来自非缺失维度的可用数据,根据捕获的维度间相关性来填充缺失维度的值。广泛的实验表明,CORIMP能够有效地处理各种不完整数据场景,有效减轻了不完整数据对离线RL的影响,并实现了与基准数据集相当或更好的性能水平。
本工作的贡献总结如下:
•我们是第一个在离线RL中提出并解决维度特定缺失动作数据问题(DSMADP)的团队。
•我们系统地分析了不同任务和数据集类型在暴露于DSMADP时的敏感性模式。
•我们提出了CORIMP,这是一种简单而有效的基于MLP的相关性驱动填充模型,它通过学习缺失维度与观测维度的相关性来填充缺失的维度。
•我们从理论上限制了CORIMP的填充误差及其对离线RL性能的下游影响。
•我们通过在D4RL数据集的变体上进行广泛的实验,证明了CORIMP的有效性。