多步自举与探索策略对深度强化学习在部分可观测马尔可夫决策过程中性能影响的机制研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurobiology of Disease》：The effects of alcohol dependence on the CSF proteome in mice: Evidence for blood-brain barrier dysfunction and neuroinflammation

【字体：大中小】 时间：2026年01月01日 来源：Neurobiology of Disease 5.6

编辑推荐：

　　本文针对深度强化学习（DRL）算法在部分可观测马尔可夫决策过程（POMDP）中性能表现不一致的问题，研究了PPO、TD3和SAC三种主流算法在POMDP环境下的表现。研究发现，在MDP任务中表现优异的TD3和SAC在POMDP任务中性能显著下降，而PPO则表现出更强的鲁棒性。通过系统实验，研究人员揭示了多步自举（multi-step bootstrapping）是提升TD3和SAC在POMDP中性能的关键机制，而保守的策略更新则是PPO保持鲁棒性的主要原因。该研究为DRL算法在部分可观测环境中的应用提供了重要理论依据和实践指导。

在人工智能和机器人控制领域，深度强化学习（DRL）已经成为解决复杂决策问题的有力工具。然而，当智能体无法完全感知环境状态时，问题就从完全可观测的马尔可夫决策过程（MDP）转变为部分可观测马尔可夫决策过程（POMDP），这给DRL算法的实际应用带来了巨大挑战。

目前，DRL算法通常分别在MDP和POMDP环境下进行测试和基准评估，但很少有研究探讨同一算法在这两种环境下的性能差异。更令人困惑的是，在实际应用中，像TD3和SAC这类在MDP任务中表现优异的算法，在面对POMDP问题时往往表现不佳，而PPO算法却展现出意想不到的鲁棒性。这种性能表现的"逆转"现象引发了研究人员的深入思考。

为探究这一现象背后的机制，Lingheng Meng等人开展了一项系统研究，比较了PPO、TD3和SAC算法在多种机器人控制任务中的表现。研究人员设计了四组实验：首先验证"意外结果"在不同任务中的普遍性；然后分析多步自举对算法性能的影响；接着探索累积奖励的作用；最后研究探索策略对算法鲁棒性的影响。

研究发现，多步自举是提升TD3和SAC在POMDP中性能的关键。通过将TD3和SAC从单步自举扩展到多步自举（创建MTD3和MSAC变体），这两种算法在POMDP任务上的性能得到显著提升。特别值得注意的是，MTD3(5)和MSAC(5)在大多数POMDP任务上的表现甚至优于专门为处理POMDP设计的LSTM-TD3算法。

然而，多步自举并非万能钥匙。研究人员发现，简单地用累积奖励替换原始奖励并不能产生与多步自举相同的性能提升效果。这表明多步自举的作用机制比单纯的奖励累积更为复杂。

在探索策略方面，研究结果显示，减少探索并不能一致地提高TD3和SAC在POMDP中的鲁棒性。相反，增加PPO的探索性会降低其在POMDP中的性能，这支持了保守策略更新是PPO保持鲁棒性的重要因素的观点。

技术方法上，本研究主要基于Gymnasium MuJoCo环境中的四类连续控制任务（Ant、HalfCheetah、Hopper和Walker2D），通过添加随机噪声、移除速度信息、传感器闪烁等多种方式创建POMDP变体。研究采用多步自举技术改进TD3和SAC算法，创建MTD3(n)和MSAC(n)变体，并利用TriMap降维技术可视化策略的观察和动作覆盖范围。

研究结果

意外结果的普遍性验证

通过在不同机器人控制任务上的实验，研究人员发现PPO在大多数POMDP变体上优于TD3和SAC，这一"意外结果"在不同任务中具有普遍性。具体而言，在16个POMDP任务中，PPO在11个任务上表现优于TD3和SAC，且多数情况下差异显著。

多步自举的影响分析

实验结果表明，将TD3和SAC从单步自举扩展到多步自举（n>1）可以显著提高它们在POMDP任务上的性能。MTD3(5)在14/16的POMDP任务上显著优于TD3，MSAC(5)在15/16的任务上显著优于SAC。多步自举通过传递时间信息，帮助算法在部分可观测环境下更好地估计值函数。

累积奖励的替代效果

研究人员测试了用平均奖励r_t^(avg(n))或累加奖励r_t^(sum(n))替代原始单步奖励的效果，发现这种替代并不能一致地提高TD3和SAC在POMDP上的性能。这表明多步自举的机制不仅仅是简单的奖励累积，而是涉及更复杂的时间信息传递过程。

探索策略的作用

研究显示，调整探索策略对算法在POMDP中性能的影响不一致。减少TD3和SAC的探索性并不能一致地提高它们的鲁棒性，而增加PPO的探索性则会降低其在POMDP中的性能。这表明探索策略不是解释"意外结果"的主要因素。

观察与动作覆盖分析

通过TriMap降维可视化，研究人员发现MTD3(5)和TD3学习到的策略在观察和动作空间中有明显不同的覆盖模式。MTD3(5学到的策略倾向于避免某些观察区域，而在其他区域采取更优质的动作，这解释了其性能优势。

研究结论与意义

本研究系统探讨了DRL算法在POMDP环境中的性能表现差异，揭示了多步自举是提升TD3和SAC在部分可观测环境中性能的关键机制。研究发现，PPO的鲁棒性主要源于其保守的策略更新方法，而TD3和SAC则可以通过引入多步自举来显著改善其在POMDP任务上的表现。

这一研究对DRL在实际应用中有重要指导意义。首先，它提醒研究者不能简单地将MDP任务上的算法排名直接推广到POMDP环境。当发现PPO在某个任务上优于TD3和SAC时，这可能是该任务具有部分可观测性的信号，需要相应调整算法选择或环境设计。

其次，研究提出的多步自举改进方法为处理POMDP问题提供了实用技术路径。MTD3和MSAC算法在保持原有算法优点的同时，显著提升了在部分可观测环境中的性能，这对机器人控制等实际应用具有重要价值。

最后，本研究为理解不同DRL算法在POMDP中的行为差异提供了新视角，为未来开发既适用于MDP又适用于POMDP的通用DRL算法奠定了基础。研究结果强调需要更系统的基准测试框架，以及能自动检测任务可观测水平的工具，从而推动DRL在复杂现实环境中的更广泛应用。

该论文发表于《Neurobiology of Disease》，为深度强化学习算法在部分可观测环境中的性能评估和改进提供了重要理论依据和实践指导，对促进DRL在真实世界应用具有重要意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号