CBAM-ST-GCN:一种基于强化学习(DRL)的增强型端到端视觉导航框架,适用于移动机器人

《Neural Networks》:CBAM-ST-GCN: An enhanced DRL-based end-to-end visual navigation framework for mobile robot

【字体: 时间:2026年01月24日 来源:Neural Networks 6.3

编辑推荐:

  视觉导航中的动态障碍物避让与高效训练策略研究,提出CBAM-ST-GCN框架,通过空间-时间卷积图网络增强动态障碍物特征提取,结合卷积块注意力机制提升视觉感知效率,并引入速度障碍法优化奖励函数,显著提高动态环境中的导航成功率与收敛速度。

  
谢明阳|于伟|金焕宇|李伟|陈欣
南京航空航天大学,南京,210016,中国

摘要

对于移动机器人而言,基于视觉的导航面临着重大挑战,这主要是由于视觉感知能力有限以及存在不可预测的动态障碍物。深度强化学习(DRL)通过直接将原始传感器数据映射到控制指令,提供了一种端到端的解决方案,具有较高的适应性和较低的对人工规则依赖性。然而,高维的视觉输入以及动态障碍物引入的非稳定性使得DRL的策略学习难以收敛且不稳定。在本文中,提出了一种针对动态环境中移动机器人的增强型端到端视觉导航框架,称为CBAM-ST-GCN。该框架引入了卷积块注意力模块(CBAM),通过在空间和时间维度上分配注意力权重来增强视觉感知能力。此外,还设计了一种时空图卷积网络(ST-GCN)来捕捉移动障碍物的行为特征。另外,在奖励函数中加入了基于速度障碍物(VO)的惩罚项,以增强碰撞避免能力。广泛的仿真结果表明,所提出的方法具有更高的成功率以及更快的收敛速度。实际实验进一步验证了该方法在真实场景中的有效性和适应性。

引言

移动机器人在服务和工业应用中得到了广泛应用,包括物流(Liu等人,2024年)、包裹分拣(Chen等人,2021年)、智能制造(Zhao和Cheah,2023年)以及紧急救援(Chai等人,2024年)等。这些任务通常发生在杂乱且动态的环境中,要求移动机器人能够自主导航到目的地。目前,大多数自主导航策略依赖于激光雷达和/或毫米波雷达来提供精确的感知,但这些方法成本高昂且系统过于复杂。相比之下,深度相机提供了一种更具成本效益和紧凑性的替代方案。因此,开发一种高可靠性的基于视觉的自主导航策略对于在复杂动态环境中的实际应用至关重要。
现有的基于视觉的导航方法通常分为基于规则的方法和基于学习的方法。基于规则的方法利用优化算法来生成可行路径,并通过相机构建高精度地图(Tordesillas、Lopez、Everett、How,2022年;Zhou、Wang、Ye、Xu、Gao,2021年)。然而,高计算复杂性限制了它们的实时部署能力,而在动态环境中的感知延迟也增加了碰撞风险。除了基于规则的方法外,还广泛研究了受生物学启发的算法用于移动机器人导航。这些方法模仿自然群体的智能来寻找无碰撞路径,并在全球路径规划中展示了有效性(Khan、Li、Cao,2021年;Tamoor、Shuai、Xinwei,2022年)。然而,它们的高计算成本和对快速变化环境的有限适应性阻碍了它们在实时动态导航中的应用。相比之下,基于学习的方法通过直接将观察结果映射到动作,提供了一种新颖的端到端策略,主要包括模仿学习和深度强化学习。模仿学习旨在通过专家示范来建立从视觉输入到导航决策的映射(Pan、Cheng、Saigol、Lee、Yan、Theodorou、Boots,2020年;Yan、Qin、Liu、Ma、Kang,2023年),这种方法依赖于高质量的专家示范,但容易过拟合专家行为。深度强化学习(DRL)通过与环境的交互和奖励反馈来研究策略,在复杂和未知的场景中表现出较高的自主性和适应性(Kulhánek、Derner、Babu?ka,2021年;Tao、Li、Cao、Lu,2024年)。
尽管DRL由于其高适应性和鲁棒性而成为基于视觉导航的有希望的解决方案,但大多数报道的DRL策略面临以下两个挑战:1)视觉输入的高维度降低了训练过程和收敛速度;2)在动态环境中发生碰撞的可能性较高。为了解决上述挑战,本文提出了一种增强的基于DRL的端到端框架,该框架整合了卷积块注意力模块(CBAM)(Woo等人,2018年)和时空图卷积网络(ST-GCN)(Yan等人,2018年),用于移动机器人的视觉导航。此外,还设计了一种基于速度障碍物(VO)(van den Berg等人,2008年)的新型奖励函数,以增强该方法在动态环境中的碰撞避免能力。通过仿真和实际实验验证了所提出方法的有效性。本文的主要贡献有三点:
  • 将卷积块注意力模块纳入导航框架中,以加快算法的收敛速度。通过处理多个连续时间步骤的视觉输入,该模块能够在空间和时间维度上捕获与任务相关的特征,显著提高收敛速度。
  • 将动态障碍物编码为图结构,并采用时空图卷积网络来增强动态特征的提取和表示,从而提高在动态环境中的导航成功率。
  • 通过引入速度障碍物的概念,为动态环境量身定制了奖励函数,其中加入了速度惩罚项,以防止不安全的运动指令,提高了移动机器人在动态环境中的障碍物避免能力
  • 章节摘录

    基于视觉的端到端导航

    基于视觉的端到端导航旨在使用神经网络从原始视觉输入直接映射到控制动作,与传统基于规则的方法相比,在不同场景中提供了更高的效率和灵活性。为了实现这种直接的感知到动作的策略,已经研究了许多学习范式。其中,模仿学习(IL)是一种直接的方法,网络通过专家示范进行训练,使机器人能够

    问题陈述

    在移动机器人导航任务中,由于深度相机的视野有限,机器人与环境之间的交互可以建模为一个部分可观察的马尔可夫决策过程(POMDP),定义为元组(S, A, P, R, Ω, O),其中S表示状态空间,A是动作空间,P(st+1|st,at)表示状态转移函数,R(st, at)是奖励函数,Ω是观测空间,O表示观测函数。研究目标

    实验设置

    导航策略仿真环境基于Gazebo构建,如图7所示,包括行人、稀疏动态、中等动态和复杂动态四种场景。所使用的机器人模型是TurtleBot3,这是一种配备RealSense D435i相机的差动驱动机器人。训练硬件配置包括Intel i9-12900KF(3.9 GHz)CPU、128 GB内存和NVIDIA RTX 3090Ti GPU。操作系统为Ubuntu 20.04。

    结论

    提出了一种新颖的基于DRL的移动机器人视觉导航框架CBAM-ST-GCN,以提高现有DRL导航策略的训练效率和动态障碍物避免能力。首先在框架中引入了卷积注意力机制(CBAM),以改善关键视觉特征的感知,从而加速策略学习过程。进一步设计了时空图卷积网络(ST-GCN)来提取动态障碍物

    CRediT作者贡献声明

    谢明阳:撰写 – 审稿与编辑、资源准备、方法论、资金获取。于伟:撰写 – 原始草案、验证、软件开发、方法论。金焕宇:可视化处理、数据整理。李伟:监督。陈欣:监督、项目管理。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作部分得到了国家自然科学基金(项目编号62373186)、江苏省自然科学基金(项目编号BK20231440)和中央高校基本科研业务费(项目编号NZ2024-033)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号