基于Q学习增强型中枢模式发生器(CPG)的多鳍仿生机器鱼的航向控制

《Ocean Engineering》:Heading control of a multi-fin biomimetic robotic fish based on Q-learning enhanced central pattern generator (CPG)

【字体: 时间:2026年05月04日 来源:Ocean Engineering 5.5

编辑推荐:

  左启阳|梁林|高新怡|李一阳|耿家子|易正坤|张菲菲|何凯|谢凤兰 中国科学院深圳先进技术研究院,中国广东省深圳市518055 摘要 仿生机器鱼的姿态常常受到复杂水流的干扰,导致航向偏差。本文提出了一种轻量级的航向控制框架,该框架通过Q学习增强的中枢模式发生器(CP

  左启阳|梁林|高新怡|李一阳|耿家子|易正坤|张菲菲|何凯|谢凤兰
中国科学院深圳先进技术研究院,中国广东省深圳市518055

摘要
仿生机器鱼的姿态常常受到复杂水流的干扰,导致航向偏差。本文提出了一种轻量级的航向控制框架,该框架通过Q学习增强的中枢模式发生器(CPG)协调多个鱼鳍的动作。首先介绍了配备两个柔顺胸鳍和一个尾鳍的机器鱼。然后开发了一种基于强化学习的控制方案,其中Q学习优化决策过程,而CPG则同步鱼鳍的运动。此外,建立了一个实验平台,并通过累积奖励和剧集值来评估性能。最后,在静水和湍流条件下进行了广泛测试。结果表明,在-30°到30°的目标角度范围内,所提出的框架优于传统的PID控制方法。特别是在20°的目标角度下,航向误差从2.7624°降低到-0.1507°,标准差从3.3176°降低到2.4441°,准确度提高了94.55%,稳定性提高了26.33%。总体而言,所提出的方法为仿生机器鱼提供了一种有效的实时航向控制解决方案,对未来的水下机器人应用具有理论和实践价值。

引言
鱼类作为最早的脊椎动物之一,在数百万年的进化过程中展示了在水下运动方面的显著优势,包括高速度、出色的机动性、稳定性和能源效率(Liu和Hu,2010)。它们独特的运动结构和行为模式为仿生机器鱼的设计和性能优化提供了重要的生物学启发(Jadhav等人,2023;Jian和Zou,2022)。然而,当这些生物学原理直接应用于机器鱼时,它们仍然会受到水流干扰和轻微结构不对称性的影响,这可能导致实际操作中偏离预定航向。为了解决这个问题,Li等人(2024)提出了一种基于间隙补偿和非线性干扰观察器的仿生海豚航向微调方法。Cao等人(2016)开发了一种自适应模糊控制策略用于仿生海豚的航向控制,有效解决了与非线性建模和外部干扰相关的问题。Chen等人(2021)设计了一种基于中枢模式发生器(CPG)的闭环控制策略,并成功应用于电缆驱动的仿生机器鱼,实现了稳定和有效的航向调整和控制。Yan等人(2022)使用基于CPG的滑模控制器实现了单尾鳍推进下的航向控制。尽管现有的控制策略在机器鱼航向调节方面取得了进展,但仍存在重大挑战。模型驱动方法依赖于精确的系统模型,但由于仿生鱼系统的固有非线性、时变动态和多耦合性,这些模型难以获得。相反,专家驱动方法的适应性有限,因为它们依赖于手动调整的规则和参数,这阻碍了在复杂环境中的有效控制。

鉴于现有控制方法的局限性,对鱼鳍功能及其协调运动的深入研究可能为提高航向控制性能提供新的见解。特别是,鱼鳍在游泳中起着关键作用,显著影响稳定性、直线运动和机动性(Drucker和Lauder,2002;Drucker和Lauder,2001)。根据位置,鱼鳍主要分为胸鳍、腹鳍、背鳍和尾鳍(Lauder和Drucker,2004)。受此启发,鱼鳍之间的协调运动及其对鱼类巡航能力的影响成为一个值得深入探索的有前景的研究方向。Matthews和Lauder(2021)对鱼鳍间距和相位差对推进性能的影响进行了全面研究,发现鱼鳍之间的相位协调不当会导致游泳速度降低12%–26%,流场可视化证实这种现象主要是由鱼鳍之间的尾流干扰引起的。Mignano等人(2024)系统地研究了相位差、水平和垂直间距以及柔顺性对多鳍系统净推力和侧向力的影响,旨在阐明鱼鳍协调的推进机制。H. Qiu等人(2023)研究了胸鳍和尾鳍之间的耦合步态对仿照箱形鱼设计的机器鱼航向稳定性的影响。Ding等人(2022)提出了一种协调控制方法,用于减轻机器鱼的头部振荡。Wang等人(2025)提出了一个基于数据驱动的鱼鳍-身体协同运动模型,通过计算流体动力学模拟揭示了胸鳍和身体之间的协作推进机制。开发的流体动力学模型为多鳍仿生机器鱼的有效设计提供了理论支持。先前的研究表明,结合多个鱼鳍可以显著提高机器鱼的性能,包括推进效率、稳定性和机动性。受这些发现的启发,我们认为采用多鳍配置也可以作为提高机器鱼航向稳定性的有效策略。

尽管多鳍配置可以显著提高机器鱼的运动性能,但由于鱼鳍之间的非线性和动态相互作用,实时协调多个鱼鳍仍然是一个具有挑战性的任务。强化学习(RL)作为一种数据驱动的方法,为解决这类复杂的控制问题提供了新的可能性。近年来,RL在仿生机器鱼的动态控制中受到了广泛关注,并在各种任务中取得了显著成果。具体来说,Feng等人(2024)提出了一种深度强化学习算法,用于解决机器鱼在涡流场中的导航问题,实现了在复杂涡流环境中的高效和稳健的目标到达,并显著提高了自主导航能力。Cui等人(2024)开发了一种结合扩展压力感应、Transformer模型和策略转移机制的深度RL方法,优化了仿生机器鱼的运动策略,提高了推进效率并降低了能耗。Zhang等人(2024)提出了一个集成高保真流体模拟和软Actor-Critic RL的仿真框架,通过视觉导航和侧线感应实现了在复杂流场中的自主决策。Sun等人(2023)设计了一种结合深度RL和模仿学习的多鱼群控制策略,使多个仿生机器鱼能够在复杂的水下环境中协作和稳定地游泳,从而提高了群控制的智能和实用性。Duraisamy等人(2023)将遗传算法与深度RL结合,实现了仿生机器鱼的数据辅助建模和控制优化。C. Qiu等人(2023)引入了反应轮和多智能体强化学习,实现了更稳定和高精度的机器鱼路径跟踪控制。然而,大多数这些研究仅限于仿真。仿真与现实世界环境之间的差距——如噪声、延迟和建模误差——阻碍了直接应用并降低了性能。因此,在真实的物理环境中进行有效训练仍然是一个关键挑战。

在这项研究中,我们将胸鳍和尾鳍的协调运动整合到多鳍仿生机器鱼中,并提出了一种结合Q学习和CPG控制方法的新型轻量级航向控制策略。介绍了配备两个主动柔顺胸鳍的机器鱼的设计,并详细介绍了Q学习增强的CPG方法。通过在静水和湍流条件下的广泛实验验证了所提出策略的有效性。本文的贡献有两个方面:一方面,提出了一种新的航向控制框架,通过Q学习增强的中枢模式发生器(CPG)协调两个柔顺的胸鳍和尾鳍;另一方面,实验表明,在静水和湍流条件下的表现优于传统的航向控制方法(如PID控制)。具体来说,该方法在20°的目标角度下将航向误差从2.7624°降低到-0.1507°,标准差从3.3176°降低到2.4441°,准确度提高了94.55%,稳定性提高了26.33%。结果表明,该策略赋予了机器鱼强大的航向稳定性和抗干扰能力。

本文的其余部分组织如下:第2节介绍了多鳍机器鱼的结构设计;第3节详细介绍了基于CPG的运动控制方法;第4节介绍了基于强化学习的航向控制策略;第5节描述了实验平台的设置和机器鱼的训练过程;第6节通过实验验证了所提出控制策略的性能;最后,第7节总结了本文并指出了未来研究的方向。

**多鳍机器鱼的设计**
与大多数仅依赖单一推进结构(如尾鳍或胸鳍)的现有仿生机器鱼不同(Behbahani和Tan,2016;Katzschmann等人,2018;Triantafyllou和Triantafyllou,1995;Yu等人,2019),本研究提出的多鳍机器鱼采用了结合胸鳍和尾鳍的协同推进机制来提高机动性。我们之前的研究表明,这种胸鳍和尾鳍的协调使用...

**多鳍机器鱼的运动控制**
CPG是一种受生物神经系统启发的非线性振荡器网络,能够在没有外部节拍的情况下自主生成稳定的周期性信号。它广泛用于产生和控制仿生机器人的复杂节奏运动(Xie等人,2019)。为了实现多鳍机器鱼的协调推进和姿态调节,本研究基于中枢模式发生器设计了一个多鳍协同控制模型。

**基于Q学习的航向控制策略**
为了解决仿生机器鱼在复杂水环境中的航向控制挑战,本文将胸鳍和尾鳍的协调运动纳入机器鱼的航向控制研究,并开发了一种基于强化学习的航向控制策略。考虑到多鳍结构中的耦合复杂性和嵌入式平台的计算资源有限,这项工作受到了轻量级强化学习的启发...

**实验环境**
由于实验现场条件的限制,以及为了高效地进行多鳍仿生机器鱼的训练并提高训练效果,我们独立设计并构建了一个专为航向控制任务定制的实验平台。该平台允许机器鱼在水箱内安全固定,同时允许其在水平面上自由旋转,从而能够实时反馈航向角度并验证控制效果...

**实验**
为了验证所提出的航向控制策略在复杂和不可预测的流体环境中的鲁棒性和适应性,本节设计并进行了多项实验。重点评估了该策略在实际操作中的实时控制性能。具体来说,实验包括在静水条件下与传统PID控制策略的比较测试,以及抗干扰测试...

**结论与展望**
本文提出了一种利用胸鳍和尾鳍协调运动的多鳍仿生机器鱼,并提出了一种结合Q学习和CPG的新型航向控制策略。在这种方法中,Q学习用于动态环境中的决策,而CPG协调胸鳍和尾鳍的运动。所提出的策略具有轻量级设计,能够在资源受限的嵌入式平台上成功部署。为了验证其有效性...

**作者贡献声明**
左启阳:撰写——审稿与编辑、监督、方法论、资金获取、形式分析、数据管理。
梁林:撰写——原始草稿、软件、方法论、调查、形式分析、数据管理、概念化。
高新怡:软件、方法论、调查、形式分析、数据管理。
李一阳:软件、方法论、调查、形式分析、数据管理。
耿家子:软件、方法论、形式分析、数据管理。
易正坤:验证...

**利益冲突声明**
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

**致谢**
本研究得到了国家自然科学基金(编号52305320)、深圳市科技计划(编号20231123170601001)、天津市科技计划(编号24YFYSHZ00040)、深圳大学高层次人才科研启动基金(编号6023330005K)、深圳理工大学博士后后期资助项目(编号6023271006K)、广东省特殊支持计划领军人才(编号2021TX05Z041)和深圳的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号