具有多样化对接机制布局的模块化无人水面船（USVs）的并行自组装

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月11日 来源：Robotics and Autonomous Systems 5.2

编辑推荐：

　　本文提出Safety Constrained Imitation Learning（SafeIL），通过双专家演示数据集同步估计奖励函数和安全成本函数，结合独立判别网络实现安全约束下的模仿学习。实验表明，SafeIL在多个仿真环境（如safety-gym、Metadrive）及真实平台（Jackal、RC车）中优于GAIL，约束违反率降低79.6%，并实现零违规。

首尔国立大学电气与计算机工程系及ASRI，韩国首尔冠岳区冠岳路1号，邮编08826

摘要

安全性是控制器设计中的关键问题，然而开发一个能够准确反映安全性的成本函数仍然是一个重大挑战，这类似于设计奖励函数的复杂性。为了解决这个问题，我们提出了安全约束模仿学习（SafeIL）这一创新的安全约束模仿学习框架，该框架使用两组不同的专家演示来同时估计奖励函数和安全成本函数：一组旨在在不考虑安全性的情况下最大化奖励，另一组则专注于在执行过程中避免安全违规。通过使用两个独立的判别器网络，SafeIL能够有效地学习这些函数，从而开发出在保证安全性的同时保持高性能的控制器。我们在包括Safety-gym、Metadrive、CARLA、F1tenth以及Jackal和RC车等真实世界平台在内的多种仿真环境中进行的实证评估表明，SafeIL的性能显著优于现有的方法（如GAIL）。具体来说，SafeIL在Jackal平台上实现了零违规，并且与GAIL相比，在使用以安全为中心的演示时将违规减少了79.6%，这凸显了其在实际机器人应用中提升安全性的潜力。

引言

随着机器人技术在多个领域的快速发展，在日益增加的复杂性中确保安全性变得至关重要。例如，在交通运输领域，自动驾驶车辆需要既高效又严格遵守交通规则。虽然机器人的引入提高了效率和生产力，但主要挑战在于减轻财产损失、人员伤害和财务损失等风险。因此，无论是在优先考虑效率还是在严格的安全部件限制下运行，确保机器人行为的安全性都是机器人技术中的一个关键问题。

模仿学习（IL）是一种在提高机器人安全性方面显示出前景的机器学习方法[1]、[2]、[3]、[4]。在IL中，机器人通过模仿专家演示中的行为来学习执行任务。为了确保安全性，IL利用来自不同专家的演示，提供细致的见解。例如，专家可能专门从事约束的估计。这种多方面的方法使代理能够学习到平衡的动作集，确保在不局限于单一专家模式的情况下学会安全和有效的行为。

为了解决这一挑战，研究人员提出将安全约束整合到IL框架中[5]、[6]。这种方法使机器人能够考虑任务约束，避免不安全的动作，并确保安全性。然而，制定一个能够准确反映状态-动作对安全性的有效成本函数（类似于设计奖励函数）仍然是一项非平凡的任务。此外，稀疏的约束可能会导致在训练代理时遇到困难[7]。

为了解决这些问题，我们引入了一种称为安全约束模仿学习（SafeIL）的算法，这是一种无模型的模仿学习方法，它使用两组专家演示来估计奖励函数和成本函数，分别称为奖励专家和安全专家。第一组数据来自奖励专家，包含高奖励总和的数据；第二组数据来自安全专家，包含最小安全违规的数据。在自动驾驶的背景下，奖励专家可能会优化效率或速度而不考虑安全约束，而安全专家则会优先考虑遵守交通规则和风险缓解。SafeIL使用两个相同但独立的判别器：奖励专家判别器用于学习奖励函数，安全专家判别器用于学习成本函数。

我们对所提出算法收敛到鞍点的数学分析进行了验证，并通过实证实验证明了其有效性。我们的实验表明，所提出的方法在Safety-gym[8]、Metadrive[9]、CARLA[10]、F1tenth[11]和Jackal模拟器环境[12]中成功提取了成本函数，并实现了最低的违规次数。值得注意的是，在从模拟到真实的Jackal平台实验中，SafeIL实现了零违规，表现优于其他基线方法。此外，我们还在从F1tenth模拟器到真实世界RC车的实验中实施了所提出的算法，进一步验证了该方法的有效性。这些结果凸显了SafeIL在各种机器人应用中确保安全性同时实现高性能的潜力。

本文的贡献可以总结如下：

我们提出了一种名为安全约束模仿学习（SafeIL）的新方法，该方法使用两组不同的专家演示同时学习奖励函数和成本函数，并生成一个确保安全的控制器。
与现有的模仿学习（IL）方法相比，所提出的方法表现出更优越的性能，包括那些使用真实成本函数或使用安全专家数据作为专家轨迹的方法。
我们在包括仿真和真实世界环境在内的多种环境中评估了所提出的算法，证明了其优越性。

模仿学习

许多模仿学习方法[2]、[5]、[13]、[14]侧重于通过机器学习复制专家演示来训练机器人控制器。生成对抗性模仿学习（GAIL）[2]标志着一个重要的进步，它展示了策略和判别器网络更新的收敛性，促进了代理的同步训练和奖励函数的估计。Li等人[13]引入了信息最大化正则化，以实现多个代理的生成

安全强化学习

安全强化学习（safe RL）解决了受限马尔可夫决策过程（CMDP）[23]问题，在这种过程中完整模型是未知的。在这个框架中，代理的目标是在满足特定约束的同时最大化其回报。CMDP由状态空间

S

、动作空间

A

、奖励函数

R (s, a) \in R

、成本函数

C (s, a) \in R_{\geq 0}

、转移模型

T

、折扣因子

γ

和初始占用度量

ρ

定义。这些元素定义了价值函数、Q值和优势函数

安全约束模仿学习

在本文中，我们旨在为机器人控制问题发现一个最优策略

\overset{?}{π}

，该策略具有高奖励总和和低违规次数。为此，我们使用两种不同的策略同时估计奖励函数和成本函数。第一种策略是奖励专家策略（

π

），它仅考虑最大化奖励总和而不考虑任何约束。第二种策略是安全专家策略（

π

），它专门设计用于避免任何安全违规

实验

我们在六个不同的领域评估了SafeIL：Safety-gym[8]、Jackal模拟器（JackalGoal）[12]、Metadrive[9]、F1tenth模拟器以及实际的Jackal和RC车平台。在Safety-gym、Jackal模拟器、Metadrive和F1tenth仿真中，SafeIL与仅在安全专家数据上训练的标准GAIL[2]算法进行了基准测试。我们还将SafeIL与GAIL-CPO[15]进行了比较，后者结合了CPO和GAIL，同时使用了奖励专家数据

结论

在本文中，我们介绍了一种名为SafeIL的模仿学习新方法，该方法使用两种不同类型的专家演示来估计奖励函数和成本函数，并同时设计一个确保安全的控制器。此外，我们从数学和实证上证明了算法的收敛性。SafeIL在成本函数中考虑了当前状态和动作的安全性，从而导致了更安全的动作。我们的实证实验表明，SafeIL的性能优于

CRediT作者贡献声明

李 Gunmin：撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、方法论、数据整理、概念化。许 Jaeseok：可视化、验证、软件、方法论、数据整理。金 Dohyeong：方法论、数据整理。崔 Geunje：可视化、验证。吴 Jeongwoo：可视化、验证。黄 Minyoung：可视化、验证。朴 Chanwoo：方法论。李 Kyungjae：撰写 – 审稿与编辑、撰写 – 原始草稿、方法论

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT来进行风格编辑和图1的插图制作。使用该工具/服务后，作者根据需要对内容进行了审查和编辑，并对发表文章的内容负全责。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：吴 Songhwai报告称获得了科学和信息通信技术部（MSIT）的财务支持。如果还有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

这项工作得到了信息与通信技术规划与评估研究所（IITP）的资助，该研究所由韩国政府（MSIT）资助（项目编号：RS-2019-II191190，[SW Star Lab] 机器人学习：高效、安全且社会可接受的机器学习）。

李 Gunmin于2019年在韩国首尔国立大学获得电气与计算机工程学士学位。他目前是首尔国立大学电气与计算机工程系的博士生，师从吴 Songhwai教授。他的研究兴趣包括不确定性、模仿学习、自动驾驶和安全强化学习。

联系信箱：

粤ICP备09063491号

摘要

引言

模仿学习

模仿学习

安全强化学习

安全约束模仿学习

实验

结论

CRediT作者贡献声明

写作过程中生成式AI和AI辅助技术的声明

利益冲突声明

致谢

热点排行