基于ZPD(Zero-Power Distance)的对抗学习在安全关键型自动驾驶中的应用

《Expert Systems with Applications》:ZPD-guided adversarial learning for safety-critical autonomous driving

【字体: 时间:2026年02月10日 来源:Expert Systems with Applications 7.5

编辑推荐:

  自动驾驶安全关键场景中传统强化学习方法在应对不确定性和极端事件时存在局限。本文提出基于最近发展区(ZPD)理论的动态对抗学习框架,通过引入车辆潜在威胁水平(VPTL)机制动态调节训练难度,结合理想回报天花板(IRC)和精细碰撞严重性建模约束,生成可学习的极端安全场景,在SUMO仿真环境中验证其较SAC、TD3等基线方法降低损伤指数20-40%。

  
魏武|侯晓辉|甘明刚|陈杰
北京工业大学自动化学院,中国北京

摘要

确保自动驾驶车辆(AVs)在复杂且安全至关重要的驾驶场景中的安全性和鲁棒性,仍然是推进自动驾驶技术的一个基本挑战。传统的训练方法在应对现实驾驶环境中遇到的不确定性和罕见极端事件时往往存在局限性。为了解决这些挑战,本文提出了一种基于最近发展区(ZPD)的对抗学习框架,旨在提高自动驾驶决策策略在复杂环境中的适应性和鲁棒性。具体而言,该方法将受ZPD启发的指导机制嵌入到对抗学习中,以生成既极端又可学习的安全关键交通交互场景。为了规范对抗行为并保持挑战性与可解性之间的平衡,该框架结合了基于理想回报上限(IRC)的结构化约束和细粒度的碰撞严重性建模。此外,还采用了车辆潜在威胁等级(VPTL)机制,根据本车能力的演变动态调整对抗训练难度,从而促进持续学习和策略适应。实验结果表明,与SAC和TD3等代表性基线方法相比,所提出的方法在各种评估设置中可将损害指数降低约20-40%,同时降低碰撞严重性并保持任务的可执行性。这些结果表明,所提出的框架为改善复杂交通环境中的安全导向学习行为提供了一种可行的方法。

引言

随着自动驾驶技术的不断发展,确保其在各种道路条件和意外事件下的安全性引起了广泛关注(Hickert等人,2023年;Pendleton等人,2017年;Zhao等人,2024年)。在变化和复杂的交通环境中确保自动驾驶系统(ADS)的安全性和可靠性已成为一个重要的研究领域。评估ADS的鲁棒性需要让其暴露于挑战其决策和响应机制的安全关键场景中。这些场景包括意外的自然灾害(Song等人,2024年)、恶劣的天气条件(Bellone等人,2021年;Jiang等人,2023年)、复杂的交通环境(Liu & Diao,2024年)以及其他道路使用者的不可预测行为。传统的决策和控制策略在这些场景中常常遇到困难,因为它们需要在陌生且动态变化的环境中安全高效地运行。
对抗学习是强化学习(RL)的一种变体,通过引入对抗性环境来增强学习过程,并已被广泛用于提高ADS在安全关键场景中的适应性和鲁棒性(Sharif & Marijan,2022年)。通过模拟各种极端和不常见的交通情况,这种方法训练ADS更好地识别和应对潜在威胁,从而提供了一个有效的训练平台(Padmaja等人,2023年)。这种方法帮助ADS学习更稳健的策略,使其在现实世界的复杂环境中表现得更稳定和可靠(C. Wang & Aouf,2024年;L. Zhang等人,2023年)。
然而,现有的对抗生成方法在对抗性挑战的设计上往往缺乏灵活性和适应性,尽管在提高ADS的鲁棒性方面取得了一些进展(Ding等人,2023年;Ding等人,2023年;Unal等人,2023年)。具体来说,随着对抗性挑战难度的增加,这些方法可能会无意中生成几乎无法解决的自主车辆任务。这反过来会导致过于保守的策略,无法平衡安全性和驾驶效率(Wu等人,2023年)。
基于上述挑战,本文引入了心理学中的最近发展区(ZPD)理论,为对抗学习中的难度设计和可解性调节提供了理论基础。具体来说,ZPD指的是个体在其当前能力水平下无法独立解决问题,但在适当的指导和支持下可以成功完成这些问题的区域(Mathews & Moll,1991年)。这个区域代表了潜在的发展空间。通过将ZPD理论整合到对抗学习框架中,我们的方法在概念上区别于现有的场景生成和对抗训练方法,后者主要依赖于不断增加的对抗强度。与那些常常忽视系统当前决策能力边界并因此倾向于生成无法解决的对抗性任务的方法不同,本研究采用了可解区域调节的视角。特别是,所提出的框架强调了对抗训练过程中任务难度与ADS能力之间的动态对齐。因此,对抗性挑战被引导保持在可学习但又足够具有挑战性的范围内。
我们的贡献包括:
1) 创新的对抗学习框架,整合了心理学理论、专家知识和激励机制。
我们的框架应用了心理学中的ZPD理论,结合专家知识和激励机制,生成极端和罕见的安全关键交通场景。该框架提高了自动驾驶车辆(AVs)在复杂驾驶环境中的适应性和鲁棒性。
2) 新颖的约束公式设计,结合了理想回报上限(IRC)和详细的碰撞严重性分析。
我们为对抗学习设计了一种新颖的约束公式,明确地将IRC与细粒度的碰撞严重性建模相结合。所提出的约束包括个人约束、对抗交互约束和基于IRC的可解性调节。这种公式确保生成的安全关键场景既具有挑战性又可解决,同时防止了退化或过于激进的对抗行为。通过在约束结构中明确建模碰撞严重性,所提出的方法在训练过程中提供了更丰富的安全信号,从而增强了风险意识的学习并提高了整体安全性能。
3) 基于车辆潜在威胁等级(VPTL)的自适应学习调整对抗代理的挑战难度。
对应于ZPD中的外部指导概念,我们引入了VPTL的概念。该概念根据本车的性能和对抗代理在训练期间的干扰能力动态调整训练难度。这种机制确保生成的挑战既不太容易也不太困难,促进了本车的持续学习和适应,同时减轻了传统固定强度对抗训练的局限性。
通过这些贡献,本文提供了一个考虑能力的对抗学习框架,用于安全关键的自动驾驶,为在复杂和不确定的交通环境中平衡挑战性和可解性提供了新的视角。广泛的实验表明,所提出的方法在安全性和任务执行效率之间实现了平衡的权衡,从而提高了在多种驾驶场景中的鲁棒性。

相关研究

相关工作

在本部分,我们回顾了与我们的研究相关的文献,重点关注安全自动驾驶的应用、工程和学习系统中的ZPD,以及碰撞建模和安全评估方法。我们的目标是指出当前研究中的不足,并强调我们工作的创新之处。

基于ZPD的对抗学习框架概述

本文提出了一种基于心理学中ZPD理论的对抗学习框架,称为ZPD引导的对抗学习(ZPD-AL),如图1所示。受ZPD的启发,所提出的框架在训练过程中引入了适应性指导,逐步提高AVs在复杂和安全关键场景中的鲁棒性和适应性。
根据ZPD理论,当有适当的指导时,学习者可以完成略超出其当前能力水平的任务

基线和实验设置

1) 基线方法。
为了评估所提出的方法,我们选择了涵盖标准深度RL、模仿学习、安全感知RL和对抗性鲁棒RL的基线方法。
标准的深度RL基线包括深度确定性策略梯度(DDPG)(Lillicrap等人,2016年)、近端策略优化(PPO)(Schulman等人,2017年)、软演员-评论家(SAC)(Haarnoja等人,2018年)和双延迟DDPG(TD3)(Fujimoto等人,2018年);以及生成对抗性模仿学习(GAIL)(

讨论

所提出的ZPD-AL框架在各种复杂的交通环境中表现出强大的性能,评估是在基于SUMO的仿真环境中进行的。该环境能够准确控制和观察车辆状态和交互过程,支持对安全关键决策行为的系统分析。然而,当前的实验设置没有明确建模感知不确定性、传感器噪声或执行器错误

结论

在本文中,我们提出了ZPD-AL,一种受ZPD启发的安全关键自动驾驶对抗学习框架。该框架通过能力感知的难度调节动态调整训练难度,以适应本车决策能力的演变,从而在复杂的交通交互中促进更稳定的学习。此外,可解释的碰撞严重性建模被纳入学习约束中,以支持

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号