随着自动驾驶技术的不断发展,确保其在各种道路条件和意外事件下的安全性引起了广泛关注(Hickert等人,2023年;Pendleton等人,2017年;Zhao等人,2024年)。在变化和复杂的交通环境中确保自动驾驶系统(ADS)的安全性和可靠性已成为一个重要的研究领域。评估ADS的鲁棒性需要让其暴露于挑战其决策和响应机制的安全关键场景中。这些场景包括意外的自然灾害(Song等人,2024年)、恶劣的天气条件(Bellone等人,2021年;Jiang等人,2023年)、复杂的交通环境(Liu & Diao,2024年)以及其他道路使用者的不可预测行为。传统的决策和控制策略在这些场景中常常遇到困难,因为它们需要在陌生且动态变化的环境中安全高效地运行。
对抗学习是强化学习(RL)的一种变体,通过引入对抗性环境来增强学习过程,并已被广泛用于提高ADS在安全关键场景中的适应性和鲁棒性(Sharif & Marijan,2022年)。通过模拟各种极端和不常见的交通情况,这种方法训练ADS更好地识别和应对潜在威胁,从而提供了一个有效的训练平台(Padmaja等人,2023年)。这种方法帮助ADS学习更稳健的策略,使其在现实世界的复杂环境中表现得更稳定和可靠(C. Wang & Aouf,2024年;L. Zhang等人,2023年)。
然而,现有的对抗生成方法在对抗性挑战的设计上往往缺乏灵活性和适应性,尽管在提高ADS的鲁棒性方面取得了一些进展(Ding等人,2023年;Ding等人,2023年;Unal等人,2023年)。具体来说,随着对抗性挑战难度的增加,这些方法可能会无意中生成几乎无法解决的自主车辆任务。这反过来会导致过于保守的策略,无法平衡安全性和驾驶效率(Wu等人,2023年)。
基于上述挑战,本文引入了心理学中的最近发展区(ZPD)理论,为对抗学习中的难度设计和可解性调节提供了理论基础。具体来说,ZPD指的是个体在其当前能力水平下无法独立解决问题,但在适当的指导和支持下可以成功完成这些问题的区域(Mathews & Moll,1991年)。这个区域代表了潜在的发展空间。通过将ZPD理论整合到对抗学习框架中,我们的方法在概念上区别于现有的场景生成和对抗训练方法,后者主要依赖于不断增加的对抗强度。与那些常常忽视系统当前决策能力边界并因此倾向于生成无法解决的对抗性任务的方法不同,本研究采用了可解区域调节的视角。特别是,所提出的框架强调了对抗训练过程中任务难度与ADS能力之间的动态对齐。因此,对抗性挑战被引导保持在可学习但又足够具有挑战性的范围内。
我们的贡献包括:
1) 创新的对抗学习框架,整合了心理学理论、专家知识和激励机制。
我们的框架应用了心理学中的ZPD理论,结合专家知识和激励机制,生成极端和罕见的安全关键交通场景。该框架提高了自动驾驶车辆(AVs)在复杂驾驶环境中的适应性和鲁棒性。
2) 新颖的约束公式设计,结合了理想回报上限(IRC)和详细的碰撞严重性分析。
我们为对抗学习设计了一种新颖的约束公式,明确地将IRC与细粒度的碰撞严重性建模相结合。所提出的约束包括个人约束、对抗交互约束和基于IRC的可解性调节。这种公式确保生成的安全关键场景既具有挑战性又可解决,同时防止了退化或过于激进的对抗行为。通过在约束结构中明确建模碰撞严重性,所提出的方法在训练过程中提供了更丰富的安全信号,从而增强了风险意识的学习并提高了整体安全性能。
3) 基于车辆潜在威胁等级(VPTL)的自适应学习调整对抗代理的挑战难度。
对应于ZPD中的外部指导概念,我们引入了VPTL的概念。该概念根据本车的性能和对抗代理在训练期间的干扰能力动态调整训练难度。这种机制确保生成的挑战既不太容易也不太困难,促进了本车的持续学习和适应,同时减轻了传统固定强度对抗训练的局限性。
通过这些贡献,本文提供了一个考虑能力的对抗学习框架,用于安全关键的自动驾驶,为在复杂和不确定的交通环境中平衡挑战性和可解性提供了新的视角。广泛的实验表明,所提出的方法在安全性和任务执行效率之间实现了平衡的权衡,从而提高了在多种驾驶场景中的鲁棒性。