《TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES》:Resilient multi-agent reinforcement learning for centralised tactical conflict resolution under uncertain perturbations and non-cooperative traffic in urban air mobility
编辑推荐:
战术冲突解决在复杂非合作环境中的应用研究,提出基于多智能体强化学习的中央化解决方案,通过扰动建模评估鲁棒性,结果显示受扰训练模型在非合作场景下安全违规减少三倍,但存在动态意图下的脆弱性,同时验证了现有空域分类整合UAS的挑战。
罗道夫·弗雷蒙德(Rodolphe Fremond)| 徐扬(Yan Xu)| 赵俊杰(Junjie Zhao)| 安东尼奥斯·措尔多斯(Antonios Tsourdos)| 戈坎·伊纳尔汉(Gokhan Inalhan)
英国贝德福德郡贝德福德市克兰菲尔德大学(Cranfield University)工程与应用科学学院
摘要
本研究探讨了在性能下降的条件下,以及存在非合作性的无人机系统(UAS)/城市空中交通(UAM)与有人驾驶的商业航空运输(CAT/GA)入侵者的情况下,无人机系统(UAS)和城市空中交通(UAM)操作的战术性冲突解决方法。该研究采用了基于中心化的安全网方法,构建在无人机交通管理(UTM)架构中,并设想了基于地面的冲突解决服务。我们提出了一套战术性冲突解决器(TCRS),每个解决器都基于多智能体强化学习(MARL)核心,采用共享策略的Transformer架构,并以分散的方式执行。为了评估TCRS变体的韧性,我们引入了特定领域的扰动因素,包括定位噪声、通信丢失和传感器相关缺陷。TCRS在非合作交通环境中具有部分决策能力,而扰动模型通过模拟不同程度的信息可用性来增加现实性。结果表明,经过扰动训练的模型与在理想条件下训练的基线TCRS相比,实现了显著的安全提升。最具韧性的变体在多扰动环境下训练,并在非合作环境中进行评估,与基线相比,关键安全违规行为减少了三倍,并且在具有静态意图的混合合作/非合作交通环境中仍然表现出色。在具有动态意图的完全非合作场景中,它表现出适度的脆弱性。涉及商业航空运输(CAT/GA)和无人机系统(UAS)同时运行的模拟进一步表明,当受到短预见范围和反应时间不足的限制时,将UAS操作整合到现有的空域分类中仍然存在风险。
引言
先进的空中交通(AAM)概念旨在扩展非常低空(VLL)高度下城市、郊区和农村地区的空域使用。这种扩展带来了重大的安全挑战,因为操作经验有限;操作的新颖性、靠近地面基础设施和人员、交通密度增加以及不同空域用户之间的复杂交互。应对这些挑战需要开发新的无人机系统(UAS)交通管理(UTM)系统,以补充和现代化现有的空中交通管理(ATM)框架(Efthymiou, 2023; 欧盟委员会, 2024)。战术性冲突解决是当前ATM系统和新兴UTM概念和服务中的最后一道安全防线(欧盟委员会, 2021a; 欧盟委员会, 2021b)。尽管尚未正式建立标准化和统一的定义,但它可以被描述为旨在及时缓解至少涉及两架飞机的短期空中碰撞危险的实时决策过程(国际民航组织, 2016)。它包括一系列时间紧迫的程序,旨在通过解决冲突轨迹来确保操作安全,通常在几秒到几十秒的时间范围内完成。在现有的方法中,强化学习(RL)作为一种有前景的范式出现,它与战术性冲突解决的核心要求高度契合:它使智能体能够通过动态交互优化长期安全结果,并适应不可预见的冲突配置。重要的是,RL提供了将决策能力扩展到任意复杂的多智能体场景的能力,同时保持一致的推理时间。
尽管在UTM的战术性冲突解决方面进行了积极的研究,但仍存在几个关键领域尚未得到充分探索:
•城市规模的适用性:现有方法难以有效应对涉及自主或半自主UAS的高密度城市规模操作的挑战。虽然碰撞避免(CA)已经进行了大量研究,但许多方法是在理想化条件下开发的,缺乏适合实际实验和部署的集成。CA方法通常缺乏与检测与避免(DAA)标准的比较评估,从而质疑其与正在开发的机载碰撞避免系统(ACAS)的兼容性,进而质疑战术性冲突解决协议的协调性。
•互操作性限制:即使那些旨在泛化的去中心化方法也假设所有参与者使用相同的设备,这限制了互操作性和可扩展性。能够管理异构机队的集中式和协作机制仍然相对较少被探索。
•在数据降级下的韧性:尽管许多研究考虑了环境不确定性,但很少有研究评估冲突解决系统在数据降级条件下的表现,例如在城市环境中特别相关的GNSS干扰或通信丢失因素。
•非合作操作:涉及非合作交通的冲突场景,包括混合有人驾驶和无人驾驶操作,很少被整体考虑。现有工作通常将这些情况孤立起来,没有解决共享空域的全部操作和安全影响。
本研究通过引入一套基于多智能体强化学习(MARL)系统的战术性冲突解决器(TCRS)来推进UTM的现状,作为概念性中心化服务的主要组成部分。虽然集中式架构主要用于澄清操作背景(基于地面而非机载的CA),但这项工作的关键创新在于引入了扰动建模和在降级和不确定条件下的解决器韧性评估。这些解决器的设计旨在确保基于MARL的战术性冲突解决在数据质量下降和城市空域中的非合作交通环境下的韧性。本研究的主要贡献总结如下:
1.我们提出了一种新颖的集中式MARL框架,用于UTM中的战术性冲突解决,旨在跨走廊类型(单独或共享)、交通密度和操作约束(例如速度多样性和超车)进行泛化。该框架使用基于Transformer的共享策略模型,通过近端策略优化(PPO)进行训练,智能体在单威胁和多威胁场景中得到协调。这种架构上的澄清增强了可解释性和操作相关性,而不仅仅是代表架构上的创新。这项工作扩展了我们之前的研究(Fremond等人,2024),主要进展在于引入了扰动机制和在符合美国国家航空航天局(NASA)和联邦航空管理局(FAA)关于UAS和UAM操作愿景的实际操作条件下的韧性分析(FAA, 2023)。
2.为了解决由于UAS/UAM操作和环境因素固有的不确定性导致的数据降级问题,我们引入了一套扰动模型,用于捕捉不确定性的关键方面(而不是试图穷尽所有可能的来源)。这些扰动作为评估基于MARL的TCRS框架在现实操作降级下的鲁棒性和适应性的基础。我们的操作环境包括以下随机不确定性:
•GNSS位置扰动针对两个置信水平进行了建模,包括持续的跟踪和时间相关的噪声。
•通信干扰事件被建模,在此期间操作可能会暂时从UTM环境中消失。
3.此外,我们引入了一个反映系统级故障的扰动模型,包括来自解决器内部处理或UAS传感器测量的误差以及人为因素的误差。这些合成不确定性分为以下几类:
•处理错误信息:一个状态元素有偏差但未被检测到,看起来具有合理的值。
•处理异常信息:一个状态元素有偏差并被正确检测为异常。
•信息缺失:一个状态元素缺失并被检测到,促使系统为其分配一个默认值以进行补偿。
4.为了进一步评估解决器在恶劣环境中的韧性,我们在模拟环境中引入了非合作交通。这考虑了未经授权的空域渗透风险增加以及UAS与商业航空运输(CAT)和通用航空(GA)之间的冲突增加。在这种设置中,30架UAS中有最多29架表现出非合作行为,测试了静态和动态意图的情况,以及最多4架CAT/GA飞机通过三种不同的冲突配置。
本文的结构如下:第2节回顾了战术性冲突解决的最新进展。第3节介绍了强化学习在战术性冲突解决中的基础,第4节介绍了空域和非合作环境建模,第5节介绍了研究的核心方法,详细说明了RL公式、空域和非合作环境的建模以及所提出的战术性冲突解决器的设计。第6节描述了实验设置和评估结果。第7节讨论了发现及其意义。最后,第8节总结了本文。
节选
战术性冲突解决文献综述
本节回顾了与战术性冲突解决相关的主题文献。第2.1节概述了其基本原则,第2.2节介绍了基于强化学习的方法的最新进展,第2.3节讨论了在数据降级条件下的扰动建模。
强化学习在战术性冲突解决中的基础
本节介绍了将RL应用于战术性冲突解决任务的理论基础。第3.1节提出了RL问题的公式化,第3.2节定义了学习目标。第3.3节介绍了算法方法,然后在第3.4节将其扩展到多智能体框架。这一小节总结了整个部分介绍的关键元素。
空域和非合作环境建模
本节介绍了用于训练和评估TCRS模型的操作环境。第4.1节介绍了空域结构的设计,并解释了我们的研究中如何在其中进行交通操作。
在我们的非合作环境设计中,考虑了两个互补的层面:第4.2节介绍了行为方面,描述了如何将非合作的UAS和CAT/GA操作注入场景中
战术性冲突解决器设计
本节首先在第5.1节提供了TCRS框架的高层次概念概述,然后在第5.2节介绍了支持MARL设计的RL规范。
实验
本节首先在第6.1节介绍了我们的实验场景的设置和配置。然后我们在第6.2节报告了使用基线TCRS模型获得的结果,该模型用于基准测试高级TCRS模型的性能。这些在扰动下训练并在非合作环境中测试的增强模型的结果显示在第6.3节。
讨论
本节首先在第7.1节总结了关键发现,然后在第7.2节对研究中遇到的挑战和限制进行了批判性分析。最后在第7.3节提出了未来工作的方向。
结论
本文提出了一种全面的方法,开发了作为概念性战术性冲突解决器(TCRS)核心的MARL系统,该解决器被视为一个集中的UTM安全网。研究调查了基于MARL的冲突解决在扰动和非合作环境下的韧性。该方法总结如下:
1.创建一个具有不同交通行为和合规水平的非合作沙箱环境。
2.建模嵌入式扰动
写作过程中生成式AI和AI辅助技术的声明
在准备这项工作时,作者罗道夫·弗雷蒙德(Rodolphe Fremond)使用了ChatGPT来:(i) 提高文本的清晰度、流畅性和语法,同时确保整个手稿始终使用美式英语。(ii) 发现整体写作风格中不清楚和异常的长句子。使用此工具/服务后,作者根据需要审查和编辑了内容,并对已发表文章的内容负全责。
CRediT作者贡献声明
罗道夫·弗雷蒙德(Rodolphe Fremond):写作 – 审查与编辑,撰写原始草稿,可视化,验证,软件,资源,方法论,调查,正式分析,数据整理,概念化。徐扬(Yan Xu):写作 – 审查与编辑,验证,监督,项目管理,方法论,调查,资金获取。赵俊杰(Junjie Zhao):监督。安东尼奥斯·措尔多斯(Antonios Tsourdos):监督,资金获取。戈坎·伊纳尔汉(Gokhan Inalhan):监督。