在混合交通中，通过具有冲突感知能力的异构图强化学习实现协作决策

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Simulation Modelling Practice and Theory》：Cooperative decision-making in mixed traffic via conflict-aware Heterogeneous Graph Reinforcement Learning

【字体：大中小】 时间：2026年02月28日 来源：Simulation Modelling Practice and Theory 4.6

编辑推荐：

　　交通信号灯优化与自动驾驶协同控制研究。针对混合交通场景中自动驾驶车辆（CAVs）与人类驾驶车辆（HDVs）交互复杂、传统控制方法适应性不足的问题，提出基于异构图强化学习（HGRL）的冲突感知控制框架，通过构建包含协作与冲突关系的异构图模型，设计稀疏注意力机制约束 unsafe interaction，在SUMO仿真平台验证了其相较于基准方法在通行效率（提升18.7%）和事故率（降低34.2%）上的显著优势

郑国宏|陈一阳|吴志刚|何兆成|曾海鹏

中山大学智能系统工程学院，中国广东省深圳市518107

摘要

交叉路口是城市道路网络中的关键节点，各种不同的交通流在此汇聚。然而，它们也是效率和安全方面的主要瓶颈，尤其是在自动驾驶车辆（CAVs）和人工驾驶车辆（HDVs）共存的混合自动驾驶环境下。传统的控制方案，如交通信号灯或基于优化的调度方法，往往无法捕捉到这种环境下的复杂和不确定的交互行为。我们提出了一种基于异构图的强化学习（HGRL）框架，用于在混合交通流下实现分散式的交叉路口管理。在我们的方法中，交通环境被表示为一个异构交互图，其中边既编码了合作关系，也编码了潜在的冲突。基于这种表示，异构图强化学习控制器使CAVs能够在明确考虑冲突风险的情况下做出适应性和协调性的决策。在SUMO平台上进行的综合模拟显示，所提出的框架在各种CAV渗透率下都表现出有效性、鲁棒性和可扩展性。与强基线方法相比，我们的方法在所有关键性能指标上都实现了持续的改进。

引言

随着城市化的加速和车辆拥有量的快速增长，交通拥堵和事故已成为城市交通管理面临的紧迫挑战。根据INRIX（2020）[1]的数据，2020年纽约市的司机们浪费了100小时的时间，每位司机损失了1486美元，整个城市损失了77亿美元。PEP（欧洲交通、健康和环境计划）报告称，2019年与交通相关的拥堵、事故和环境影响给欧洲造成了近8.2亿欧元的损失。作为城市道路网络中的关键节点，交叉路口集中了大量的交通流量和复杂的车辆操作，因此成为冲突和事故的高发地。美国联邦公路管理局的数据显示，每年发生超过280万起与交叉路口相关的事故，占所有交通事故的44% [2]。因此，提高交叉路口的交通流效率和安全性已成为现代交通管理研究的核心问题。

为应对这些挑战，国家政策越来越强调智能交通系统（ITS）和自动驾驶车辆（CAVs）的部署。通过车对基础设施（V2I）和车对车（V2V）通信，CAV技术有望提高通行能力、降低碰撞风险、改善燃油效率并减少排放 [3]。例如，自2016年以来，美国国家公路交通安全管理局要求所有新车辆都必须配备互联网连接 [4]。国务院发布的最新政策文件 [5] 强调了中国政府对促进CAVs发展的战略重视。同样，美国ITS战略计划（2020-2025）也强调了智能和连接交通控制技术的重要性，将美国置于全球ITS创新的前沿。

尽管政策有所进展和技术不断创新，但在混合交通流下的交叉路口的有效控制策略仍然不够完善。现实世界的交叉路口具有高交通密度、异构车辆组成和频繁的冲突点。在CAVs和人工驾驶车辆（HDVs）共存的混合交通场景中，人类驾驶行为的变化以及CAVs的有限渗透率削弱了传统交通控制策略的有效性。以往的方法——包括基于预约的系统 [6]、预测性调度 [7] 和基于机器学习的自适应控制器 [8]——在提高效率方面显示出潜力，但大多数方法都是为完全连接的环境设计的，或者依赖于过于简化的假设，因此无法捕捉到混合自动驾驶交通中固有的复杂冲突动态。

在这种背景下，明确处理交叉路口的冲突建模变得至关重要。虽然最近的研究已经开始将冲突分析整合到控制框架中——认识到安全和效率必须共同考虑 [9]——但现有方法仍然难以准确捕捉异构交互。此外，实地实验的高风险和高成本使得像SUMO [10] 这样的仿真平台对于开发和测试此类策略变得不可或缺 [11]。

利用这种仿真范式来解决交互建模的核心问题，我们提出了一种新的交叉路口管理框架，该框架在仿真环境中开发和验证，以明确考虑混合交通中的冲突关系。我们的方法侧重于基于异构图的强化学习模型，使用详细的仿真数据进行训练和评估，以捕捉CAVs和HDVs在交叉路口之间的复杂交互。在提出的框架中，车辆被表示为动态交互图中的节点，边既编码了合作关系，也编码了潜在的冲突。然后利用这种图表示来指导多智能体强化学习控制器，使车辆能够做出适应性和协调性的决策。通过结合基于图的状态表示和强化学习，我们的框架在仿真环境中显著提高了交叉路口的效率和安全性。

本文的贡献有三个方面：

•
建模框架：我们构建了一个能够捕捉混合交通交叉路口中合作和冲突交互的基于异构图的冲突感知表示。
•
控制策略：我们提出了一种基于异构图的强化学习（HGRL）框架，该框架将冲突中心的图表示与稀疏注意力机制相结合，仅将消息传递限制在安全关键的交互上。通过将冲突感知的执行约束集成到控制循环中，该框架实现了比传统图强化学习交叉路口控制方法更鲁棒和可解释的决策。
•
仿真验证：我们在不同的CAV渗透率下进行了仿真，并证明我们的框架在交通效率和安全性方面优于基准方法。我们还进行了消融研究以验证所提出设计的有效性。

部分摘录

交通交叉口的表示学习

作为交通流汇聚和分流的关键节点，交叉路口极易发生拥堵和事故。统计数据显示，超过三分之一的交通拥堵和超过一半的交通事故发生在交叉路口 [12]，[13]，[14]。因此，有效的交叉路口管理需要对其交通状态进行精确量化，这是缓解拥堵和降低安全风险的基础。

交叉路口交通

本研究考虑了一个典型的四路无信号交叉路口，在混合交通条件下运行，如图1(a)所示。每个方向（北、东、南、西）被划分为三个专用车道，分别对应左转（L）、直行（C）和右转（R）动作。例如，北行左转动作表示为N-L，南行直行动作表示为S-C。交通需求被随机建模：每条车道上的车辆到达遵循随机过程，

方法论

本节详细阐述了在混合自动驾驶交通流中使用基于异构图的强化学习制定的决策问题，包括基本框架、异构图表示和异构图强化学习（HGRL）。

混合交通

强化学习（RL）算法的训练和评估需要一个合适的仿真环境。我们采用了SUMO，这是一个开源的微观交通模拟器，它不仅包含了成熟的人类驾驶模型，还允许灵活配置交通网络和流量。此外，它确保遵守交通规则、安全要求和物理约束，从而为受控实验和可复制的评估提供了可靠的基础。

讨论

本文提出了一种基于冲突感知的异构图强化学习（HGRL）框架，用于管理CAVs和HDVs的混合交通流。通过明确建模合作和冲突交互，我们的方法捕捉到了传统基于图或基于规则的方法经常忽略的复杂异构动态。集成稀疏的冲突感知注意力机制使模型能够高效地识别安全关键模式。

结论

混合交通交叉路口对安全和高效运行提出了相当大的挑战，因为CAVs不仅需要相互协调，还需要在复杂和动态的条件下与HDVs协调。为了解决这个问题，我们提出了一种基于冲突感知的异构图强化学习（HGRL）框架，该框架明确地对车辆交互进行建模，以实现合作和高效的决策。

我们的主要贡献有三个方面。首先，我们引入了一种基于冲突感知的异构图

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文所述的工作。

致谢

本项工作得到了中国国家重点研发计划（编号：2023YFB4301900）和广东省科技规划项目（编号：2023B1212060029）的资助。作者声明在本文中没有任何财务利益冲突。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号