双模时间建模强化学习与安全机制：用于混合交通中的高速公路车道变换

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Bimodal temporal modeling reinforcement learning with safety mechanism for highway lane change in mixed traffic

【字体：大中小】 时间：2026年01月28日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　CAVs换道安全与效率优化需建模环境状态与车辆交互关系，通过双模态时间建模强化学习捕捉历史轨迹时空依赖，结合博弈论安全机制动态评估周围车辆策略，实验表明该方法在三种交通场景中显著降低碰撞率并提升平均车速。

徐星|史廷鹏|张张|赵云|王亚丽|米亚楠

浙江科技学院人工智能与信息工程学院，杭州，310023，中国

摘要

联网车辆（CAVs）与自动驾驶车辆（HDVs）以及人工驾驶车辆（HDVs）在驾驶行为上的差异对复杂混合环境中的交通安全和效率有着显著影响。确保CAVs能够安全高效地变道是一个具有挑战性的问题。以往的研究主要集中在设计奖励函数或实施基本约束以确保安全性与效率上。然而，这些方法往往无法模拟观察空间中车辆之间的相互作用，限制了它们对车辆互动和潜在危险的理解。此外，有偏的样本选择会妨碍对时间或历史轨迹的理解，从而导致决策不稳定。为了解决这些问题，我们提出了一种结合变道安全机制的双模态时间建模强化学习算法。该方法允许CAVs模拟关于观察状态和车辆关系的双模态信息。时间模块从历史经验中提取信息，同时在变道过程中评估碰撞风险、评价安全性，并指导策略网络选择最佳行动。我们使用三种不同交通场景下的训练奖励和平均车速来训练和评估我们的方法，测试了碰撞率和平均行驶距离。结果表明，我们的方法在所有三种场景中显著降低了碰撞率并提高了平均车速，证明了其有效性。

引言

近几十年来，联网车辆（CAVs）和自动驾驶车辆（CAVs）作为交通运输领域的一项关键技术出现，它们的自动化和感知能力有望提高交通流效率、减少拥堵并提升道路安全（Cao等人，2022年）。然而，在CAVs与人工驾驶车辆（HDVs）共存的场景中，人类驾驶员的主观决策通常更倾向于最小化行驶成本而非整体效率。驾驶行为的差异、动态交通变化等因素增加了交通的复杂性和不确定性。特别是变道行为在高速公路安全和交通流中起着重要作用。尽管许多先前的方法依赖于固定规则或假设，但这些方法无法适应混合交通环境的动态性和复杂性。在CAVs与人工驾驶车辆（HDVs）共存的混合交通环境中，人类驾驶行为的固有不确定性和异质性显著增加了变道决策的复杂性。许多现有方法依赖于固定规则或简化的假设，这限制了它们对这种动态和交互式交通条件的适应性。变道是车辆行为的一个关键方面，因为许多高速公路事故和拥堵问题都源于不安全或协调不当的变道操作（Ali等人，2020年）。因此，人们越来越关注CAVs在变道过程中的安全性和效率。为了确保CAVs能够安全高效地变道，它们不仅需要根据道路上的物体做出决策，还需要考虑目标车道上其他车辆的反应以及潜在的互动。与传统的基于规则的方法不同，我们提出的方法结合了时间建模和车辆关系动态，使CAVs能够更好地应对变化的交通条件。正确的变道行为对于确保顺畅的交通流、降低碰撞率和减少行驶时间至关重要。因此，对混合交通流中CAVs的行为和影响进行建模，以及探索行驶机制和控制方法是非常重要的。

以往的CAV变道方法，包括基于规则的模型（Cheng等人，2023b）、基于优化的模型（Liu等人，2023）和博弈论模型（Cheng等人，2023a），在复杂、动态的交通场景中通常缺乏适应性和学习能力。这些方法通常依赖于预定义的规则或假设，无法捕捉现实世界驾驶环境中的微妙互动和不确定性。因此，它们难以提升性能并适应不断变化的交通条件。为了克服这些限制，深度强化学习（DRL）提供了变道模型，如深度Q网络（Wang等人，2023）、优势演员-评论家（Moghaddasi等人，2024）和近端策略优化（Huang和Qu，2023），这些模型在学习效率、样本效率和稳定性方面表现出色。这些模型通过与环境的互动学习最优的变道策略，适用于各种应用和环境。尽管设计了精心设计的奖励函数和行为约束，状态信息对于确定代理的决策和奖励至关重要。当前方法仅依赖于观察到的状态信息，缺乏对车辆关系的建模能力。这限制了它们在捕捉复杂交通动态中的动态变化和潜在危险方面的有效性。此外，虽然经验回放可以增强样本利用并利用历史数据，但它受到样本选择偏差的影响，经常忽略时间依赖性，导致模型决策不稳定。另外，基于约束的变道方法通常依赖于静态规则和政策，忽略了目标车道上其他车辆的反应和潜在互动，这削弱了变道操作的安全性。

为了解决上述问题，我们提出了一种新颖的双模态时间建模强化学习（RL）算法，并增强了变道安全机制。与依赖静态假设且在动态环境中表现不佳的传统基于规则或基于优化的方法不同，我们的方法明确整合了时间依赖性和车辆间关系动态。我们使用时间模块来考虑时间依赖性，并构建相应的策略和评论家网络，输出离散的策略概率和价值函数。与基于约束的安全规则相比，我们的博弈论安全机制能够动态适应周围车辆的策略，使模型能够预见潜在的冲突并确保无碰撞的操作。这种集成设计降低了碰撞风险，提高了决策稳定性，并增强了整体交通安全。

为了弥合基于模拟的评估与实际应用之间的差距，采用的交通环境被设计为近似真实的高速公路混合交通条件。具体来说，智能驾驶模型（IDM）和LC2013变道模型在先前的研究中已经得到了广泛验证，能够再现不同交通密度和驾驶风格下的人类驾驶行为。通过结合异构车辆组成、多种交通流量水平和不同的驾驶激进性，模拟环境作为真实高速公路混合交通场景的受控且部分代表性的代理，捕捉关键的互动模式，同时抽象出感知不确定性和基础设施层面的约束，从而实现系统化和受控的变道安全性和效率评估。

与以往的方法相比，我们提出的结合安全机制的双模态时间建模强化学习方法具有几个关键优势。通过建模环境状态和车辆互动，代理可以更好地检测潜在危险并适应复杂的交通动态。时间模块捕捉时间依赖性和历史交通轨迹，使代理能够开发出更加稳健和准确的变道策略。此外，集成的安全机制根据实时交通条件和车辆动态优先考虑安全变道，从而降低碰撞风险并提高整体交通安全。

本文的目的是开发一种变道决策模型，以促进CAVs在混合交通环境中的更安全和更高效的变道行为。我们利用城市流动性模拟（SUMO）（Lopez等人，2018）来模拟HDVs和CAVs在混合交通中的变道收益和演变过程。我们通过训练奖励和平均车速分析不同交通模式的影响，并通过实验评估来评估我们方法的效果，将其与相关研究进行比较以证明其有效性。本文的主要贡献可以总结如下：

(1)
我们以双模态方式对CAVs的观察状态和车辆间关系进行了建模，编码不同的模态数据并提取特征，将其表示合并为统一的特征向量用于决策预测。
(2)
为了增强对时间和历史轨迹信息的理解，我们建模并存储了具有时间上下文的特征向量，利用历史经验来指导策略网络选择最佳行动。
(3)
为了考虑变道过程中的车辆行为和互动，我们结合了一种基于实时交通条件和车辆动态的安全机制，从而优先考虑安全操作，提高了整体安全性。

接下来，在第2节中，我们将介绍相关工作，确定研究空白，并讨论本研究的主要贡献。第3节将描述双模态时间建模强化学习方法及其相关的安全机制。第4节将在SUMO基础上评估所提出的模型。第5节将讨论本研究的重要性，并评估我们结果的优势和局限性。最后，第6节将提供结论和未来工作的展望。

文献综述

车辆的变道行为对驾驶至关重要，显著影响交通流和道路安全。许多高速公路上的交通事故和拥堵都是由不当的变道操作引起的，这使得人们对安全变道问题的关注度不断提高（Monteiro和Ioannou，2023年）。已经开发了多种模拟方法来研究高速公路变道行为，主要关注两个问题：变道决策（Dai等人，2023年）和捕获

问题阐述

当车辆需要避免碰撞或超车时，它们通常会执行变道操作。我们的目标是使CAVs能够在动态交通环境中逐步执行安全高效的变道。除了最大化变道操作的直接奖励外，还要考虑车辆互动并评估变道的安全性，特别是碰撞风险。我们考虑了一个模拟的四车道高速公路场景，其中一辆CAV

仿真设置

在这部分，我们介绍了仿真环境和高速公路变道场景的设计。然后，我们将提出的方法与几种最先进的基线方法在不同交通模式下进行了比较。

在本文中，我们采用了开源的微交通模拟软件城市流动性模拟（SUMO）（Lopez等人，2018）来进行基于双模态时间建模增强方法和基于博弈论的安全机制的仿真研究。

性能解释和建模洞察

研究结果表明，所提出的双模态时间建模强化学习算法和变道安全机制的集成在各种高速公路场景中显示出一致的驾驶安全和效率提升。双模态时间建模的任务是建模CAVs观察到的环境状态与车辆之间关系的双模态信息。同时，时间序列模块用于捕捉时间

结论

在本文中，我们提出了一种结合博弈论安全机制的双模态时间建模强化学习框架，适用于混合高速公路交通中的联网车辆（CAVs）。通过联合建模自我状态信息和车辆间关系，结合历史轨迹的时间依赖性，并通过纳什均衡计算动态适应周围车辆，所提出的方法实现了更安全和更高效的

CRediT作者贡献声明

徐星：撰写——原始草稿、可视化、方法论、调查。史廷鹏：撰写——原始草稿、方法论、调查。张张：撰写——审阅与编辑、方法论、概念化。赵云：监督、方法论、概念化。王亚丽：撰写——审阅与编辑。米亚楠：撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（62476251）；国家重点研发计划（2019YFE0126100）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号