通过细粒度自适应信号控制实现队列分布平衡:一个D3QN-Transformer-PER框架

《Expert Systems with Applications》:Towards balanced queue distribution via Fine-Grained adaptive signal Control: A D3QN-Transformer-PER framework

【字体: 时间:2026年02月23日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本研究提出了一种集成Transformer状态编码器、D3QN和PER的深度强化学习框架,用于自适应交通信号控制,有效减少延误和队列长度。

  
杨玉冰|李海健|孟伟哲
北京工业大学交通工程重点实验室,中国北京,100124

摘要

本研究提出了一种新颖的深度强化学习框架,该框架结合了基于Transformer的状态编码器、Dueling Double DQN(D3QN)和优先经验回放(PER)算法,用于自适应交通信号控制。该框架通过单元分解方法实现细粒度的状态表示,并设计了一个结构化的动作空间,该空间包含离散的相位持续时间对,使智能体能够根据实时队列压力自适应地选择下一个信号相位,并在预定义的范围内对绿灯时间进行细粒度调整。广泛的评估表明,与基线D3QN模型相比,该框架在多种交叉口配置下的性能更优,平均延迟减少了38%,队列长度减少了36%。在典型的3×3交叉口配置中,所提出的模型平均队列长度至少减少了21.3%。系统的消融研究证实了各个架构组件对提高学习稳定性的协同作用。该框架在各种交通扰动下表现出很强的鲁棒性,在中等波动下队列长度减少了8.4%,在高方差场景下进一步改善了5.3%。此外,微观时空轨迹分析实证验证了该框架在极端条件下防止队列溢出和维持系统整体平衡的能力。这种适应性确保了所有车道组的队列分布平衡,有效将拥堵形成与潜在的交通需求模式解耦。

引言

作为人口密集的核心区域,城市交通拥堵问题日益严重。机动车拥有量的快速增长不仅加剧了碳排放和空气污染,还由于长距离通勤延误引发了居民的焦虑、易怒和其他心理健康问题(Wegener等人,2021年)。在城市道路网络中,交叉口是交通流的汇聚和分流节点,频繁的车辆停车、等待、启动和加速使其成为限制道路网络整体运营效率的主要瓶颈(Gao等人,2024年)。交叉口拥堵占城市交通延误的主要部分,尤其是在高峰时段,此时车辆延误和停车频率显著增加(Li等人,2026年)。
传统的交通信号控制方法(固定时间控制、激活控制和早期自适应控制)在一定程度上规范了交通流,但它们都存在局限性,如缺乏实时适应性和决策灵活性不足。这些方法难以应对现代交通的动态复杂性,导致车辆频繁启动和停止,以及燃料消耗和排放增加(Dotoli等人,2006年;Li等人,2024年)。近年来,能够实时调整控制参数的自适应交通信号控制策略已被证明明显优于传统方法(例如,结合实时交通密度的策略将响应速度提高了30%(Ma等人,2021年)。连接车辆(CAVs)和自动驾驶车辆(AVs)的快速发展进一步加速了这一技术范式的转变,通过V2X通信技术,CAVs提供了高分辨率的实时交通数据,为数据驱动的细粒度自适应控制奠定了坚实基础,使交叉口控制从“被动适应交通流”转变为“主动引导”(Zhang等人,2022年;Zhou等人,2019年)。
强化学习(RL)及其深度扩展(深度强化学习,DRL)在交叉口信号控制领域展示了巨大的应用潜力,因为它们能够在没有预设数学模型的情况下独立学习最优策略(Peng等人,2025年)。许多DRL算法(如DQN、DDPG、PPO)已被集成到交通信号控制(TSC)框架中,研究从单一算法部署发展为结构优化(例如,集成模型预测控制(MPC)和优先经验回放(PER)机制以提高性能(Shabestary和Abdulhai,2022年;Jiang等人,2024年))。尽管现有的基于DRL的TSC方法取得了显著进展,但在面对复杂的真实世界交通环境时仍存在三个核心限制:首先,状态表示难以有效捕捉多车道之间的复杂空间依赖性,未能充分利用CAVs的高分辨率数据优势;其次,动作空间局限于单一控制维度,无法实现“相位选择和细粒度时间调整”的集成优化;第三,样本效率低,学习稳定性不足,使得策略在随机交通扰动下容易振荡。这些限制直接限制了它们的实际应用价值,需要针对性的技术解决方案来突破。
因此,为了弥合这些研究空白并解决现有方法的局限性,本研究提出了一种用于CAV环境中自适应交通信号控制的新深度强化学习(DRL)框架。该框架结合了基于Transformer的状态编码器来捕捉复杂的空间依赖性,Dueling Double Deep Q-Network(D3QN)用于稳定的价值估计,以及PER机制来提高学习效率。从细粒度的交通数据构建了结构化的状态表示,而解耦的动作空间使得相位选择和绿灯时间的联合优化成为可能。在高保真模拟环境中进行的全面实验验证了该框架在多种交叉口布局和动态交通条件下的有效性,显示出比最先进的DRL基线和传统激活控制方法一致的优势。本研究的主要贡献如下:
  • (1)
    本研究提出了一个集成的DRL框架,系统地结合了Transformer编码器、D3QN和PER,解决了空间表示、控制灵活性和在高动态交通条件下的学习稳定性方面的关键挑战。
  • (2)
    所提出的框架采用了一种结构化的状态-动作公式,通过基于单元的状态编码方法利用高分辨率交通数据,并支持在统一控制策略内的协调相位选择和细粒度时间调整。
  • (3)
    广泛的实验表明,所提出的框架在多种交叉口配置下显著减少了平均延迟和队列长度,同时在随机交通扰动下保持了强大的鲁棒性,并实现了平衡的队列分布——证实了其在自动驾驶环境中的实际应用潜力。
  • 本文的结构如下。第2节回顾相关文献并确定现有研究空白。第3节介绍了所提出的方法论框架和决策过程的构建。第4节通过全面的基准测试和在不同交通场景下的鲁棒性测试评估了模型的性能。第5节详细讨论了实验发现和理论见解。最后,第6节总结了研究并概述了未来研究的方向。

    相关工作

    相关工作

    在本节中,我们对相关文献进行了全面回顾,重点关注三个核心方面:交通信号控制方法的演变、DRL在TSC中的应用,以及基于DRL的TSC的马尔可夫决策过程(MDP)建模元素的设计。

    孤立交叉口的信号控制建模

    孤立交叉口的信号控制问题是城市智能交通系统中的一个基本局部优化任务。其核心目标是动态调整每个交通信号相位的控制参数,以实现交叉口吞吐量和拥堵水平的实时调节。为了系统地描述解决过程,我们将控制系统抽象为智能体-环境交互,并在

    实验设置

    所有训练和评估都在SUMO(城市移动性模拟)微观交通模拟平台上进行。道路网络拓扑和车辆输入参数直接来自Ducrocq和Farhi提出的开源单交叉口配置套件(Ducrocq & Farhi,2023年),该套件包括三种不同的交叉口配置:2×2、3×3和4×4。这些配置涵盖了

    讨论

    实验结果证实,我们提出的基于DRL的框架在测试条件下有效提高了交通信号控制效率,这与基于模型的强化学习领域的现有研究结果一致(Sun等人,2025年)。至关重要的是,该框架展示了将队列积聚与交通需求解耦的强大能力,有效防止了局部交通瘫痪。这种能力归因于

    结论

    本研究提出了一种D3QN-Transformer-PER深度强化学习(DRL)框架,用于自适应交通信号控制,该框架结合了基于Transformer的状态编码器(通过单元分解捕捉细粒度的交通动态)、结构化的动作空间(在操作约束下解耦相位选择/持续时间)和复合奖励函数(同时优化队列长度和延迟)。在SUMO中进行评估,该框架的性能优于DRL

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号