利用深度强化学习的混合动作空间方法进行交通信号优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers & Operations Research》：Hybrid action space approach to traffic signal optimization using deep reinforcement learning

【字体：大中小】 时间：2026年01月30日 来源：Computers & Operations Research 4.3

编辑推荐：

　　提出混合动作空间深度Q网络（H-DQN）框架优化动态交通信号控制，通过两层级相位与绿灯时长协同优化和简化的状态空间设计，动态奖励函数提升实时适应能力。SUMO仿真验证显示，H-DQN在稳定、非稳定及复杂流量场景下平均队列减少21.58%-49.43%，车辆速度显著提升，且计算效率更高。

南京工业大学交通工程学院，中国南京211816

摘要

具有时变需求的交通路口在实现自适应信号时序优化和动态交通均衡方面面临持续挑战。现有的深度强化学习方法主要采用离散动作空间，这限制了这些方法应对复杂时空交通动态的能力。本研究提出了一种基于混合动作空间的深度Q网络（H-DQN）框架用于交通信号控制，并通过多维性能指标评估其在动态交通条件下的优化效果。首先，本研究将相位策略选择和持续时间设置视为两级协同优化，从而提出了一种精细的混合动作决策机制，该机制结合了用于信号相位和绿灯持续时间联合决策的双层架构。其次，状态空间通过整合车道饱和度、排队长度和所有交叉口车道当前的绿灯相位来定义。同时，奖励函数基于连续采样间隔之间车辆数量的时间变化构建，能够在确保计算效率的同时动态适应实时交通变化。最后，本研究在三种交通场景下对模型进行了验证：速度稳定的均匀交通、速度稳定的非均匀交通以及到达率变化的复杂交通。结果表明，与DQN方法相比，所提出的H-DQN模型显著提高了所有三种交通场景下的交叉口吞吐效率，平均排队长度分别减少了21.58%、49.43%和44.92%。与Q-learning相比，平均排队长度的减少幅度分别提高了86.32%、87.61%和84.51%。同时，H-DQN模型在提高平均车速的同时最小化了延误、燃油消耗和车道占用率，从而显著提升了交叉口的运营效率和交通吞吐量。

引言

城市交通拥堵问题日益严重，而传统的基于历史数据的静态预定义时序方案的交叉口信号控制系统无法适应实时交通流动态（J. Zhang等人，2025年；Genders和Razavi，2018年）。因此，优化信号时序参数并设计相位序列以调节交通流动态并最大化现有基础设施的运营能力可以有效减少交通延误并提高交叉口吞吐量（Shaikh等人，2022年）。

在传统的交通信号控制方法中，固定时间信号控制方法（Dion等人，2004年）依赖于预定义的时序参数来调节信号相位和周期，缺乏对动态交通条件的适应性，导致运营效率不佳（Yue等人，2022年）。最长队列优先（LQF）策略根据实时排队长度测量来优先分配绿灯相位，但计算成本高，并可能忽视所有交叉口方向的公平性（Smith等人，2023年）。自组织方法（Cesme和Furth，2014年；Varaiya，2013年；Faqir等人，2023年）依赖于车辆与基础设施之间的通信来实现分散式交通协调，但这需要较高的技术基础设施支持，并面临重大的实际实施挑战。Wei等人（2018年）利用中国济南部署的1,704个交通摄像头的真实世界监控数据证明，传统的信号控制方法不适合交通动态性极高的交叉口，导致交通延误延长和道路容量利用效率低下。

强化学习（RL）和其他先进技术在交通信号控制中的应用已成为一个重要的研究领域（Yu等人，2023年；Shakya等人，2023年；Nian等人，2020年）。Genders和Razavi（2020年）提出了一种使用两种RL算法（异步Q学习和主导演员-评论家）的自适应交通信号控制框架。状态表示根据车道标准化密度和排队长度统计数据进行设计，有效地捕捉了实时交通动态，从而提高了交叉口的运营效率。Liu等人（2023年）通过结合重要性函数和环境奖励信号改进了教师-学生范式，同时减少了超参数需求并降低了模型复杂性，实现了交叉口平均行驶时间6.2%的减少。为了平衡RL中的偏差-方差权衡，Yang（2023年）提出了一种分散式多智能体协作图算法，该算法通过交通信号相位控制矩阵纳入了相邻交叉口距离，实现了平均车辆延迟大约8.72%和平均行驶时间大约10.84%的减少。Qiao等人（2023年）引入了一种基于指数加权移动平均的动态延迟更新方法，以缓解传统TD3算法中固有的Q值高估问题，从而增强了分散式智能体在多智能体交通信号控制系统中的全局策略优化能力和鲁棒性。

深度强化学习（DRL）提供了一种更具适应性和效率的解决方案，具有更强的泛化能力（Haydari和Yilmaz，2022年），它利用了深度学习的强大表示能力和强化学习的决策优化优势（Sutton和Barto，1998年）。这种整合使DRL能够有效处理高维和连续状态空间，从而便于其在复杂交通环境中的应用（Gao等人，2024年；Kang等人，2024年）。与依赖于精确环境模型预测的传统RL算法不同（Zhu等人，2023年），DRL能够自主识别最优策略并通过自我驱动学习实现实时策略更新，消除了对显式环境建模的需求（Yazdani等人，2023年）。

因此，DRL已成为实时交通信号控制的关键学习范式。W. Zhang等人（2023年）提出了一种基于近端策略优化（PPO）框架的可扩展多智能体强化学习（MARL）算法，解决了交通系统非平稳性导致的收敛挑战，从而提高了交通信号之间的协调效率。Wang等人（2025年）开发了一种基于PPO的交通信号控制方案，设计了简化的状态表示和一致的奖励函数。本研究分析了三个时间间隔对智能体效率的影响。在高峰条件下，PPO-TSC将平均行驶时间减少了24%，平均时间损失减少了45%，平均速度提高了16%，与现有方法相比。Bouktif等人（2023年）提出了一种状态和奖励一致性的交通信号控制框架，结合了双层Q网络架构并在分散式多智能体系统中优先考虑了经验回放。这种方法使交叉口的平均行驶时间减少了40%以上，而惩罚机制的引入进一步将排队长度减少了35%，证明了系统的优化效率和拥堵缓解效果。

大多数基于DRL的交通信号控制研究假设交通条件是静态的，车辆到达率是恒定的，然而现实世界的交通流表现出高动态性的非平稳行为（Xu等人，2023年；Du等人，2022年；Eriskin等人，2022年；Chai等人，2017年）。此外，当前DRL框架中的交通信号控制方法经常使用离散动作空间（Genders和Razavi，2018年；Wei等人，2018年；Qiao等人，2023年）。表1总结了不同典型交通信号控制研究的特点，并将其与本研究进行了对比。

在先前研究的基础上，本文提出了一种基于混合深度Q网络的交通信号控制方法，该方法采用混合动作空间，旨在提高在动态交通条件下的决策灵活性和适应性。主要贡献总结如下：

•

本文提出了一种结合了DRL技术的H-DQN框架，该框架设计了一种混合动作空间决策机制。在相位转换期间，智能体根据其控制策略选择新相位并设置相位持续时间，为经历动态交通流变化的交叉口提供灵活和及时的信号控制响应。

•

优先考虑降低系统复杂性来设计状态空间和优化奖励函数。状态空间简化为包括车道饱和度、标准化排队长度和当前绿灯相位状态，而奖励函数基于相邻采样时间步之间的车辆数量变化进行构建。这种方法降低了系统复杂性，减轻了数据存储压力，并避免了计算资源浪费。

•

本研究通过SUMO模拟验证了所提出的模型，该模拟整合了三种不同交通场景下的静态和动态元素，展示了其强大的适应性和泛化能力。此外，对H-DQN模型的系统比较分析和全面评估揭示了其卓越的鲁棒性和多目标优化能力，在动态交通环境中实现了显著的性能优势。

部分摘录

定义

在本文中，交通信号控制问题被构建为一个马尔可夫决策过程（MDP）（Sutton和Barto，1998年），其中智能体随时间步t = 0, 1, 2, ……与交叉口环境互动。最初，智能体在时间步t获得交叉口的状态，选择动作At，影响下一个状态S_{t+1}的转换，并从当前环境获得奖励R_t。为了最大化累积奖励，即最小化平均车辆

混合深度Q网络框架

H-DQN模型构建了一个混合动作空间信号控制框架，该框架结合了用于信号相位和绿灯持续时间联合决策的双层架构，将Q学习算法与深度卷积网络相结合，如图5所示。双层智能体架构在统一的马尔可夫决策过程（MDP）框架内运行。智能体获取每个车道?饱和度、排队长度、当前绿灯相位和持续时间

初步实验

本研究中的仿真实验是在SUMO平台上进行的，该平台通过Python编程接口与TensorFlow机器学习框架深度集成（Mali和Bousmah，2021年）。实验过程中，研究人员使用Traci接口来控制仿真过程，包括动态路由更新和信号时序策略的发布。研究人员还负责将收集的交通状态数据转换为适合的格式

结果与讨论

在仿真平台上，本研究提出的H-DQN模型以及用于比较的DQN和QL模型被训练以获得各自的最优模型。然后在三种不同的交通流场景下对这些模型进行测试，例如速度稳定的均匀交通、速度稳定的非均匀交通以及到达率变化的复杂交通。比较结果基于六个指标：平均排队长度、平均车辆延迟、平均车辆速度等

结论与未来工作

在这项研究中，开发了一种基于混合深度Q网络（H-DQN）的交通信号控制模型，以应对复杂动态交通环境中的交通拥堵挑战。通过建立混合动作决策机制，该模型可以灵活调整其策略以应对不同的交通条件，实现实时交通信号控制和优化。实验结果验证了该模型实现了多目标协同优化，显著

CRediT作者贡献声明

Jihong Jin：撰写——原始草稿，验证，软件，方法论，调查，形式分析，数据整理，概念化。Shangming Wu：调查，数据整理。Pengwei Zhang：监督，方法论，形式分析。Xiaorui Zhang：撰写——审阅与编辑，监督，项目管理，方法论，资金获取。Chaoen Yin：项目管理，调查，数据整理。Changyin Dong：撰写——审阅与编辑，验证，监督，项目

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了中国国家自然科学基金（编号52302405）和团圆项目青年学术人才计划（编号391740010016）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言