强化学习方法在智能交通灯控制中的自适应行为选择策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Intelligent Transportation Systems》：Adaptive Action Selection Strategy of Reinforcement Learning Approach for Intelligent Traffic Light Control

【字体：大中小】 时间：2026年01月26日 来源：IEEE Transactions on Intelligent Transportation Systems 8.4

编辑推荐：

　　交通信号作为城市交通拥堵的重要诱因，其控制效率可通过强化学习（RL）提升。本文提出自适应ε-贪心策略，动态调整探索率以平衡探索与利用，无需调参且泛化性更强。实验表明该方法在独立路口显著降低交通延迟，并有效探索状态空间。

摘要：

交通信号灯是城市交通网络中的常见瓶颈，也是导致交通拥堵的主要因素。通过采用自适应学习策略（如强化学习（RL）可以提高其运行效率，强化学习能够捕捉信号控制行为对交通动态的影响。在训练用于交通信号控制的RL模型时，一个关键挑战是在探索与利用之间取得有效平衡：过度探索可能会加剧拥堵，而过度利用则可能导致模型收敛到次优策略。大多数现有的RL方法采用的探索策略包括ε-贪婪算法、衰减ε-贪婪算法或基于置信上界的算法。这些策略通常依赖于需要针对具体问题进行调整的超参数，这不仅增加了训练时间，还限制了模型在不同交通场景下的泛化能力。在本研究中，我们将这些传统策略与最近在RL文献中提出的一种自适应ε-贪婪算法进行了比较。与传统方法不同，这种自适应ε-贪婪算法会根据智能体在每个状态下的学习进度动态调整探索率。该算法实现简单，无需调整超参数，并且具有更好的泛化能力。在孤立交叉口的实验结果表明，自适应ε-贪婪算法能够在不同需求水平下显著减少交通延迟。进一步的评估表明，该方法能够更全面地探索状态空间，从而提升策略性能。

联系信箱：

粤ICP备09063491号

摘要：

热点排行