基于轻量级决策Transformer的离线-在线强化学习交通信号控制方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Open Journal of Intelligent Transportation Systems》：Traffic Signal Control Using Lightweight Transformers: An Offline-to-Online RL Approach

【字体：大中小】 时间：2026年01月21日 来源：IEEE Open Journal of Intelligent Transportation Systems 5.3

编辑推荐：

　　本研究针对传统交通信号控制方法难以适应动态交通流的问题，提出了一种名为DTLight的轻量级决策Transformer框架。该研究通过自适应知识蒸馏技术压缩模型规模，并集成适配器模块实现高效在线微调，在八种交通场景下的实验表明，DTTLight仅通过离线预训练即可超越现有在线强化学习方法，在线微调后性能进一步提升40.7%，为实际交通系统部署提供了高效解决方案。

随着城市化进程加速，交通拥堵已成为困扰现代都市的顽疾。据统计，拥堵导致的额外旅行时间、燃料消耗和空气污染等问题，每年造成巨大的经济损失。传统的交通信号控制方法，如固定时长控制和基于规则的系统，虽然简单易行，但缺乏对动态交通流的适应能力。这就像让一个只会按固定乐谱演奏的音乐家来指挥一场即兴爵士乐表演——面对瞬息万变的交通状况，这些僵化的系统往往显得力不从心。

为什么交通信号控制如此具有挑战性？每个交叉口就像城市交通网络的脉搏点，需要同时处理多个方向的车辆流动。如图1所示，一个标准信号化交叉口包含12个进口车道，需要协调8种不同的信号相位。每个相位需要确保冲突方向的车辆安全通行，同时又要最大限度地提高通行效率。这种多目标、动态变化的特性，使得交通信号控制成为一个典型的序列决策问题。

近年来，强化学习（Reinforcement Learning, RL）为这一领域带来了新的希望。与传统方法不同，RL能够让控制器根据环境状态自主调整决策，就像一位经验丰富的交警能够根据实时车流情况灵活调整手势指挥。然而，现有的RL-based交通信号控制器（Traffic Signal Control, TSC）存在两个致命弱点：一是样本效率低，需要大量与环境的交互训练；二是计算需求大，难以在实际交通系统中部署。这就好比要求一位实习交警必须在早高峰的十字路口进行数月的实地训练才能上岗——这种训练方式不仅成本高昂，还可能在实际应用中引发严重拥堵。

为了突破这些限制，McGill大学的研究团队在《IEEE Open Journal of Intelligent Transportation Systems》上发表了一项创新研究，提出了DTLight——一种基于轻量级决策Transformer（Decision Transformer, DT）的离线-在线强化学习方法。这项研究的核心思想是将交通信号控制视为序列建模问题，利用Transformer强大的序列处理能力，从历史数据中学习控制策略，同时保持通过少量在线交互进一步优化策略的能力。

研究人员采用了三个关键技术突破传统局限：首先，他们将标准的决策Transformer适配到交通信号控制场景，学习离散动作空间的随机策略以鼓励探索；其次，提出了三种新颖的自适应知识蒸馏方法（熵自适应、置信度自适应和散度自适应），从训练好的大型教师模型中提取知识，训练出参数减少90%以上的轻量级学生模型；最后，集成了COMPACTER++适配器模块，使得在线微调时只需更新0.008%的参数，大幅降低计算开销。

在数据方面，研究团队创建了DTRL——首个专门为交通信号控制离线强化学习设计的综合数据集，包含16个离线数据集，涵盖真实世界和合成场景中的单交叉口和多交叉口控制任务。这些数据分别由传统控制方法（如EMP）和RL-based方法（如IDQN）生成，模拟了实际应用中可能获得的不同质量数据集。

研究方法上，作者将交通信号控制问题建模为马尔可夫决策过程（Markov Decision Process, MDP），其中状态包含每个进口车道的队列长度、接近车辆数和累积等待时间，动作是选择下一时间步的信号相位，奖励函数采用负压力值（-P_t），压力定义为进入车道与离开车道的队列长度总和之差。在多交叉口场景中，每个DTLight智能体不仅观察本地状态，还通过折扣因子δ整合邻居交叉口的信息，以促进协调控制。

模型性能验证

实验结果表明，DTLight在八种不同交通场景下均表现出色。在纯离线预训练模式下，DTLight在大多数场景下已超越现有的在线RL方法；经过仅10个回合的在线微调后，性能进一步提升，最大改进达到40.7%。特别是在多交叉口控制任务中，DTLight展现了优异的协调能力和适应性。

计算效率分析

通过知识蒸馏和适配器技术的结合，DTLight成功将模型参数量从1944万压缩至184万（减少90.53%），训练时间从520.1秒降至326.4秒，在线微调时仅需更新0.002万参数，耗时35.0秒，显示出极高的实用价值。

方法比较研究

与DataLight、TD3+BC和PEX等离线/离线-在线方法的对比显示，DTLight在七项测试任务中离线性能最优，在线微调后在所有任务中均保持领先。消融实验进一步证实了熵自适应知识蒸馏和COMPACTER++适配器的有效性，它们在不同场景下均能稳定提升模型性能。

参数敏感性测试

研究还探讨了蒸馏损失权重和回报到目标（Return-to-Go, RTG）尺度因子对性能的影响，确定了最佳参数配置（α=0.8，γ_eval=0.2，γ_online=0.3），为实际应用提供了重要参考。

研究结论表明，DTLight通过融合离线学习的样本效率与在线微调的适应能力，成功解决了RL-based交通信号控制在真实场景部署中的核心挑战。该方法不仅显著提升了控制性能，还通过模型压缩和参数高效微调技术，大幅降低了计算资源需求，为智能交通系统的实际应用提供了可行的技术路径。

这项研究的创新之处在于，它首次将决策Transformer架构引入交通信号控制领域，并通过自适应知识蒸馏和适配器模块解决了大规模Transformer模型在实际部署中的计算瓶颈问题。未来，该方法可扩展至更复杂的交通场景，如考虑公交优先、行人流量或突发事件应对等特殊需求，进一步提升智能交通系统的综合效能。

联系信箱：

粤ICP备09063491号

热点排行