基于受限强化学习的地铁-公交网络动态恢复序列优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月13日 来源：TRANSPORTATION RESEARCH PART D-TRANSPORT AND ENVIRONMENT 7.7

编辑推荐：

　　地铁与公交网络在极端事件后的动态车站恢复序列研究，提出基于约束强化学习的框架整合客流需求、修复时长和距离约束，采用动态图卷积网络捕捉时间变异特征，设计融合节点重要性、换乘收益及超距惩罚的奖励函数，实验表明可提升换乘乘客比例5.53%-11.30%。

刘珊|孟振豪|江瑞|王正立|张雅|葛英恩

东南大学自动化学院，南京，210096，中国

摘要

地铁和公交网络构成了城市公共交通的支柱，满足了城市居民的日常通勤需求。对于因极端事件而受损的地铁-公交网络，将修复顺序与动态客流对齐对于减少乘客延误至关重要。大多数现有的关于车站恢复策略的研究忽略了客流量的动态变化，本研究旨在考虑动态客流量的情况下设计地铁-公交网络的车站恢复顺序。为了提高实用性，我们构建了一个受限强化学习框架，将乘客需求、移动距离和修复时间纳入马尔可夫决策过程。此外，采用了动态图卷积网络来捕捉客流量的时变特性。本文提出的奖励函数结合了节点重要性、恢复进度、转移乘客数量和超距离惩罚，以实现高效的灾后恢复。实证分析表明，该方法使转移乘客数量增加了5.53%-11.30%。

引言

地铁和公交是现代城市公共交通系统中两个不可或缺的互补部分（Du等人，2024年；Li等人，2024c年；Ma等人，2019年）。近年来，极端天气事件和地质灾害的发生频率不断增加，对城市公共交通系统的日常运营构成了严重挑战（Gensuo和Yuanxiang，2024年；Li等人，2022年；Xu等人，2024a年）。2021年7月20日，中国郑州遭遇了一场大雨，导致一列地铁列车被洪水困住，造成14名乘客不幸遇难（中国日报，2022年）。此外，2021年9月1日登陆美国纽约的飓风“伊达”也对城市交通系统产生了重大影响，地铁系统中有46个站点被淹没，约65辆公交车被阻塞或困住（Cable News Network，2021年）。极端天气事件增加了居民的出行成本，并给城市带来了巨大的经济损失（Guo等人，2023年）。当城市交通网络受到极端天气事件的影响时，时变的客流会导致乘客滞留。随着地铁网络与公交网络之间耦合程度的增加，这些极端天气事件会导致城市公共交通系统运营服务的中断。优化地铁-公交的修复顺序对于最小化乘客延误和避免恢复资源的错配至关重要，从而降低整体社会成本。

在受损的地铁-公交网络中，以往的研究主要使用启发式算法来设计静态的车站恢复顺序（Du等人，2024年；Li等人，2019年；Tan等人，2024年）。例如，Du等人（2024年）基于遗传算法（GA）建立了双层交通车站恢复顺序模型。在预算有限的情况下，Tan等人（2024年）采用数据驱动的方法构建了一个三层框架，并提出了一种改进的遗传算法来确定车站恢复的最优顺序。由于这些研究难以处理乘客需求，最近的研究开始对客流进行建模以解决车站恢复问题。Zheng等人（2023年）基于遗传算法和Dijkstra方法分配乘客流量，考虑了当前乘客数量来生成最优的车站恢复策略。此外，Chang等人（2024年）基于车站的抵抗能力、吸收能力和恢复能力构建了一个网络恢复模型。最近，Guo等人（2025年）提出了一个地铁-公交双层网络故障和恢复传播模型，也强调了动态客流对地铁网络恢复任务的重要影响。公共交通系统中的客流随时间动态变化，但在设计地铁-公交车站恢复顺序时，很少有研究考虑动态客流。图1展示了两个地铁-公交车站动态恢复顺序的示例。此外，启发式算法在大型交通网络中的计算效率较低，而深度强化学习（DRL）在处理大规模和动态交通问题方面表现出优势（Fan等人，2023年；Liang等人，2025年；Xu等人，2025年）。

大多数现有的关于车站恢复顺序的研究忽略了时变的地铁客流。实际上，客流在一天中会动态变化，如果不考虑这一点，可能会导致不切实际的恢复策略，并在网络中断期间加剧拥堵。整合动态客流对于最小化延误和优化资源分配至关重要。为了设计地铁-公交双层网络的动态车站恢复顺序，我们提出了一个基于动态图神经网络的受限强化学习模型。具体来说，我们首先介绍了决斗双深度Q网络（DDQN）模型，考虑了每个车站的状态和时变的客流序列。该模型利用决斗架构将状态值与动作优势分开，并预测维护动作的价值。然后，我们构建了一个具有动态空间依赖性的图卷积网络（GCN），以编码地铁-公交网络的空间拓扑结构和客流的时间动态。此外，我们引入了一种基于优先经验回放（PER）和事后经验回放（HER）机制的混合采样机制，以提高现有经验的利用率。最后，我们结合了基于NoisyNet的隐式探索策略，使智能体能够积极探索由动态客流和复杂网络拓扑构成的高维状态-动作空间。最后，我们根据车站状态、邻近车站的收益以及复杂地铁-公交网络内的时变乘客数量建立了一个奖励函数。为了评估我们方法的性能，我们使用来自中国北京的真实数据进行了数值实验。

我们方法的主要贡献总结如下：

•

与将乘客需求视为静态条件的现有灾后恢复研究不同，我们的方法将车站恢复任务视为在时变客流下的动态恢复序列问题。

•

我们开发了一个受限强化学习框架，根据时间、资源和距离约束来优化车站恢复顺序，利用动态图卷积网络捕捉时变客流量的动态特性。

•

我们提出的方法引入了一种混合经验回放机制，并根据车站状态、连续车站的收益以及实际场景中城市公共交通系统的动态客流构建了精细的奖励函数。

•

在中国北京的地铁-公交网络上进行的数值实验表明，我们提出的方法比现有方法表现更好。

本文的其余部分组织如下。第2节回顾了关于地铁恢复序列优化和强化学习在地铁调度中应用的相关研究。第3节介绍了我们提出的动态车站恢复序列模型的详细框架，包括受限强化学习、动态图卷积网络和混合经验回放机制。第4节展示了验证我们方法有效性的数值实验。第5节总结了本文并讨论了未来的研究方向。

部分摘录

城市公共交通系统的紧急恢复策略

关于城市公共交通系统紧急恢复策略的研究开发了各种启发式方法，包括遗传算法和粒子群优化（PSO）方法（Du等人，2024年；Xu等人，2024b年）。通过分析北京地铁网络并对其进行简化，Li等人（2019年）利用遗传算法在公共交通网络故障后生成了最优恢复策略。他们使用节点来描述地铁车站

初步介绍

定义1。（动态客流）。动态客流包括在一定时间间隔内进入地铁车站和公交站点的乘客数量的变化。不同时间间隔的客流数据不同，这会给每个车站带来不同的运营压力，并可能在交通网络恢复期间导致人员拥堵。有必要从乘客的刷卡数据中提取客流数据

实验设置

为了验证本文提出的方法的性能，我们基于2019年5月从中国国家地球观测数据中心（https://noda.ac.cn/datasharing）收集的真实世界数据集进行了实证分析，包括北京中心区域的地铁数据和公交数据。研究区域从116.274°E到116.462°E，从39.845°N到39.978°N，涵盖了135个地铁车站和1452个公交站点。数据清洗后，我们过滤掉了重复数据

结论和未来研究方向

为了在极端天气事件后快速恢复公共交通网络，本研究提出了一种基于受限强化学习和动态图卷积网络的动态车站恢复序列模型。该方法主要包括以下关键组成部分：受限强化学习、利用动态图卷积网络的深度神经网络、混合经验回放机制等

CRediT作者贡献声明

刘珊：撰写——原始草案，数据整理。孟振豪：软件开发，形式分析。江瑞：撰写——审稿与编辑，项目管理，资金获取，概念化。王正立：方法论，调查，概念化。张雅：软件开发，项目管理，形式分析。葛英恩：撰写——审稿与编辑，监督，资金获取。

联系信箱：

粤ICP备09063491号

摘要