时空稀疏注意力高斯混合大语言模型：用于高速铁路系统中基于不确定性感知的出行流量预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES》：Spatial-temporal sparse-attention Gaussian mixture large language model for uncertainty-aware OD flow prediction in high-speed rail systems

【字体：大中小】 时间：2026年02月17日 来源：TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES 7.9

编辑推荐：

　　高速铁路OD流预测需解决数据稀疏、方向性及不确定性问题。本文提出STGM-LLM模型，通过GPT-2的稀疏注意力机制聚焦活跃OD对，结合时空特征提取模块（双节点嵌入、ResNet、LSTM）建模空间交互与时间动态，并利用高斯混合层输出不确定性指标。实验表明该模型在真实高铁数据集和北京地铁数据集上显著优于基线，验证了跨域泛化能力。

Jinlei Zhang|Jingsong Ji|Lixing Yang|Feng Chen

北京交通大学系统科学学院，中国北京100044

摘要

高速铁路（HSR）的起点-终点（OD）流量预测对交通管理至关重要，但这一过程受到退票、退款和候补乘客等不确定性的影响。大型语言模型（LLMs）的最新进展为解决这些不确定性提供了新的机会，通过增强时间推理和泛化能力来提高预测的准确性。受这些优势的启发，本研究致力于解决HSR OD乘客流量的不确定性及短期预测问题。研究重点关注三个关键挑战：数据稀疏性、站点间的方向性出行模式以及需求的大幅波动。为此，我们提出了一种空间-时间稀疏注意力高斯混合大型语言模型（STGM-LLM）。首先，该模型基于部分冻结的GPT-2，并采用稀疏注意力机制来为不同活跃程度的OD对分配不同的关注度；其次，利用具有双节点嵌入的空间-时间特征提取模块来捕捉各站点之间的交通互动；最后，高斯混合层输出用于不确定性预测的均值、方差和权重。在来自京沪高速铁路的两个大规模真实世界数据集上的实验表明，STGM-LLM的表现优于现有基线模型。具体而言，该模型在北京市地铁数据集上的评估展示了其在不同轨道交通系统间的跨领域泛化和鲁棒性。所提出的框架不仅提升了HSR的短期OD流量预测能力，还为其他时空序列任务提供了一种可迁移的方法。

引言

高速铁路（HSR）已成为现代交通系统的支柱，支持大规模的出行需求，并减轻了公路和航空运输的压力（Chen和Haynes，2017）。然而，随着HSR网络的不断扩展以及乘客流量的短期波动，系统在匹配容量与快速变化的需求方面面临日益严峻的挑战（X. Liu等人，2024）。在这种背景下，准确的短期起点-终点（OD）流量预测变得至关重要，因为它使运营商能够实时监控乘客流的时空分布，并优化列车调度和资源分配（Li等人，2025；B. Liu等人，2025a）。

近年来，提出了多种乘客流量预测方法。早期研究主要集中在站点的进出流量预测上，这些方法通常依赖卷积神经网络（CNNs）（Zhao等人，2022）或循环神经网络（RNNs）（Yu等人，2017）来捕捉空间依赖性和时间动态。然而，进出流量数据仅描述了总乘客量，未能揭示起点和终点之间的出行模式（Zhang和Huang，2024）。为了更好地理解交通流动性，研究逐渐转向OD流量预测。在出租车场景中，图神经网络（GNNs）（Chen等人，2022；Zhang等人，2022）和注意力机制（Lv等人，2024）被广泛用于模拟动态出行网络中的空间关联和时间变化。在地铁系统中，进一步引入了动态超图卷积网络（Wang等人，2021）和动态注意力多超图网络（Shen等人，2024）来处理高维和稀疏的OD矩阵以实现短期预测。这些方法显著提高了公共交通的需求响应性和调度效率。尽管OD流量预测在多种交通模式中取得了显著成果，但在HSR领域的相关研究仍然相对有限。具体而言，HSR OD流量预测面临以下困难：

（1）为什么需要处理HSR网络中OD数据的稀疏性和不平衡问题？ 实际上，乘客流量表现出显著的不规则性。少数OD对占据了大部分行程，而大多数OD对则处于不活跃状态。例如，京沪高速铁路有24个主要站点，但只有少数OD对主导了OD流量。如图1所示，OD矩阵表现出强烈的空间和时间稀疏性，呈长尾分布。这种不平衡给数据驱动模型带来了重大障碍，它们倾向于过度拟合主导对，而忽视了在规划和运营中仍可能发挥重要作用的较不活跃的链接（Qian等人，2024；Zhang等人，2024）。因此，解决OD数据的稀疏性对于构建稳健准确的HSR需求预测模型至关重要。

（2）如何构建一个能够预测本质上有方向性的HSR系统中未来OD流的模型？ OD流量是不对称的，因为每个条目记录的是从起点到终点的流量。在HSR系统中，这些流量还受到通勤需求、旅游活动和列车时刻表等因素的影响（van der Knaap等人，2024）。因此，从A到B的流量与从B到A的流量在规模和时间模式上往往不同。图2比较了同一时期几个站点对的双向流量，突出了这种方向性带来的建模挑战。许多现有模型忽略了方向性，这可能导致相反流量的混淆，削弱空间依赖性，并产生系统性偏差（B. Liu等人，2025b）。为了实现准确的OD预测，设计能够明确捕捉流量方向的模型是必要的。

（3）如何量化HSR需求预测中由退票、退款和候补行为引起的不确定性？ 退票是指乘客将购买的票改签到另一列火车或不同的出发时间，这可能涉及不同的起点、终点或旅行时段。退款意味着乘客取消行程并申请退款。如果火车已满员，乘客可以加入等待名单并提前支付费用。当座位空出时，系统会为排队中的下一个人购买票（图3）。这些事件的发生概率受出发时间、节假日、票价和天气等因素影响，表现出强烈的非线性和时间变化（Huang和Corman，2024）。它们对OD流量的影响是动态的且难以预测。大多数现有模型依赖于点预测，旨在估计预期的OD需求。然而，乘客可能在出发前改变旅行决定，这通过退票或退款行为体现出来。因此，实际发生的乘客流量可能与历史记录不同（Yao等人，2017）。因此，这些行为引入了复杂的、随时间变化的不确定性，点预测无法完全反映。为应对这一挑战，HSR OD流量预测必须转向将退票和退款视为内在不确定性的概率模型。

总之，本研究提出了一种空间-时间稀疏注意力高斯混合大型语言模型（STGM-LLM），以提高HSR OD需求预测的准确性。具体而言，该模型基于部分冻结的GPT-2，并采用稀疏注意力机制。为了捕捉空间和时间依赖性，引入了空间-时间特征提取模块，该模块结合了双节点嵌入、ResNet编码器和基于LSTM的编码器，共同学习站点间的交互动态。在此模型基础上，高斯混合层生成用于预测OD流量不确定性的均值、方差和混合权重。据我们所知，这是首次将LLM用于HSR的OD预测。本研究的贡献如下：

(1)

提出了一种结合部分冻结LLM和高斯混合层的不确定性OD预测模型。该模型能够捕捉OD乘客流的复杂时间动态，并提供不确定性预测，为退票和退款等需求波动的场景提供可靠的决策依据。

(2)

将稀疏注意力机制纳入GPT-2中。稀疏注意力机制的优势在于其能够根据OD对的不同活跃程度自适应地分配注意力权重。

(3)

利用双节点嵌入分别建模OD矩阵的行（出发站

i

）和列（到达站

j

），从而增强了对出行方向的建模能力。

(4)

在两个大规模真实世界HSR OD数据集上的实验结果表明，所提出的模型显著优于基线方法，并且在北京市地铁数据集上也取得了高预测准确性。这些结果证明了其在不同轨道交通系统间的强跨领域泛化和鲁棒性。

本工作的后续部分安排如下：第2节回顾了最相关的研究；第3节阐述了OD需求预测问题；第4节全面介绍了所提出的方法；第5节展示了验证该方法有效性的实验；最后，第6节总结了研究结论。

章节片段

深度学习在交通预测中的应用

目前，深度学习已成为交通预测的主要方法。早期研究主要使用RNNs，尤其是LSTMs，来模拟时间动态（Ma等人，2015；Ounoughi和Ben Yahia，2024；Ramakrishnan和Soni，2018）。然而，纯序列模型常常忽略交通信号中的局部变化（Zhang等人，2018）。基于CNN的模型通过提取短期模式来解决这一问题（Zhang等人，2021），而CNN-RNN混合框架则结合了局部线索和更长期的依赖性（Narmadha

初步介绍

本研究专注于预测HSR系统中的OD乘客流量。HSR中的乘客出行行为是一个复杂且动态的过程，受到空间和时间模式的双重影响。站点间的流量不仅取决于高峰时段和重大事件等时间因素，还取决于连接站点的空间因素。因此，OD流量预测本质上是一个高维的时空建模问题。为了形式化这一任务，我们引入了

整体框架

在本节中，我们介绍了STGM-LLM的构建，这是一个用于HSR系统中不确定OD需求预测的混合LLM框架。如图4所示，该框架由三个主要部分组成。首先，部分冻结的GPT-2结合稀疏注意力机制，专注于结构相关的OD交互，过滤掉大部分空白的OD矩阵中的噪声。其次，利用空间-时间特征提取模块来捕捉空间和时间依赖性。

数据集描述

(1)
HSR数据。 HSR0206和HSR0703是来自京沪高速铁路的两个真实OD乘客流量数据集。该线路全长1,318公里，沿线设有24个乘客站（图7）。它连接了渤海沿岸和长江三角洲两个重要的国家级经济区，具有重要的战略价值。实验使用了每天07:00至24:00之间的八周运营数据，数据收集符合列车时刻表的要求。由于出发间隔相对较长

结论

在HSR乘客流量预测中，不确定性建模对于容量规划和调度至关重要。本研究提出了一种时空概率预测模型（STGM-LLM），该模型结合了预训练的LLM，以应对OD矩阵稀疏、方向性强和不确定性高的挑战。首先，模型采用了部分冻结的GPT-2，并利用稀疏注意力机制自适应地关注活跃程度不同的起点-终点（OD）对。

CRediT作者贡献声明

Jinlei Zhang：资源管理、项目协调、方法论设计、概念构思。Jingsong Ji：可视化设计、软件开发、方法论研究、数据整理。Lixing Yang：项目协调、资金筹集、概念构思。Feng Chen：监督指导、资源调配、资金筹集。

致谢

本研究得到了国家自然科学基金（编号72201029、72288101）、北京市自然科学基金（编号4252049、L251030）以及山东省交通运输厅交通运输科学技术计划项目（编号2023B58）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号