基于时空多模态交通数据的区域交通结构估算框架:以大型语言模型(LLM)为核心

《Sustainable Cities and Society》:An LLM-Driven Estimation Framework for Estimating Regional Travel Structures based on Spatiotemporal Multi-Modal Travel Data

【字体: 时间:2026年02月01日 来源:Sustainable Cities and Society 12

编辑推荐:

  区域交通结构评估框架创新研究:基于大语言模型的多模态数据融合方法在北京市的应用与验证,显著提升空间异质性和动态行为建模精度,实现交通模式分布的可解释性分析。

  
沈华鹏|翁建城|林鹏飞
北京工业大学交通工程重点实验室,中国北京,100124

摘要

准确描述区域出行结构(出行方式的分布)对于制定有针对性的干预措施以促进绿色出行和制定可持续城市政策至关重要。然而,尽管人们非常重视优化区域出行结构以推动可持续城市发展,但现有方法常常忽略了空间异质性和动态出行行为等关键方面,这限制了它们在指导适应性城市规划策略方面的有效性。为了解决这一差距,本研究提出了一个基于微调的大型语言模型(LLM)的新框架来估计区域出行结构。通过转换多模态数据,该任务被重新构建为一个使用Llama3的文本到文本的估计问题,并通过领域知识和思维链提示进行了增强。将该模型应用于北京的335个街道级单元后,与基线方法相比,估计精度显著提高,RMSE和MAE降低了18%–25%。研究结果揭示了不同的空间模式:核心区域严重依赖公共交通,而郊区则更依赖私家车。所提出的框架展示了先进的人工智能在提供可解释和精确的决策支持工具以优化城市交通系统方面的潜力。

引言

为了迫切减少温室气体排放、缓解城市交通拥堵(Shen等人,2020年)和促进环境可持续性(Tian等人,2020年),发展可持续的城市和交通系统已成为当代城市规划和政策讨论中的核心重点(Delle Donne等人,2025年)。尽管通过实施以公共交通为导向的发展(TOD)等举措取得了实质性进展,但仍存在许多未解决的挑战。许多城市的基础设施尚未完全适应可持续交通的发展需求(Abdullah等人,2024年);公众对低碳出行方式的认知、接受度和行为转变仍然有限(Baig等人,2025年);关于可持续交通政策的公平性和包容性问题(Yang等人,2025年)仍然是一个关键问题。同时,包括拼车平台、共享电动汽车、自动驾驶出租车甚至未来可能发展的飞行汽车在内的多种新型出行方式的出现和普及,进一步多样化了居民的出行选择,导致出行行为变得越来越复杂和动态(Liu等人,2025年;Rossolov等人,2025年)。这些变化强调了从总体层面评估交通系统转向更细致地理解区域出行结构的必要性。具体来说,系统地研究不同交通方式在区域内的使用模式、描述出行结构在空间和时间尺度上的异质性和动态性,以及阐明驱动出行行为变化的根本机制是至关重要的。这些分析对于制定促进可持续出行方式并推动城市发展的有针对性的低碳出行政策至关重要(Jia等人,2017年;Wang等人,2025年)。此外,对区域出行结构的更深入理解可以支持设计考虑空间异质性、社会公平性和行为多样性的本地化干预措施,从而推进交通可持续性和气候适应性的更广泛目标(Yang等人,2020年)。
越来越多的研究正在探讨驱动居民出行行为变化的机制,旨在促进低碳出行方式的采用并优化出行结构(Liu等人,2017年;Xuan & Zheng,2024年;Yu等人,2023年)。现有研究主要集中在以下领域:(1)基于个人属性、出行偏好和建成环境等多维因素,确定影响居民选择低碳交通方式的决定因素(Schimohr等人,2025年);(2)开发和评估鼓励低碳出行行为的策略,包括公共意识活动、经济激励和政策干预的影响(Chen等人,2022年)。尽管取得了这些进展,但在改善居民的低碳出行结构方面仍存在几个关键挑战。
首先,现有研究缺乏对区域差异的考虑。尽管先前的研究表明不同区域的出行行为存在显著差异(Aston等人,2021年),但当前的努力主要集中在城市范围或宏观层面的空间规划和交通优化分析上。这往往忽略了局部建成环境特征和交通基础设施差异的影响,而这些因素在塑造特定区域的出行结构中起着关键作用。其次,大多数现有研究仅依赖于个体层面的出行调查数据(Andani等人,2021年),这些数据的样本量通常有限。这些有限的样本往往缺乏进行复杂建模所需的统计能力,尤其是在高级统计或机器学习背景下。
此外,尽管机器学习和离散选择模型已被广泛用于研究出行行为的变化(Hagenauer & Helbich,2017年),但这些方法存在明显局限性。具体来说,传统模型难以处理非结构化数据,无法充分利用文本、图像和地理空间数据等跨模态来源。这些数据对于涵盖影响居民出行行为的各种因素至关重要。此外,传统模型未能充分解决在空间和时间异质性背景下的出行行为的动态方面,其中模式因土地使用、基础设施和社会人口统计特征而异。例如,模式因地区和时间而显著不同,受到土地使用、基础设施和社会人口统计因素的影响。然而,它们通常依赖于静态假设或过于简化的时空表示,导致预测存在偏差或不完整。相比之下,LLM的最新进展为这些挑战提供了有希望的解决方案。LLM通过对多样化数据集的广泛预训练,能够自动捕捉复杂的语义模式,并将多模态信息整合到一个统一的表示空间中。这使得LLM特别适合于出行行为建模,能够将多种来源无缝整合到一个统一的框架中。
为了填补这些空白,本研究利用多源数据提出了一个基于LLM的框架来评估和估计区域出行结构。与传统方法相比,本研究的贡献如下:首先,本研究整合了多种跨模态数据来源,包括客观的地理空间数据、主观调查数据和多模态出行数据。通过应用多语义学习方法,将影响区域出行结构的各种主观和客观因素映射到一个统一的语义空间中,从而全面描述了影响居民出行行为的决定因素。其次,所提出的基于LLM的估计框架通过广泛的预训练数据捕捉复杂的语义模式,有效克服了传统模型在识别出行行为的空间时间特征方面的局限性,例如由于土地使用、基础设施和社会人口统计特征等因素导致的不同区域和时间的出行方式使用变化。该方法显著提高了空间差异化城市区域的出行方式结构的预测精度,特别是在估计模式份额和捕捉出行行为的空间异质性方面。即使在样本量较小的情况下,它也表现出强大的性能,验证了其鲁棒性和泛化能力。此外,传统的深度学习框架用于出行结构估计通常需要大型、标注的数据集、手工制作的多模态特征管道,并且模型决策的可解释性有限。相比之下,本研究将多源输入重新构造成语言,使LLM能够自然地整合文本化图像、地理空间指标和出行信号,并通过领域感知的提示产生合理的输出。这种设计既满足了数据需求,也克服了传统深度学习的黑盒限制,从而明确了我们的贡献超出了单纯的精度提升。
为了解决现有研究的空白并符合研究目标,本文试图回答以下三个问题:(1)如何在街道层面系统地聚合和标准化相关特征,以构建评估区域出行结构的指标系统,以及变化如何影响出行结构?(2)本研究如何克服静态和聚合估计方法的局限性,开发一种精细的方法来准确描述微观空间层面的区域出行结构?(3)在数据有限的条件下,基于大型语言模型(LLM)的框架如何有效整合多源和多模态数据,以减少小样本或空间覆盖不足带来的偏差,从而提高区域出行结构估计的可靠性和可解释性?
总体而言,所提出的框架在整合跨模态数据源方面表现出先进的能力——包括地理空间指标、街道级图像、公共交通使用和出行轨迹。通过利用多语义表示学习和微调的LLM,该方法捕捉了传统模型通常无法识别的复杂时空模式。这使得我们能够更全面地理解出行选择的根本决定因素,并支持对异质区域中的出行模式结构进行细致的评估。其在数据稀缺环境中的有效性也确保了其在不同城市环境中的广泛应用,提供了一个可扩展的解决方案,以解决空间异质性和出行行为的动态性质——这些通常是限制传统建模方法的限制。
基于此基础,本文的结构如下:第2节回顾了关于居民出行行为和相关建模方法的现有文献。第3节详细介绍了跨模态数据融合和基于LLM的模型构建的方法论。第4节案例研究和第5节整体性能部分,使用北京作为案例研究,展示了所提出框架的实证验证,包括模型比较和结果分析。第6节提供了对出行结构的解释,并讨论了政策含义。最后,第7节总结了本文并概述了未来研究的方向。

节选

文献综述

了解社区居民的出行行为对于促进低碳出行和优化区域出行结构至关重要。在本节中,本文从三个关键角度系统回顾了现有研究:(1)区域居民出行行为建模;(2)影响居民出行行为的因素;(3)大型语言模型的应用;(4)识别研究空白。

方法论设计

在本研究中,居民的出行行为指的是他们选择的出行方式(例如步行、骑行、公共交通、私家车),而出行结构则表示这些出行方式在不同区域(城市街道层面)的分布,反映了模式份额和使用模式。基于此,本研究基于多模态数据开发了一个区域出行结构估计框架,利用大型语言模型(LLM)来估计区域出行结构

案例研究

本案例研究聚焦于中国首都北京,这是世界上在城市出行领域数据最丰富的特大城市之一。由于其全面的多源出行数据集、建成环境的空间异质性以及从核心区域的密集地铁使用到郊区的高汽车依赖性等多种出行模式,北京为出行结构估计提供了一个高度代表性的测试场所。

准确性比较

表2总结了我们提出的基于LLM的区域出行结构预测模型与几个基线模型之间的性能比较。所有模型都在相同的设置下使用相同的数据集进行训练和评估。任务涉及根据多模态和跨领域街道属性估计街道层面的模式份额(步行、骑行、公共交通和私家车使用)和整体出行结构。为了公平起见,所有模型都在相同的设置下进行训练和评估

不同区域的出行结构特征

如图6所示,估计结果显示北京各区域的出行结构存在明显的空间异质性。在行政区层面,步行、骑行、公共交通和私家车的模式份额存在显著差异。
在城区(例如东城区和西城区),公共交通是主导出行方式,分别占43.9%和42.22%的出行量。步行和骑行的份额也相当可观

结论

本研究提出了一种基于LLM评估区域出行结构的新范式。所提出的基于LLM的框架通过将评估任务重新构建为文本到文本的问题,并引入领域知识和思维链对齐的调整,有效整合了来自地理空间数据、街道视图图像和智能足迹数据等多种来源的跨模态数据,以优化评估精度。在北京335条街道上的全面实验表明

未引用的参考文献

Ding等人,2017年;Susilo等人,2012年

CRediT作者贡献声明

沈华鹏:撰写——原始草稿、可视化、软件、项目管理、方法论、形式分析、数据管理、概念化。翁建城:撰写——审稿与编辑、资金获取、数据管理、概念化。林鹏飞:撰写——审稿与编辑、可视化、监督、资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号