SemTraj:一种用于生成高保真轨迹数据的语义可控扩散模型

《Expert Systems with Applications》:SemTraj: Semantic-Controllable Diffusion Model for High-Fidelity Trajectory Data Generation

【字体: 时间:2026年02月17日 来源:Expert Systems with Applications 7.5

编辑推荐:

  轨迹数据由连续GPS点记录地理移动行为构成城市分析基础资源,但公共数据集稀缺且受隐私限制。现有生成方法常需轨迹分段级标注且易偏离轨迹约束。本文提出SemTraj扩散-Transformer框架,仅需起点终点和出发时间即可生成高保真多样轨迹,通过语义自适应层归一化和动态重采样策略提升可控性与效率。实验表明其在三个真实数据集上优于基线方法。

  
姜宇辰|陈冠华|张世尧|韩亮|余建桥
中国深圳市南方科技大学计算机科学与工程学院,518055

摘要

轨迹数据由连续的GPS点组成,记录了地理移动行为,是城市分析的基本资源。然而,公开可用的轨迹数据集仍然稀缺或受到隐私限制。现有的生成方法往往无法遵循轨迹特定的约束,或者需要细粒度的段落级注释来指导生成过程。在这里,我们提出了SemTraj,这是一个新颖的扩散-Transformer框架,旨在合成大量、高保真且多样化的轨迹,这些轨迹符合起点和终点等语义约束。SemTraj的核心是一个轨迹去噪Transformer,它结合了一种新颖的语义自适应层归一化机制,用于精细调节,同时采用自适应重采样策略,在保持时间准确性的同时优化计算效率。我们在三个不同的真实世界数据集上对SemTraj进行了严格评估,证明了其相较于现有方法具有更高的保真度和可控性。

引言

轨迹数据是带有时间戳的GPS点序列,用于追踪实体移动,已成为城市分析不可或缺的工具,广泛应用于旅行时间估算(Zhu, Ye, Liu, & Yu (2022) 和起点-终点(OD)流量分析(Shi et al. (2020))等领域,以及公共安全操作,如犯罪路径重建和共享自行车部署策略(Chekol & Fufa (2022))。为了开发和全面评估能够捕捉时空动态范围的模型,研究人员需要大规模、高质量的轨迹数据集,这些数据集应反映多样化的移动模式。然而,由于严格的隐私规定、高昂的数据收集成本以及数据共享限制(Jiang, Li, Yue, & Song (2021a); Jiang et al. (2021b)),创建此类数据集通常具有挑战性。由于这些数据稀缺,许多研究集中在轨迹建模和合成数据生成上。然而,由于个体行为和道路网络布局、交通条件等环境因素的差异,真实世界的轨迹变化很大(Chen et al. (2022); Li et al. (2021))。
轨迹合成作为一种有前景的方法,利用生成框架(例如GANs(Rao, Gao, Kang, & Huang (2020); Xi, Hanzhou, & Clio (2018))、VAEs(Xia et al. (2018)和扩散模型(Wei et al. (2024); Zhu, Ye, Zhang, Zhao, & Yu (2023))来生成与真实世界分布高度相似的合成轨迹。属性驱动的轨迹生成方法侧重于使用特定于领域的属性(如起点-终点对和出发时间)来生成符合这些属性的轨迹。然而,大多数现有方法严重依赖详细的输入规范,包括有序的道路段标识符、速度剖面或完整的航点序列来指导生成过程(Feng et al. (2020); Wang, Liu, Lu, & Yang (2021))。实际上,这些详细信息往往难以提前获得。例如,刑事调查人员在分析嫌疑人移动时通常只能获得起点-终点对,而共享自行车服务通常根据起点-终点需求模式而不是精确路线来决定部署。因此,现有模型所需的轨迹定义属性与实际应用中可用的有限但真实的数据之间存在显著差距。
在本文中,我们提出了SemTraj,这是一种基于扩散的轨迹生成模型,它放宽了对过多轨迹属性的要求。如图1所示,仅通过起点-终点对和出发时间进行条件化处理,即可实现高保真度的生成。为了有效引入条件指导,我们提出了一种语义自适应层归一化机制。通过摆脱对先前道路段信息的依赖,即使在缺少中间航点或速度剖面的情况下,SemTraj也能生成真实的轨迹。此外,自适应重采样模块通过动态调整序列位置编码进一步提升了性能,从而加快了训练和推理速度,同时保持了生成轨迹的保真度。
我们的主要贡献如下:
  • 我们提出了SemTraj,它基于给定的语义属性(起点-终点和出发时间)合成轨迹。生成的数据遵循真实世界轨迹的分布,无需道路段信息和其他常用的但实际不可用的信息,如平均速度和总距离。
  • 我们开发了一种自适应重采样策略,使位置编码与重采样后的轨迹对齐,减少信息损失并加速生成过程。在推理过程中,一个轻量级的长度生成器根据语义属性预测轨迹长度,以指导位置编码并在重采样后恢复时间分辨率。
  • 我们利用三个真实世界数据集对SemTraj进行了实证验证。结果表明,与现有的最先进方法相比,它在生成高保真轨迹数据方面表现出更好的性能。
  • 相关工作

    相关工作

    在本节中,我们简要概述了之前关于生成模型和条件生成技术的研究,以及它们在移动性分析中的潜在应用。我们的讨论重点关注扩散模型,因为与其他当代生成建模范式相比,它们的性能更为出色。

    初步介绍

    在本节中,我们定义了问题,介绍了核心概念,并回顾了扩散概率模型。

    SemTraj框架

    在本节中,我们介绍了所提出的SemTraj模型,用于生成高保真度和语义可控的轨迹。我们提出了一个高效的交通轨迹生成框架。以下详细内容概述了SemTraj的设计。

    实验

    在本节中,我们首先描述了实验设置,包括数据集、基线、评估指标和超参数。然后,我们在真实世界数据集上进行了全面实验,以评估所提出方法SemTraj的性能,并回答以下研究问题:
  • RQ1:与最先进的方法相比,SemTraj生成的轨迹数据是否在保持数据分布的同时具有更高的保真度?
  • RQ2:SemTraj能否有效地
  • 结论

    总结来说,SemTraj结合了扩散-Transformer框架、语义自适应层归一化和基于条件VAE的长度生成器,实现了基于起点-终点和出发时间属性的高度可控、可变长度的轨迹合成。通过自适应位置编码和使用语义信息动态调节特征统计,SemTraj在保持高效稳定训练的同时实现了强大的可控性。其统一的架构支持

    CRediT作者贡献声明

    姜宇辰:概念构思、研究方法、撰写——审稿与编辑。陈冠华:撰写——审稿与编辑。张世尧:撰写——审稿与编辑。韩亮:撰写——审稿与编辑。余建桥:撰写——审稿与编辑、监督。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号