STC-Traj2vec:一种结合时空背景的轨迹表示学习方法,用于数据聚类

《Knowledge-Based Systems》:STC-Traj2vec: Spatiotemporal context–integrated trajectory representation learning for clustering

【字体: 时间:2026年05月04日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  阿帕尔娜·拉维恩德兰(Aparna Raveendran)| 苏萨姆·玛丽·伊迪库拉(Sumam Mary Idicula) 印度喀拉拉邦科钦科学技术大学计算机科学系 **摘要** 轨迹表示学习是移动性分析和聚类的基本任务。大多数现有方法分别处理空间和时间方面,忽略

  阿帕尔娜·拉维恩德兰(Aparna Raveendran)| 苏萨姆·玛丽·伊迪库拉(Sumam Mary Idicula)
印度喀拉拉邦科钦科学技术大学计算机科学系

**摘要**
轨迹表示学习是移动性分析和聚类的基本任务。大多数现有方法分别处理空间和时间方面,忽略了它们固有的时空关联性。现实世界中的轨迹表现出强烈的自相关性、空间异质性和时间非平稳性,这使得这种简化方法不够适用。我们提出了STC-Traj2vec框架,该框架将时空背景整合到轨迹嵌入中,以实现上下文感知的聚类。一个具有新颖嵌入损失的上下文嵌入模块将时空关联捕获为上下文向量,并通过动量对比学习框架中的上下文门控机制与轨迹序列嵌入融合,从而增强了模型的鲁棒性和泛化能力。在真实世界数据集上的实验表明,STC-Traj2vec显著提高了聚类性能,尤其是在异构环境中。

**引言**
轨迹存储了移动物体的完整时空轨迹,而GPS设备的广泛使用导致了大规模轨迹数据集的出现[1]。这些数据表现出复杂的依赖性,现有的表示学习工作——无论是通用嵌入方法[2]、[3]还是特定任务的方法[4]、[5]、[6]、[7]、[8]、[9]——往往都忽略了这一点。轨迹是时空交织的过程,其特征包括:(1)自相关性——当前运动依赖于过去的位置;(2)空间异质性——移动模式在不同区域有所不同;(3)时间非平稳性——运动行为会随时间和日期而变化[10]。例如,在交通高峰期,特定位置的密集簇往往会扩展到附近区域。一条繁忙的路线在早晚高峰时段可能会遇到严重的拥堵,但在下午则相对不拥堵。因此,对轨迹进行聚类以分析交通流量时必须同时考虑位置和时间因素。将时空背景捕获并整合到轨迹表示中对于实现上下文感知的聚类至关重要。在这项工作中,我们的目标是学习能够保留与上下文感知聚类相关的时空模式的轨迹表示。这里的“上下文”指的是在空间和时间尺度上的相互作用。在其他领域(如自然语言处理NLP)中,已经广泛证明了上下文化表示的重要性,例如BERT模型[11]展示了上下文编码如何提高语义理解能力。在这方面,我们提出了STC-Traj2vec框架,用于学习具有时空意识的轨迹嵌入。我们的主要贡献包括:
- 我们提出了STC-Traj2vec框架,该框架明确地对时空相关性进行了建模;
- 我们制定了SPATE_KNN嵌入损失,这是第一个基于时空自相关统计量(Moran’s I)为轨迹数据设计的嵌入损失;
- 我们通过上下文门控融合机制以自适应的方式将上下文嵌入与轨迹序列嵌入相结合;
- 我们引入了聚类-上下文纯度得分(Cluster-Context Purity Score)这一指标,用于评估无监督轨迹聚类中上下文保留的程度。

**相关工作**
**轨迹表示学习**:现有的轨迹表示学习方法通常分为两类。在自由空间环境中,轨迹被视为按时间顺序排列的点序列。早期方法强调空间几何特性,而很大程度上忽略了时间变化[4]、[6]。后来的研究虽然纳入了时间因素,但通常只是将其作为辅助特征,或者独立地对空间和时间进行建模[12]、[13]。在道路网络受限的环境中,轨迹被映射到道路图上。

**公式化**
- **轨迹(Trajectory)**:轨迹被定义为以相等间隔采样的时间戳位置序列:T={(ti, posi)}i=1|T|。
- **GPS轨迹(GPS Trajectory)**:GPS轨迹被定义为Tg={(ti, lati, loni)}i=1|Tg|,其中(lati, loni)是在时间ti记录的地理坐标。
- **网格轨迹(Grid Trajectory)**:GPS点被离散化到一个3D网格(t×n×n)中,形成Td={(ti, xi, yi)}i=1|Td|,其中(xi, yi)表示网格单元索引。
- **时空背景(Spatio-temporal Context)**:每个网格单元存储轨迹点的密度。

**STC-Traj2vec的整体架构**如图1所示。预处理后,每个GPS轨迹被映射到一个四维时空网格(weekday, hour, x, y)中,并输入到上下文嵌入模块,该模块为每个(weekday, hour)对生成一个上下文向量。在上下文感知轨迹编码器中,使用带有局部自注意力的LSTM对轨迹序列进行嵌入,这些序列嵌入通过上下文门控机制与其对应的上下文向量融合。

**STC-Traj2vec的计算复杂性分析**
设T表示平均轨迹长度,G表示空间网格单元的数量,K表示SPATE_KNN损失计算中使用的邻域大小。上下文嵌入模块的成本主要取决于网格大小。具有滤波器大小f的ConvLSTM操作的成本为O(TGf^2),而SPATE_KNN损失计算的复杂度为O(TG^K),其复杂度大致与网格大小成线性关系(因为K?G)。

**数据集**
实验在两个真实世界数据集上进行:Geolife[20]和Porto[21]。从Geolife数据集中提取了313条轨迹,覆盖了2009年1月至3月的连续三个月期间,轨迹长度介于20到1000个时间步之间,并限制在地理边界(39.66, 116.08)和(40.27, 116.69)内。从Porto数据集中抽取了2014年1月的2464条出租车轨迹,采样间隔为2分钟,轨迹长度介于20到100个时间步之间。

**结论与未来方向**
我们提出了STC-Traj2vec,这是一个具有时空意识的轨迹表示学习框架。通过结合SPATE_KNN嵌入损失、上下文门控和对比学习,该模型有效地捕捉了时空依赖性,并实现了强大的上下文感知聚类性能。我们还引入了聚类-上下文纯度指标来评估聚类中的上下文一致性。未来的工作将探索聚类与表示学习的更紧密集成。

**作者贡献声明**
阿帕尔娜·拉维恩德兰(Aparna Raveendran):撰写——审阅与编辑、原始草稿撰写、可视化、验证、资源收集、方法论、形式分析、数据整理、概念化。
苏萨姆·玛丽·伊迪库拉(Sumam Mary Idicula):撰写——审阅与编辑、监督、项目管理、形式分析。

**利益冲突声明**
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号