利用多线索变换器进行行人轨迹预测

《Journal of Visual Communication and Image Representation》:Pedestrian trajectory prediction using multi-cue transformer

【字体: 时间:2026年01月17日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  多线索Transformer模型McTrans通过分层跨注意力机制整合社会交互、环境语义和环境信息,并采用渐进式目标引导损失优化预测精度,在多个公开数据集上验证优于现有方法。

  
田彦龙|翟瑞|范晓婷|薛琦|张忠|朱新山
天津师范大学无线移动通信与电力传输重点实验室,天津,300387,中国

摘要

行人轨迹预测是一个具有挑战性的问题,因为未来的轨迹受到周围环境的影响,并受到常识规则的约束。现有的轨迹预测方法通常只考虑一种类型的线索,即社交意识线索、环境意识线索和目标条件线索来模拟与轨迹信息的交互,这导致交互不够充分。在本文中,我们提出了一种名为Multi-cue Transformer (McTrans)的创新Transformer网络,用于行人轨迹预测。我们设计了层次化交叉注意力(HCA)模块,从时间和空间依赖性的角度学习行人轨迹信息与三种线索之间的目标-社交-环境交互。此外,为了合理利用目标信息的指导作用,我们提出了渐进式目标引导损失(GGLoss),随着时间步的增加,逐渐增加预测目标与真实目标之间的坐标差异的权重。我们在三个公共数据集上进行了广泛的实验,即SDD、inD和ETH/UCY。实验结果表明,所提出的McTrans优于其他最先进的方法。

引言

行人轨迹预测[1]、[2]、[3]、[4]旨在根据观察到的轨迹和周围环境预测未来轨迹。这一要求在许多实际应用中起着重要作用,包括自动驾驶、智能交通、视频监控、机器人技术等。例如,在自动驾驶[5]、[6]中,行人轨迹的预测有助于车辆控制系统规划行驶路线并避免交通事故。对于视频监控系统[7]、[8],通过行人轨迹预测可以实现行人位置和运动方向的实时跟踪。
行人轨迹预测是一项具有挑战性的任务,因为未来轨迹受到常识规则的约束,并受到物理障碍物的影响。常识规则主要包含社会惯例,而物理障碍物包括树木、建筑物和移动物体。此外,人类运动本质上是目标导向的,行人的下一个决策取决于目标[9]。因此,充分利用社交意识线索、环境意识线索和目标条件线索对于行人轨迹预测至关重要。
一些方法利用社交意识线索来模拟相邻行人轨迹信息与目标行人之间的交互,如图1(a)所示。这些方法通常在循环神经网络(RNNs)[10]、[11]、[12]、图神经网络(GNNs)[13]、[14]、[15]和Transformer[16]、[17]、[18]、[19]的框架下实现。基于Transformer的方法在各种图像处理任务中也表现出显著的效果,如视频修复[20]和图像质量评估[21]、[22],这进一步激发了将Transformer应用于轨迹预测的兴趣。其他方法应用环境意识线索来模拟周围环境信息与目标行人轨迹信息之间的交互,如图1(b)所示。为此,它们通过卷积神经网络(CNNs)从周围环境中提取环境语义特征来进行环境交互建模[23]、[24]、[25]。此外,一些方法[26]、[27]、[28]利用目标条件线索来指导未来轨迹,如图1(c)所示。
然而,上述方法难以获得足够的交互信息,因为它们只学习了目标行人轨迹信息与一种类型线索之间的交互,从而导致预测性能不佳。具体来说,仅依赖社交意识线索的方法[2]、[3]、[29]未能充分利用环境意识线索和目标条件线索,导致轨迹与障碍物发生碰撞或缺乏明确的目的地指导。同样,基于目标条件线索和环境意识线索的方法[27]、[28]未能充分考虑相邻行人轨迹的影响,从而导致与其他行人的碰撞。这些局限性表明,这三种线索是互补的,应全面考虑以提高预测性能。
在本文中,我们提出了一种名为Multi-cue Transformer (McTrans)的创新Transformer网络,用于行人轨迹预测,该网络同时模拟目标行人轨迹信息、社交意识线索、环境意识线索和目标条件线索之间的交互,从而在图1(d)所示的集成框架下获得目标-社交-环境交互。为此,我们首先使用CNNs从周围环境中提取环境语义特征。然后,我们设计了可学习的目标标记来表示行人的目标条件线索,以便目标信息可以方便地整合其他线索的信息。
为了充分学习目标行人轨迹信息与不同线索之间的交互,我们提出了层次化交叉注意力(HCA)模块,该模块设计为双流Transformer层结构,后接连接操作。具体来说,我们将一个行人的目标标记与轨迹标记连接起来,并将它们以及环境语义特征作为HCA模块的输入,以学习目标-环境交互。然后,我们将同一时间步的不同行人的目标标记与轨迹标记的组合以及环境语义特征作为HCA模块的输入,以获得目标-社交-环境交互。之后,我们应用轨迹标记以循环方式预测目标行人下一个时间步的位置坐标,并应用目标标记来预测目标坐标。
关于行人轨迹预测的循环方式,大多数方法[30]、[31]在不同时间步下平等对待真实目标与预测目标之间的坐标差异。然而,随着时间步的增加,预测目标坐标更加合理,因为我们应用了更多的行人轨迹坐标来预测目标。因此,我们提出了渐进式目标引导损失(GGLoss),随着时间步的增加,逐渐增加真实目标与预测目标之间的坐标差异的权重,以便更好地利用目标条件线索。
简而言之,我们工作的贡献总结在三个方面:
我们提出McTrans,在集成框架下通过同时考虑社交意识线索、环境意识线索和目标条件线索来学习目标-社交-环境交互,用于行人轨迹预测。
我们提出GGLoss,随着时间步的增加,逐渐增加预测目标的贡献,从而使预测轨迹在目标条件线索的指导下更加合理。
我们在三个公共数据集上分析了McTrans的性能,即ETH [32]/UCY [33]、Intersection Drone Dataset (inD) [34]和Stanford Drone Dataset (SDD) [35],实验结果表明,所提出的方法优于其他最先进的方法。

相关工作

相关工作

行人轨迹预测通常被视为时间序列。为了提高预测准确性,许多研究采用了额外的线索,如社交意识线索、环境意识线索和目标条件线索。

提出的方法

在本节中,我们首先介绍所提出的McTrans的总体框架,然后详细描述轨迹和目标的标记表示。之后,我们详细介绍所提出的HCA模块。最后,全面介绍所提出的GGLoss。

实验

在本节中,我们首先详细阐述数据集和评估指标,并介绍实验设置和细节。然后,我们将所提出的McTrans与其他最先进的方法进行比较,并进行消融研究,以证明我们方法中关键组件的有效性。之后,我们分析所提出的McTrans的几个关键参数。最后,我们展示可视化结果以进行直观验证。

结论

在本文中,我们提出了McTrans,通过设计良好的HCA模块来学习目标-社交-环境交互,其中HCA模块能够从时间和空间依赖性的角度,通过两个线索层和一个全局线索层有效地模拟目标行人轨迹信息与不同类型线索之间的交互。此外,我们提出GGLoss,通过分配

CRediT作者贡献声明

田彦龙:撰写 – 原稿撰写、可视化、验证、软件、方法论、调查、形式分析、概念化。翟瑞:撰写 – 审稿与编辑、验证、软件、方法论、调查、资金获取、形式分析、概念化。范晓婷:撰写 – 审稿与编辑、验证、监督、方法论、调查、形式分析。薛琦:撰写 – 审稿与编辑、可视化、软件、方法论。张忠:撰写 –

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了国家自然科学基金(项目编号62471335和62171321)、天津师范大学研究生研究与创新项目(项目编号2025KYCX004Z)和山东省自然科学基金(项目编号ZR2024QD279)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号