行人轨迹预测[1]、[2]、[3]、[4]旨在根据观察到的轨迹和周围环境预测未来轨迹。这一要求在许多实际应用中起着重要作用,包括自动驾驶、智能交通、视频监控、机器人技术等。例如,在自动驾驶[5]、[6]中,行人轨迹的预测有助于车辆控制系统规划行驶路线并避免交通事故。对于视频监控系统[7]、[8],通过行人轨迹预测可以实现行人位置和运动方向的实时跟踪。
行人轨迹预测是一项具有挑战性的任务,因为未来轨迹受到常识规则的约束,并受到物理障碍物的影响。常识规则主要包含社会惯例,而物理障碍物包括树木、建筑物和移动物体。此外,人类运动本质上是目标导向的,行人的下一个决策取决于目标[9]。因此,充分利用社交意识线索、环境意识线索和目标条件线索对于行人轨迹预测至关重要。
一些方法利用社交意识线索来模拟相邻行人轨迹信息与目标行人之间的交互,如图1(a)所示。这些方法通常在循环神经网络(RNNs)[10]、[11]、[12]、图神经网络(GNNs)[13]、[14]、[15]和Transformer[16]、[17]、[18]、[19]的框架下实现。基于Transformer的方法在各种图像处理任务中也表现出显著的效果,如视频修复[20]和图像质量评估[21]、[22],这进一步激发了将Transformer应用于轨迹预测的兴趣。其他方法应用环境意识线索来模拟周围环境信息与目标行人轨迹信息之间的交互,如图1(b)所示。为此,它们通过卷积神经网络(CNNs)从周围环境中提取环境语义特征来进行环境交互建模[23]、[24]、[25]。此外,一些方法[26]、[27]、[28]利用目标条件线索来指导未来轨迹,如图1(c)所示。
然而,上述方法难以获得足够的交互信息,因为它们只学习了目标行人轨迹信息与一种类型线索之间的交互,从而导致预测性能不佳。具体来说,仅依赖社交意识线索的方法[2]、[3]、[29]未能充分利用环境意识线索和目标条件线索,导致轨迹与障碍物发生碰撞或缺乏明确的目的地指导。同样,基于目标条件线索和环境意识线索的方法[27]、[28]未能充分考虑相邻行人轨迹的影响,从而导致与其他行人的碰撞。这些局限性表明,这三种线索是互补的,应全面考虑以提高预测性能。
在本文中,我们提出了一种名为Multi-cue Transformer (McTrans)的创新Transformer网络,用于行人轨迹预测,该网络同时模拟目标行人轨迹信息、社交意识线索、环境意识线索和目标条件线索之间的交互,从而在图1(d)所示的集成框架下获得目标-社交-环境交互。为此,我们首先使用CNNs从周围环境中提取环境语义特征。然后,我们设计了可学习的目标标记来表示行人的目标条件线索,以便目标信息可以方便地整合其他线索的信息。
为了充分学习目标行人轨迹信息与不同线索之间的交互,我们提出了层次化交叉注意力(HCA)模块,该模块设计为双流Transformer层结构,后接连接操作。具体来说,我们将一个行人的目标标记与轨迹标记连接起来,并将它们以及环境语义特征作为HCA模块的输入,以学习目标-环境交互。然后,我们将同一时间步的不同行人的目标标记与轨迹标记的组合以及环境语义特征作为HCA模块的输入,以获得目标-社交-环境交互。之后,我们应用轨迹标记以循环方式预测目标行人下一个时间步的位置坐标,并应用目标标记来预测目标坐标。
关于行人轨迹预测的循环方式,大多数方法[30]、[31]在不同时间步下平等对待真实目标与预测目标之间的坐标差异。然而,随着时间步的增加,预测目标坐标更加合理,因为我们应用了更多的行人轨迹坐标来预测目标。因此,我们提出了渐进式目标引导损失(GGLoss),随着时间步的增加,逐渐增加真实目标与预测目标之间的坐标差异的权重,以便更好地利用目标条件线索。
简而言之,我们工作的贡献总结在三个方面:
我们提出McTrans,在集成框架下通过同时考虑社交意识线索、环境意识线索和目标条件线索来学习目标-社交-环境交互,用于行人轨迹预测。
我们提出GGLoss,随着时间步的增加,逐渐增加预测目标的贡献,从而使预测轨迹在目标条件线索的指导下更加合理。
我们在三个公共数据集上分析了McTrans的性能,即ETH [32]/UCY [33]、Intersection Drone Dataset (inD) [34]和Stanford Drone Dataset (SDD) [35],实验结果表明,所提出的方法优于其他最先进的方法。