CMAE-Traj：一种用于轨迹预测的对比式掩码自编码器框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Robotics and Autonomous Systems》：CMAE-Traj: A contrastive masked autoencoder framework for trajectory prediction

【字体：大中小】 时间：2026年02月11日 来源：Robotics and Autonomous Systems 5.2

编辑推荐：

　　轨迹预测研究提出融合时空掩码与对比学习的自监督框架CMAE-Traj，通过动态分配掩码捕捉局部运动，随机掩码邻近车辆建模社会交互，结合层次化跳转连接增强多尺度特征学习，并利用对比掩码对齐策略强化长时趋势一致性，在Argoverse 2等数据集上显著优于基线方法。

徐雅梅|张宏|高正汉|刘成明|赵哲

中国郑州大学计算机与人工智能学院

摘要

预测周围代理的未来轨迹对于自动驾驶车辆的安全运行至关重要。自我监督学习在轨迹预测中受到了广泛关注，因为它通过在未标记数据上进行预训练来降低标注轨迹数据的高成本。然而，由于在捕捉时空交互和分离短期动态与长期趋势方面的局限性，当前的自我监督学习方法难以模拟代理之间的复杂行为。为了克服这些挑战，我们提出了一种结合对比学习的新型掩码自动编码器用于轨迹预测，该算法能够有效提取驾驶环境中代理之间的复杂交互。具体来说，我们引入了一个时间-社交掩码模块，通过联合建模代理的时间动态和社交交互来捕捉短期运动模式，使模型能够从多个角度获得全面的理解。此外，我们引入了一种对比掩码对齐策略，通过将同一轨迹的特征视为正样本，将不同轨迹的特征视为负样本来学习一致的长期运动趋势。在Argoverse 2、INTERACTION和Waymo Open Motion数据集上的广泛实验表明，我们的模型显著优于之前的自我监督学习方法，在轨迹预测方面取得了有竞争力的结果。

引言

轨迹预测是现代自动驾驶系统中的关键任务，近年来由于其帮助车辆理解驾驶场景并做出明智决策的重要作用而受到了大量关注[1]、[2]、[3]、[4]。轨迹预测的目标是预测移动代理（例如行人和车辆）的未来轨迹。然而，由于收集和标注轨迹数据的高成本和劳动密集性，这项任务仍然具有挑战性。为了解决这一挑战，许多研究人员探索了自我监督学习（SSL）[5]、[6]在轨迹预测中的应用。

SSL采用自定义的伪标签作为监督，有助于利用大量未标记数据来开发基础模型。SSL方法主要关注设计多样的 pretext任务，其中两种主流的代表方法是掩码自动编码器（MAE）和对比学习（CL）。MAE随机掩码输入图像的某些部分，并使用上下文信息重建被掩码部分的原始内容[7]。另一种广泛采用的方法是对比学习（CL），它假设同一图像的不同视图代表同一个实例，旨在学习区分不同图像的全局特征表示[8]、[9]。近年来，SSL在轨迹预测应用方面取得了显著进展[5]、[6]、[10]。尽管取得了广泛的成功，现有的自我监督范式仍然难以模拟代理之间的复杂交互。我们将从以下两个角度讨论这些挑战。

(i) 捕捉时空交互的局限性。 在预测轨迹时，理解代理之间复杂的时间和空间交互是一个核心挑战。然而，现有的基于MAE的方法主要集中在孤立的分析维度上，要么是静态的时间建模[10]，要么是社交交互建模[5]。这种单一视角的重建忽略了轨迹数据的双重性质，即同时涉及动态的时间演变和代理间的依赖性。因此，这种建模方法忽略了轨迹数据中固有的多粒度语义信息，限制了深度语义特征的全面提取，并降低了学习到的表示的有效性。此外，现有的轨迹预测框架通常没有针对不同的掩码策略进行优化，导致在训练过程中丢失了一些语义信息。(ii) 时间尺度困境：分离短期动态与长期趋势。 鉴于交通环境的复杂性，预测不同时间尺度上的未来轨迹需要不同的理解和推理方面。短期预测侧重于提取高频的局部运动特征，主要指的是细粒度的运动细节，如瞬时加速度和转向角度。相比之下，长期预测侧重于低频的全局信息，主要指的是高层次的运动模式和代理的目标。然而，现有的模型[5]、[10]往往忽略了这一重要区别。它们通常采用单一的训练范式来处理整个轨迹预测，导致短期和长期运动趋势之间的权衡不佳（见图1）。

为了解决上述问题并在复杂环境中生成更准确的轨迹预测，我们引入了两个关键组件。首先，为了提取多粒度轨迹信息，我们提出了一种时间-社交掩码策略，该策略同时基于时间动态和社交交互采用两种互补的掩码策略。动态运动分割掩码根据运动强度（例如转向、加速度）自适应地分配掩码比例，鼓励模型关注关键信息区域。社交随机掩码随机掩码附近的代理，鼓励模型通过社交上下文推理来推断缺失的信息。这两种策略共同生成了多样的时间-社交视图，鼓励编码器在部分观察下重建细粒度的短期运动动态。为了进一步增强多尺度特征学习，我们引入了分层跳跃连接。其次，在掩码表示的基础上，我们引入了一种对比掩码对齐方法，将同一轨迹在不同掩码策略下的特征视为正样本，将不同轨迹的特征视为负样本。这种策略强制同一轨迹的掩码视图之间的特征一致性，实现了语义层面的对齐和运动模式的全局一致性，从而增强了长期运动特征的建模。通过这些组件的紧密耦合，我们有效地分离了短期动态和长期运动模式，并实现了代理和时间之间的连贯运动理解。

为此，我们引入了对比掩码自动编码器（CMAE-Traj），一个用于自我监督轨迹预测的框架。我们的方法包括一个时间-社交掩码策略，有效利用了代理的时间动态和交互信息。此外，我们引入了一种新颖的对比掩码对齐框架来捕捉长期运动趋势并提高对未见轨迹的泛化能力。我们提出的CMAE-Traj在Argoverse 2、INTERACTION和Waymo Open Motion数据集上取得了有竞争力的性能，显示出比之前的自我监督学习方法显著的改进。

我们工作的主要贡献如下：

•
我们提出了CMAE-Traj，一个统一的自我监督框架，明确分离了短期运动动态和长期运动趋势，并实现了代理和时间之间的连贯运动理解。
•
我们设计了一种时间-社交掩码策略，通过联合建模时间动态和社交交互来捕捉短期运动模式，使模型能够从多个角度学习轨迹表示。为了进一步增强多尺度特征学习，我们引入了分层跳跃连接。
•
我们引入了一种对比掩码对齐机制，以学习不同掩码视图之间的一致长期运动表示，为学习准确性和合理的未来轨迹提供了可靠的指导。
•
我们在Argoverse 2、INTERACTION和Waymo Open Motion数据集上进行了广泛的轨迹预测实验。我们的CMAE-Traj在这些基准测试上取得了有竞争力的结果，并且比我们的基线模型有显著的提升。

以下是论文结构的简要概述。第2节概述了与轨迹预测和自我监督学习相关的工作文献。第3节描述了我们的CMAE-Traj架构及其关键组件。第4节分析了进行的实验和结果。第5节总结了本文。

章节片段

提出的模型

我们提出了CMAE-Traj，一种简单而有效的自我监督学习方法用于轨迹预测。整个框架在图2中展示。在本节中，我们首先介绍了用于轨迹重建的时间-社交掩码模块。然后，我们介绍了分层跳跃增强自动编码器以增强特征表示。最后，我们介绍了对比掩码对齐来捕捉长期运动趋势。

实验

结论

本文介绍了CMAE-Traj，一种简单而有效的自我监督轨迹预测方法。CMAE-Traj结合了时间-社交掩码策略和分层跳跃连接，以捕捉多粒度的时间和交互信息。在掩码策略捕捉短期局部运动动态的能力基础上，我们引入了对比掩码对齐策略来分离长期全局运动趋势。CMAE-Traj在Argoverse

作者贡献声明

徐雅梅：撰写——原始草稿、可视化、软件开发、调查、形式分析、数据管理、概念化。张宏：数据管理、概念化。高正汉：撰写——审阅与编辑、方法论、资金获取。刘成明：撰写——审阅与编辑、方法论、资金获取。赵哲：撰写——审阅与编辑、可视化。

资助

本工作部分得到了国家重点研发计划（2020YFB1712401）、国家自然科学基金（62006210、62206252）以及河南省重点公益项目（201300210500）的支持。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

相关工作

提出的模型

实验

结论

作者贡献声明

资助

利益冲突声明

热点排行