《Exploratory Research in Clinical and Social Pharmacy》:MMFlow: Multimodal pedestrian trajectory prediction based on Mambaformer and one-step Mean Flow
编辑推荐:
本文介绍了一种新颖的行人轨迹预测方法MMFlow,旨在解决现有生成式模型(如扩散模型和基于隐式最大似然估计的流匹配)在复杂动态场景下面临的模式崩溃(mode collapse)和高推理延迟(high inference latency)挑战。该方法创新性地引入了运动模态先验指导的噪声增强模块(MMGNE)以缓解模式崩溃,设计了具有线性复杂度的生物启发式解码器Mambaformer以高效捕获长短时依赖,并结合一步均值流(Mean Flow)实现了毫秒级的实时高精度预测,在ETH/UCY和SDD数据集上取得了领先的minADE/minFDE指标。
亮点
为了应对上述挑战,我们提出了一种融合Mambaformer与一步生成均值流(Mean Flow)的新颖行人轨迹预测方法——Mambaformer与一步Mean Flow(MMFlow)。具体而言,我们在编码阶段利用运动模态先验来生成融合嵌入,通过整合行人的运动信息缓解模式崩溃问题。我们提出了一种受生物启发的Mambaformer解码器,它通过双向Mamba+(Bi-Mamba+)与遗忘门的结合来解码融合嵌入。得益于其线性复杂度,它显著降低了计算成本,并通过平衡历史和未来的运动趋势,精确地捕捉了短期和长期的轨迹依赖关系。随后,我们采用一步生成的均值流策略,在保持多模态轨迹预测高精度的同时,提高了推理速度。在ETH/UCY和SDD数据集上的实验结果证明了MMFlow的优异性能。具体而言,其在ETH/UCY和SDD上的最小平均位移误差/最小最终位移误差(minADE/minFDE)值分别为0.19/0.31和7.32/11.69。此外,MMFlow的推理仅需2毫秒,为实时轨迹预测提供了一个高效的解决方案。代码已在GitHub上公开。
引言
随着自动驾驶技术的不断发展,在混合交通环境中避免潜在的人车冲突至关重要。与在检测到行人时才刹车的被动策略不同,准确预测行人的未来轨迹可以让车辆提前制动,在保障行人安全的同时提升驾驶体验。同时,行人轨迹预测可以有效支持交通流管理、信号控制和事故预防,从而提高道路使用效率和安全性。因此,行人轨迹预测在自动驾驶、智能交通和人机交互等应用中具有重要价值。然而,由于行人运动的复杂性和高度不确定性,准确预测行人轨迹仍然是一个重大挑战。在复杂动态环境中提高行人轨迹预测的准确性和可靠性,是学术界和工业界亟待解决的重要问题。行人轨迹预测的准确性和实时性直接决定了自动驾驶决策的安全性、智能交通调度的效率以及人机交互的协调性。现有基于生成模型的方法在复杂场景中容易出现模式崩溃和高推理延迟等瓶颈,难以满足实际应用对精度和实时性的双重需求。本研究旨在提高行人轨迹预测的准确性和实时性,这对于推动自动驾驶、智能交通系统和人机交互等实际应用具有重要意义。具体而言,高效且多样化的轨迹预测可以显著增强系统在复杂动态环境中的决策能力,从而改善行人安全和交通效率。
早期研究将行人轨迹预测视为时间序列建模问题,使用社会力模型、循环神经网络(RNN)和图卷积网络(GCN)等方法对行人运动轨迹进行建模。然而,这些方法在复杂环境和长期预测任务中适应性有限,存在以下固有缺点:社会力模型依赖于物理相互作用的简化假设,无法刻画由行人主观意图驱动的突然行为(如突然转向或临时停止)。具体而言,基于RNN的方法存在梯度消失问题,阻碍了对极长序列中深层依赖关系的捕捉,也难以对复杂场景中行人运动的动态时序相关性进行充分建模。虽然GCN通过建模行人间的空间关系提升了轨迹预测精度,但它存在两个关键局限:一是适应动态环境变化和多模态轨迹的能力较弱;二是由于人类根据内在意图调节未来动作,行人轨迹本身具有高度不确定性。为应对这一挑战,一些研究使用潜变量来表示多模态的未来轨迹。例如,使用生成对抗网络(GAN)将分布扩展到所有可能的未来轨迹,而另一些研究则使用条件变分自编码器(CVAE)来编码未来轨迹的多模态分布。尽管取得了显著进展,但这些方法仍有其固有局限。多生成器架构的GAN增加了训练的复杂性和不稳定性,且对低模态场景的适应性差。CVAE可能生成不现实的轨迹,其迭代优化过程也显著增加了计算复杂度和时间开销。
近年来,去噪扩散模型(DDM)已被广泛应用于概率时间序列预测。虽然现有的扩散模型在一定程度上提高了预测精度,但它们存在采样速度慢、计算复杂度高的问题,特别是在对时间敏感的任务中,其推理速度和实时性不足。因此,流匹配(flow matching)提供了一种更高效的采样方法。它通过匹配从初始噪声分布到数据分布的粒子流(即向量场)来直接建模连续轨迹,从而实现快速样本生成。然而,其推理速度仍无法满足自动驾驶的实时需求。此外,基于隐式最大似然估计(IMLE)的流匹配由于独立采样而缺乏空间多样性,可能导致未来轨迹的多样性不足,引发模式崩溃问题。
为了应对上述问题,我们提出了一种基于MMFlow的新型行人轨迹预测模型。如图1所示,MMFlow通过整合运动模态先验来缓解模式崩溃问题。此外,我们利用一步流匹配方法来生成精确的未来轨迹,并具备实时性。在解码阶段,我们设计了一个改进的Mamba结构。它有效地将长期依赖建模与短期动态捕捉相结合,从而能够高质量地生成多模态未来轨迹。具体来说,本工作的创新点如下:
- •
- 1.
我们提出了运动模态指导的噪声增强(MMGNE)模块,以缓解现有轨迹预测方法中普遍存在的模式崩溃问题。与现有依赖随机噪声或潜变量采样来保证多样性的生成方法不同,MMFlow明确地将运动先验约束整合到噪声轨迹中。这使得MMGNE模块能够增强对多模态轨迹的建模,从而缓解由行人轨迹数据分布差异引起的模式崩溃。
- •
- 2.
我们提出了Mambaformer,一种结合了Bi-Mamba+和Transformer的生物启发式解码器,有效解决了传统Transformer固有的二次方复杂度问题。具体来说,Bi-Mamba+模块通过模拟大脑的双向扫描机制和一个模拟选择性记忆更新和遗忘的遗忘门,平衡了历史和未来趋势。这种设计能够精确捕捉短期和长期依赖关系,同时提高推理速度和预测精度。
- •
- 3.
为了解决扩散模型和标准流匹配依赖耗时的迭代去噪或数值积分的问题,我们引入了均值流(Mean Flow)。它不仅保证了高质量的轨迹预测,而且通过单步采样实现了多模态轨迹的高效生成。因此,在通过简化的训练过程保持高生成精度的同时,显著降低了计算成本。
MMFlow旨在缓解生成模型中普遍存在的模式崩溃问题,同时实现毫秒级实时推理,并保证预测准确性和多样性。它通过三个核心模块的深度融合实现了理论和性能的突破:(1) MMGNE模块整合运动先验以增强多模态建模,从源头缓解模式崩溃;(2) Mambaformer解码器在解码阶段以线性复杂度高效捕捉长短时依赖,提高推理速度和预测精度;(3) 在上述两个组件的基础上,引入了均值流生成框架,通过一步采样高效生成高质量的多模态轨迹。这三项创新并非孤立存在,而是共同构成了“效率-准确性-多样性”的闭环系统,每一部分都不可或缺。实验结果表明,MMFlow在ETH/UCY和SDD数据集上实现了SOTA性能,且推理延迟仅为2毫秒,为自动驾驶提供了一个高效可靠的解决方案。本文其余部分组织如下:第2节总结了相关工作。第3节详细介绍了提出的MMFlow。第4节和第5节分别报告了评估结果和结论。
结论
本文提出了MMFlow,一种基于Mambaformer和一步均值流的多模态行人轨迹预测方法。MMGNE模块用于将模态先验整合到噪声轨迹中,增强了MMFlow进行多模态轨迹预测的能力。Mambaformer是一种结合了双向Mamba+和Transformer的生物启发式解码器,旨在模拟大脑的双向记忆扫描和选择性遗忘机制。其输出被转换。