近年来,预训练的基于段的轨迹表示学习模型在智能交通系统(ITS)的下游任务中展示了巨大的潜力,例如旅行时间估计(TTE;[1])、路径排名(PR;[2])、道路速度推断(RSI;[3])和道路段分类(RSC;[3])。这些模型[1]、[3]、[4]、[5]、[6]、[7]主要利用基于变压器的模块[8]从历史轨迹中提取语义表示,从而促进跨任务和领域的知识转移。
然而,将这些大规模预训练模型适配到下游应用中存在挑战。常见的方法是进行全面微调,使用预训练的权重进行初始化并调整所有参数。这种策略通常会带来显著的性能提升,但也会增加计算开销,尤其是在反向传播过程中的梯度计算时。此外,对于依赖序列信息的任务,这种方法可能会产生次优结果。这是因为全面微调可能会破坏预训练期间获得的广泛而稳健的序列模式(如第3.2节第1部分所讨论的)。
为了在最大适应能力和最小参数使用量之间取得平衡,探索高效的轨迹表示模型微调方法变得至关重要。虽然参数高效微调(PEFT)在自然语言处理(NLP)[9]和计算机视觉(CV)[10]中取得了显著成功,通过冻结大多数参数,但将其直接应用于ITS却颇具挑战性。与NLP或CV不同,ITS中的轨迹相关任务在含义子空间上表现出极端的异质性。例如,估计旅行时间需要捕捉时间动态,而分类道路属性则依赖于静态空间属性。我们的实证分析表明,直接应用对称适配(NLP/CV中的标准方法)到这些多样化的轨迹任务中会导致次优性能,因为严重的任务内干扰。这需要一个定制的架构,能够同时支持多样化的子空间提取和统一的特征重建(如第3.2节第2部分所讨论的)。
基于这些见解,我们的初步实验和对标准适配器模块的进一步可视化表明,一个最优的架构应该具有显式的非对称结构。这样的设计可以有效地覆盖多样化的参数优化子空间,并避免任务内干扰,确保在各种任务中的稳健泛化(如第3.3节所示,并在第5.2节和第5.3节中详细说明)。基于此,我们为ITS任务提出了一种领域特定的架构,称为Asymdapter,它结合了非对称适配和多个低秩分支。与传统适配器的对称结构不同,Asymdapter具有一个共享的上采样器和多个下采样器。这种设计在保持参数效率的同时,通过独立模块实现灵活的细粒度适配。具体来说,多个下采样器允许每个小头更本地地适应特定子空间,扩展参数表示空间并减少对整体权重结构的干扰。共享的上采样器作为任务特定的解码器,确保全局对齐。
我们在两个真实世界的轨迹数据集上评估了Asymdapter,并与16个基线进行了对比,以全面评估其有效性、效率、合理性和适应性。实验结果在多个与轨迹相关的任务中显示出了一致的改进,验证了我们方法的优越性。
Asymdapter提供了几个关键优势:
据我们所知,这是首次专门尝试设计用于改进ITS应用中预训练的基于段的轨迹表示模型的适配器架构。通过理论和实验分析,揭示了全面微调和现有PEFT方法的局限性,展示了单任务场景中的内在干扰,并证明了显式非对称架构的必要性。
为了解决任务内干扰并涵盖更广泛的参数优化子空间,我们提出了Asymdapter。这种非对称适配器具有一个共享的上采样器和多分支下采样器,有效地解决了全面微调的计算效率问题,同时展示了稳健的泛化能力。此外,还加入了一个辅助的负载平衡损失,以促进专家路由的平衡。
在来自波尔图和成都的真实世界数据集上的广泛实验表明,Asymdapter在使用更少的参数的情况下实现了最先进的性能,并且前向计算成本相当。这些结果确立了Asymdapter作为资源受限的ITS任务的高效架构。
本文的其余部分组织如下。第2节回顾了参数高效微调和轨迹表示学习的相关工作。第3节通过初步实验和可视化分析了当前微调方法的局限性。第4节详细介绍了所提出的Asymdapter框架的方法论。第5节介绍了实验设置、全面的性能比较、消融研究和效率分析。最后,第6节和第7节总结了本文并讨论了未来的研究方向。