Asymdapter:一种用于高效微调基于段的轨迹表示模型的非对称适配器架构

【字体: 时间:2026年03月14日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  轨迹相关任务在智能交通系统中具有重要研究价值,但现有全参数微调方法存在计算成本高、内存消耗大等问题。本文提出基于异构适配器Asymdapter的高效微调框架,通过多分支下采样适配不同子空间与共享上采样重构公共潜在空间,有效解决任务间干扰问题。实验表明,该框架在四项轨迹任务上均优于基线方法,且参数量减少42%的同时保持相同推理速度。

  
廖天喜|陶旭翔|韩亮哲|徐毅|孙蕾蕾|吕卫峰
北京航空航天大学,复杂与关键软件环境国家重点实验室(CCSE),计算机科学与工程学院,北京,100191,中国

摘要

在智能交通系统(ITS)中,与轨迹相关的任务受到了广泛关注,并通过基于段的轨迹表示学习模型取得了显著成果。然而,当前的方法通常需要全面调整,即更新所有预训练的模型参数以适应下游任务,这导致较高的计算成本和内存使用量。在本文中,我们提出了一种高效且有效的微调方法,用于基于段的轨迹表示模型来处理与轨迹相关的任务。实证分析表明,直接转移现有技术是次优的,因为轨迹任务中的子空间具有不同的含义,因此需要更细粒度的方法来有效捕获多样化的任务特定表示。为了解决这个问题,我们引入了一个领域特定的非对称适配器框架Asymdapter,它解决了现有适配器架构中的任务内干扰问题,并在性能和参数效率之间取得了平衡。具体来说,虽然需要多个下采样器来提取不同的子空间表示,但一个共享的上采样器就足够了——甚至更可取——将这些表示映射回一个共同的潜在空间。Asymdapter在使用两个真实世界数据集的四个轨迹任务中,无论是在效率还是泛化能力上都优于标准基线。代码将在https://github.com/xxxx处提供。

引言

近年来,预训练的基于段的轨迹表示学习模型在智能交通系统(ITS)的下游任务中展示了巨大的潜力,例如旅行时间估计(TTE;[1])、路径排名(PR;[2])、道路速度推断(RSI;[3])和道路段分类(RSC;[3])。这些模型[1]、[3]、[4]、[5]、[6]、[7]主要利用基于变压器的模块[8]从历史轨迹中提取语义表示,从而促进跨任务和领域的知识转移。
然而,将这些大规模预训练模型适配到下游应用中存在挑战。常见的方法是进行全面微调,使用预训练的权重进行初始化并调整所有参数。这种策略通常会带来显著的性能提升,但也会增加计算开销,尤其是在反向传播过程中的梯度计算时。此外,对于依赖序列信息的任务,这种方法可能会产生次优结果。这是因为全面微调可能会破坏预训练期间获得的广泛而稳健的序列模式(如第3.2节第1部分所讨论的)。
为了在最大适应能力和最小参数使用量之间取得平衡,探索高效的轨迹表示模型微调方法变得至关重要。虽然参数高效微调(PEFT)在自然语言处理(NLP)[9]和计算机视觉(CV)[10]中取得了显著成功,通过冻结大多数参数,但将其直接应用于ITS却颇具挑战性。与NLP或CV不同,ITS中的轨迹相关任务在含义子空间上表现出极端的异质性。例如,估计旅行时间需要捕捉时间动态,而分类道路属性则依赖于静态空间属性。我们的实证分析表明,直接应用对称适配(NLP/CV中的标准方法)到这些多样化的轨迹任务中会导致次优性能,因为严重的任务内干扰。这需要一个定制的架构,能够同时支持多样化的子空间提取和统一的特征重建(如第3.2节第2部分所讨论的)。
基于这些见解,我们的初步实验和对标准适配器模块的进一步可视化表明,一个最优的架构应该具有显式的非对称结构。这样的设计可以有效地覆盖多样化的参数优化子空间,并避免任务内干扰,确保在各种任务中的稳健泛化(如第3.3节所示,并在第5.2节和第5.3节中详细说明)。基于此,我们为ITS任务提出了一种领域特定的架构,称为Asymdapter,它结合了非对称适配和多个低秩分支。与传统适配器的对称结构不同,Asymdapter具有一个共享的上采样器和多个下采样器。这种设计在保持参数效率的同时,通过独立模块实现灵活的细粒度适配。具体来说,多个下采样器允许每个小头更本地地适应特定子空间,扩展参数表示空间并减少对整体权重结构的干扰。共享的上采样器作为任务特定的解码器,确保全局对齐。
我们在两个真实世界的轨迹数据集上评估了Asymdapter,并与16个基线进行了对比,以全面评估其有效性、效率、合理性和适应性。实验结果在多个与轨迹相关的任务中显示出了一致的改进,验证了我们方法的优越性。
Asymdapter提供了几个关键优势:
据我们所知,这是首次专门尝试设计用于改进ITS应用中预训练的基于段的轨迹表示模型的适配器架构。通过理论和实验分析,揭示了全面微调和现有PEFT方法的局限性,展示了单任务场景中的内在干扰,并证明了显式非对称架构的必要性。
为了解决任务内干扰并涵盖更广泛的参数优化子空间,我们提出了Asymdapter。这种非对称适配器具有一个共享的上采样器和多分支下采样器,有效地解决了全面微调的计算效率问题,同时展示了稳健的泛化能力。此外,还加入了一个辅助的负载平衡损失,以促进专家路由的平衡。
在来自波尔图和成都的真实世界数据集上的广泛实验表明,Asymdapter在使用更少的参数的情况下实现了最先进的性能,并且前向计算成本相当。这些结果确立了Asymdapter作为资源受限的ITS任务的高效架构。
本文的其余部分组织如下。第2节回顾了参数高效微调和轨迹表示学习的相关工作。第3节通过初步实验和可视化分析了当前微调方法的局限性。第4节详细介绍了所提出的Asymdapter框架的方法论。第5节介绍了实验设置、全面的性能比较、消融研究和效率分析。最后,第6节和第7节总结了本文并讨论了未来的研究方向。

节选

参数高效微调

参数高效微调方法只调整某些参数或为新任务学习外部模块。它们除了预训练的模型外,只需要存储和加载少量特定于任务的参数,从而在部署时大大提高了运营效率。这些方法大致可以分为四类:基于添加的方法[11]、[12]、[13]、[14]、基于选择的方法

当前PEFT方法在基于段的轨迹传输中的局限性

基于段的轨迹表示学习模型已经得到了广泛研究,但在将这些表示微调以适应道路网络中的各种下游任务时,其泛化能力尚未得到足够关注。这影响了对这些任务进行高效调优的深入探索。问题在于:1) 由于全面微调似乎可以为下游任务带来相对有竞争力的结果,是否有必要追求更先进的轨迹基任务微调技术?

方法论

在本节中,我们介绍了所提出的Asymdapter,这是一种用于高效微调基于段的轨迹表示的非对称适配器架构。Asymdapter的架构如图4所示。

实验

在本节中,我们在两个真实世界的轨迹数据集上评估了所提出的Asymdapter,并与16个基线进行了对比,以全面评估其在基于段的轨迹表示学习模型的高效微调领域的有效性、效率、合理性和适应性。

讨论:为什么非对称适配器可能有帮助

非对称适配器的设计是基于对适配器式参数化中如何编码任务多样性的观察。在多任务适应场景中,不同的下游目标隐含地需要不同的适应子空间。因此,强制所有任务共享一个单一的瓶颈映射通常会导致不兼容的梯度,从而导致负向迁移。建议采用模块化参数化,即使在固定参数的情况下也是如此

结论

在这项研究中,解决了在ITS中为单任务/多任务场景适配预训练轨迹表示模型的挑战。研究发现,标准微调和对称适配器方法通常受到参数效率低下和任务干扰的制约。为了克服这些障碍,提出了一种新颖的非对称架构Asymdapter。通过将专家多样性分配给投影阶段(多个下采样器),同时强制进行共享重建

CRediT作者贡献声明

廖天喜:撰写——原始草稿、可视化、软件、方法论、概念化。陶旭翔:验证、方法论。韩亮哲:撰写——审稿与编辑、监督、形式分析。徐毅:调查、数据整理。孙蕾蕾:监督、资源获取。吕卫峰:监督、资源获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作得到了中国国家自然科学基金(编号62394332, U24B20171, 62272023)和北京市交通委员会科学技术项目(2025-KJC-03-003)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号