CocoAdapter：通过自约束的多认知适配器实现高效端到端的时序动作检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：CocoAdapter: Efficient End-to-End Temporal Action Detection via Self-Constrained Multi-Cognitive Adapters

【字体：大中小】 时间：2026年01月02日 来源：Neural Networks 6.3

编辑推荐：

　　提出CocoAdapter优化时序动作检测的适配器设计，通过自约束多认知层实现参数高效微调，降低内存消耗至全微调的10%，并在多个数据集上提升mAP。

张立召|田秋红|宁俊晓|袁一涵|杨子宇|杨宇

浙江科技学院计算机科学与技术系，中国浙江省杭州市钱江区第二街928号，310018

摘要

端到端的时间动作检测（TAD）训练通过联合优化视频编码器和动作分类头，在性能提升方面展现了巨大潜力。然而，内存瓶颈限制了端到端TAD的性能。为了解决训练过程中的内存开销问题，本文探讨了在TAD中应用适配器的方法，并提出了一种专门针对TAD的自约束多认知适配器（CocoAdapter）。基于CocoAdapter，我们构建了一个新的基线模型CocoTad。我们提出的CocoAdapter利用自约束投影层根据网络深度调整多个认知卷积组，从而实现针对TAD任务的微调过程。因此，网络只需更新CocoAdapter中的参数即可完成端到端训练，显著降低了训练期间的内存消耗。我们在四个具有代表性的数据集上评估了我们的模型，实验结果表明，我们的CocoTad在mAP方面超越了以往的最先进方法。

引言

时间动作检测（TAD）是视频理解领域中的一个重要任务。其目标是在未修剪的视频中对动作进行时间域分割，在现实生活中有广泛的应用，包括高光检测（Mai等人，2023年）；视频-语言对应关系（Yao等人，2016年）以及动作识别（Alwassel等人，2018年）。为了实现这一目标，近年来许多基于特征的方法对检测头进行了创新。

TAD领域的基于特征的方法首先使用在视频理解数据集上训练的视频编码器来提取视频特征，然后使用这些预提取的特征进行仅头部训练，如图1a所示。由于视频编码器和检测头的训练数据集不同，它们之间存在明显的任务差异。基于特征的方法牺牲了视频编码器的强大特征表示能力，但能够很好地控制内存资源消耗。然而，先前的研究（Liu等人，2022a）表明，在计算资源充足的情况下，端到端（E2E）方法的性能上限将超过基于特征的方法。

在TAD领域，E2E训练旨在通过统一的损失函数来约束视频编码器和动作检测器。然而，如图1b所示，简单的E2E方法（全微调）在训练过程中会消耗大量内存，大约是基于特征方法的10倍。通常，GPU内存使用量会超过24GB，这对大多数研究人员来说是不可接受的。因此，近年来E2E方法受到了更多关注，研究主要集中在控制训练过程中的内存消耗上。

最近，参数高效微调（PEFT）领域取得了快速进展。PEFT旨在使用少量额外参数来微调模型。TAD也需要类似的“高效”方法。最近在TAD领域的研究，如Liu等人（2024年）将一个通用微调模块引入到主干网络中，避免了通过整个视频编码器参数组的反向传播，同时实现了更好的检测性能。然而，PEFT领域的最新发展导致了对微调模块设计和理解的显著变化（Yin等人，2024年）。虽然针对CV的PEFT方法（如AdaptFormer、AdapterFusion、ST-Adapter）在各自的应用场景中有效，但它们并不能直接满足E2E TAD特有的训练约束：长序列会带来严重的内存压力，并且需要稳定的端到端梯度流通过主干网络。简单地移植一个“通用”微调模块往往会导致任务需求与设计选择之间的不匹配。这促使我们开发了一个专门针对TAD的适配器，该适配器明确平衡了时间感受野控制与轻量级、内存友好的耦合——这正是我们CocoAdapter的作用。

为了研究微调模块或适配器在TAD领域的设计和插入位置规则，我们简单地将一个通用适配器转移到基于特征的框架中进行微调，如图1c所示。在实验中，我们将单个适配器应用于主干网络的不同深度，并改变了适配器的认知范围t（卷积核大小）。通过总结实验结果，我们得出结论：TAD领域的适配器设计需要遵循“软连接”和两个原则。如图1c中的彩色表格所示，首先，距离任务边界较远的层（较浅的深度）需要较大的卷积核，而靠近边界（较深的深度）的层则偏好较小的卷积核。适配器的最佳认知范围t在微调过程中不断缩小。其次，适配器的应用深度与微调效果呈正相关。位于较深层（靠近任务边界）的适配器对任务对齐的调整更为有效，而远离边界的层则更侧重于视频编码。可以看出，在微调过程中，各层逐渐变得更加符合TAD的特点，且越靠近任务边界，就越需要对其进行TAD方向的调整。

与图像分类或通用视觉任务中的适配器不同——后者主要增强语义表示——时间动作检测（TAD）的适配器必须同时处理时间依赖性和边界敏感的定位问题。因此，相对于任务边界的插入位置变得至关重要：浅层放置有利于视频表示，而深层放置则必须使特征与动作边界对齐。我们在图1中的分析揭示了一个在之前的CV文献中尚未系统记录的领域特定规则：随着特征接近检测头，最佳时间感受野会随着深度的增加而缩小。这一观察结果激发了我们在CocoAdapter中采用的两个设计原则。

受上述两个原则的启发，我们在本文中提出了一种专门为TAD任务设计的自约束多认知适配器（CocoAdapter）。为了解决原则1，本文利用多认知范围卷积组在微调过程中适应不同深度的最佳认知范围，而不是从NLP领域迁移单个薄卷积层。遵循原则2，CocoAdapter利用通道级自约束来调整每个适配器，控制从视频理解到TAD的软连接的形成。我们的实验将CocoAdapter应用于不同的主干网络，得到了一个优秀的基线模型CocoTad，如图2所示。在多个数据集上的广泛实验表明，使用CocoAdapter可以实现内存可控的参数高效微调，其内存消耗仅为全微调的10%。此外，CocoTad将训练参数减少了5%，同时比全微调取得了更好的性能。最终结果表明，CocoAdapter能够更好地将知识从视频理解领域转移到TAD领域，并在多个数据集上超越了最先进（SOTA）方法。本文的贡献可以总结如下：

•

在本文中，我们通过实验探索了适配器的内容设计和放置逻辑。据我们所知，我们是第一个尝试揭示TAD领域中适配器应用规则和关键点的团队。

•

我们提出了一种自约束多认知适配器（CocoAdapter），它利用不同层次之间的通道元素来约束时间敏感的卷积聚合块，实现了从视频编码器到检测头的软连接。

•

广泛的实验表明，我们的方法在三个TAD数据集上的性能超过了现有的最先进（SOTA）方法，并且可以将训练参数数量和内存消耗分别减少到原来的5%和10%。更重要的是，它能够实现超越全微调的性能。这显著推动了TAD社区中E2E研究的发展。

章节片段

时间动作检测

时间动作检测，也称为时间动作定位，可以分为三种主要架构：单阶段、两阶段和基于DETR的方法。单阶段方法直接从多尺度特征金字塔中定位动作，例如ActionFormer（Zhang等人，2022年）和TriDet（Shi等人，2023年）。这些方法将动作分类和时间边界回归统一到一个阶段（Li等人，2025年；Shao等人，2023年；Yang等人，2023a）。相比之下，两阶段方法

方法论

在第3.1节中，我们首先定义了TAD任务。然后，在第3.2节中，我们展示了TAD中适配器设计规则的实验结果。基于这些规则，我们在第3.3节提出了CocoAdapter的设计架构。

数据集和指标

我们选择了ActivityNet-1.3（Heilbron等人，2015年）、THUMOS14（Idrees等人，2017年）、Charades（Sigurdsson等人，2018年）和Multi-THUMOS（Idrees等人，2017年）来评估我们提出的方法。ActivityNet-1.3和THUMOS14是从网络上收集的第三人称未编辑视频，分别包含19,994个和413个视频。Multi-THUMOS包含来自THUMOS14动作检测数据集的413个视频，总时长为30小时，带有密集的多标签帧级动作注释。因此，它们具有相同的

结论

在这项工作中，我们介绍了CocoTad，这是一种专门为时间动作检测（TAD）设计的参数高效端到端方法。通过实验推导出TAD领域中适配器的设计原则，我们提出了CocoAdapter作为新的基线模型CocoTad。通过在多个数据集上的广泛实验，我们证明了我们端到端方法的可行性和有效性。CocoTad在各种基准测试中取得了最先进的性能。

局限性和未来工作

尽管CocoTad有效降低了内存开销，但在扩展到更大的主干网络（如VideoMAE-H）时存在局限性。虽然适配器微调允许冻结大多数参数，但这些冻结的参数在训练和推理过程中仍然需要计算资源。因此，CocoAdapter的主要优势在于降低了训练期间的内存消耗，使得端到端训练更加可行。我们预计，在更大的主干网络上进行训练将带来更好的性能提升

CRediT作者贡献声明

张立召：撰写——原始草稿、方法论、调查、形式分析、概念化。田秋红：监督、资源获取、数据管理。宁俊晓：验证、监督、资源管理。袁一涵：验证、软件开发、数据管理。杨子宇：撰写——审阅与编辑、原始草稿撰写。杨宇：撰写——审阅与编辑、可视化。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

致谢

我们感谢编辑和审稿人对本手稿的仔细审阅。我们还要感谢以下资金来源的支持：国家自然科学基金（编号51405448）；2024年浙江省大学生科技创新计划（编号2024R406A030）；以及名为“基于时空卷积块和时空自注意力机制的动作识别方法研究”的研究项目（编号）。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号