增强目标语义信息以提升视觉-语言跟踪的效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Visual Communication and Image Representation》：Enhancing target semantic information for vision-language tracking

【字体：大中小】 时间：2026年03月25日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　视觉语言跟踪框架ETS-VLTrack提出多模态融合、对比对齐和时序聚合模块，有效提升语义信息捕获与时空建模能力，实验验证其41FPS的高效跟踪性能。

吴长军|林梦琪|王巧华|张焕龙|邱周静子|王晓

中国郑州轻工业大学智能制造机械设备河南省重点实验室，郑州 450002

摘要

视觉语言跟踪（VLT）因其能够克服传统视觉跟踪的局限性而受到越来越多的关注。然而，现有的VLT方法仍然难以有效捕捉目标的语义信息，这主要是由于多模态交互策略效率低下以及对时空信息的利用不足。为了解决这些问题，本文提出了一种名为ETS-VLTrack的新VLT框架，以增强目标的语义信息。首先，为了实现高效的多模态交互并获取与目标相关的高频语义信息，提出了一种差异性多模态融合模块。该模块通过集成非对称混合注意力机制和双向语义交互注意力来设计新的交互策略，从而能够区分语言描述、模板图像和搜索区域之间的交互，有效提升视觉和语言特征的融合效果。其次，为了提高多模态学习效率，引入了对比对齐模块。该模块利用对比学习来增强不同模态特征之间的一致性，并抑制不匹配的干扰，为多模态交互提供更合理的表示。最后，提出了一个时间上下文聚合模块来学习时空信息。该模块采用滑动窗口策略捕获历史时间信息，并通过注意力机制将其整合进来，从而为当前帧生成时间表示。这一过程增强了VLT对目标外观变化的适应性。在五个主流视觉语言跟踪基准测试上的实验表明，所提出的方法在保持41 FPS的稳定效率的同时，取得了优异的跟踪性能，充分验证了其优越性和有效性。

引言

视觉对象跟踪（VOT）的目标是根据目标在首帧中的边界框在连续的视频帧中持续定位目标。作为一项基本的视觉任务，VOT在许多计算机视觉应用中发挥着关键作用，如人机交互、视频监控和自动驾驶。尽管通过高质量的数据集提出了许多高效的纯视觉跟踪器，但由于现实世界场景的复杂性导致RGB成像质量的下降，这些跟踪器仍然存在跟踪错误[1],[2],[3],[4],[5],[6],[7]。与视觉信息相比，语言信息不仅可以识别不同时间帧中具有动态外观的目标，还可以指定目标的具体语义（如颜色、形状、类别）。因此，通过结合视觉和语言信息开发有效的视觉语言跟踪器对于实现鲁棒跟踪至关重要。

视觉语言跟踪（VLT）方法大致可以分为双流和单流两类：1）双流VLT包括两个特征提取模块和一个特征融合模块，例如DMITrack [8]、VLT_TT [9]、JointNLT [10]、CapsuleTNL [11]等。在跟踪过程中，首先分别提取视觉特征和语言特征，然后通过设计良好的融合模块将两种模态的信息进行整合。分离的特征提取和融合过程阻碍了早期视觉语言交互，限制了模型区分目标和背景的能力。2）单流VLT，如All-in-one [12]、OVLM [13]、MMTrack [14] 和 QueryNLT [15]，通过统一的变换器编码器将多模态特征的提取和融合整合到一个过程中，从而无需额外的融合模块。这种架构不仅优化了模型的复杂性，还促进了不同模态之间的深度整合。然而，VLT仍然存在以下问题：首先，尽管当前的单流跟踪器由于利用了统一的变换器架构进行特征交互且没有额外的融合模块而更加高效，但变换器在突出目标方面的潜力尚未得到充分利用，这限制了视觉语言跟踪的性能。其次，由于视觉和语言模态在特征空间中的分布不一致，直接进行多模态特征交互可能会引入噪声或误导性信息，从而降低学习效率。第三，时间语义信息在目标跟踪中起着重要作用。现有的VLT仍然很少使用时间信息，或者仅依赖于基于相对复杂模块的有限历史信息。这些问题最终导致了多模态交互策略效率低下、时空信息提取不足以及难以有效捕捉目标语义信息。为了解决这些问题，我们提出了一种新的VLT框架，该框架设计了多模态融合策略，充分利用变换器的潜力，通过对比学习增强视觉和语言特征的一致性，并实现高效的时间空间信息建模，从而构建出具有增强目标语义的VLT。请参见图1，了解我们的VLT与现有VLT方法之间的总体比较。

具体来说，语言描述

L

通过分词器转换为字符串形式的标记。同时，搜索区域

S

和模板

T

通过图像补丁嵌入转换为标记，并进行下采样以减少由于较大步长可能导致的潜在信息损失。随后，它们被共同输入到对比对齐模块中，以增强不同类型输入特征之间的语义一致性。该模块采用对比学习机制，使匹配对在特征空间中更加对齐，同时保持不匹配对的分离，从而保持语义一致性并提高后续多模态学习的效率和准确性。对齐后的多模态特征被输入到差异性多模态融合模块中。该模块结合了非对称混合注意力机制和双向语义交互注意力，构建适合视觉语言跟踪的多模态交互策略，从而产生更鲁棒和更具区分性的目标特征。其中，非对称混合注意力机制从参考信息中移除了不必要的跨注意力路径，确保了目标语义的有效融合，同时减少了冗余计算和误导性特征干扰的风险。双向语义交互注意力机制结合了自注意力和跨注意力，进一步增强了目标模板和语言描述中目标信息的表达能力。为了捕获目标的时间语义信息，引入了时间上下文聚合模块。该模块通过滑动窗口策略和注意力机制整合历史时间信息，生成增强的时间特征。然后，这些特征被输入到时空增强模块中与空间特征进行融合。最后，通过跟踪头预测目标在当前帧中的位置，从而实现高精度的视觉语言跟踪。主要贡献总结如下：

为了实现高效的多模态交互并获取与目标相关的高频语义信息，提出了一种差异性多模态融合模块。通过结合非对称混合注意力与双向语义交互注意力，该方法建立了一种有效的交互策略，促进了更鲁棒的多模态融合，并产生了更具区分性的目标特征。

为了提高多模态融合效率，引入了对比对齐模块。该模块利用对比学习将对齐的特征拉近，将未对齐的特征分开，从而产生可靠的多模态表示。

为了模拟目标的时间动态，引入了时间上下文聚合模块。该模块采用滑动窗口策略捕获历史上下文，并通过注意力机制将其整合进来，为当前帧生成丰富的时间表示。

部分片段

视觉跟踪

视觉跟踪器的目标是在后续视频帧中准确定位或预测目标对象的位置。随着变换器[16]和视觉变换器（ViT）[17]的引入，基于变换器的跟踪器逐渐成为主流方法。STARK [18]利用编码器-解码器变换器架构来捕获视频序列中的时空信息。CSWinTT [19]应用多尺度循环移位窗口注意力机制进行目标跟踪，

概述

ETS-VLTrack的总体框架如图2所示。该模型接受三个输入：语言描述

L

、模板帧和搜索区域

S \in R^{3 \times H_{t} \times W_{t}}

，其中

H

和

W

分别表示图像的高度和宽度。语言描述

L

使用BERT分词器进行编码，生成表示。一个特殊的[CLS]标记被添加到序列的开头作为起始标记。视觉模板

T

和搜索区域

S

通过图像转换成标记

实现细节

网络细节。我们使用HiViT-Base [40]作为视觉编码器，共有L=20层。解码器的层数为M=3，隐藏层大小为256，注意力头的数量为8，前馈网络（FFN）的隐藏层大小为512。视觉输入由128 × 128的模板图像和256 × 256的搜索区域图像对组成。文本分词器使用BERT [41]，最大语言序列长度为40，包括一个[CLS]标记。

结论

本文提出了一种新的视觉语言跟踪框架ETS-VLTrack，通过丰富目标语义信息来提高跟踪性能。其核心主要包括三个部分：1）差异性多模态融合模块，结合非对称混合注意力机制和双向语义交互注意力，以实现以目标为中心的标记建模；2）对比对齐模块，增强跨模态特征的一致性同时抑制不匹配的干扰；3）

CRediT作者贡献声明

吴长军：监督、方法论、概念化。林梦琪：撰写——原始草稿、软件、数据整理。王巧华：验证、软件、调查。张焕龙：验证、形式分析。邱周静子：撰写——审阅与编辑、监督。王晓：调查、数据整理。

未引用的参考文献

[62], [63]

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（62273243, 62203480）、河南省重点研发项目（241111222400）、河南省重大专项（241100220200）、河南省自然科学基金（242300421055）以及河南省科技厅（241111210400, 235200810022）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言