多事件表示与多层次融合技术在鲁棒RGB事件对象跟踪中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Multi-Event Representation and Multi-Level Fusion for Robust RGB-Event Object Tracking

【字体：大中小】 时间：2026年02月24日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　提出MEMLTrack，采用三分支架构融合RGB和事件数据，通过多事件表示（EF和ET）增强时空特征，结合IEA模块实现动态交互，HFTFS策略进行多层次融合，MFE模块提升特征表示，实验证明在复杂场景下性能最优。

何玉婷|范斌|万哲雄|刘琪|戴宇超

西北工业大学电子与信息学院，陕西信息获取与处理重点实验室，中国西安710129

摘要

将RGB帧与事件数据相结合，可以利用事件相机的运动线索和RGB相机的纹理线索实现跨模态对象跟踪。然而，现有的RGB-事件跟踪方法由于采用单级融合，常常存在事件信息提取不足和跨模态交互不够的问题，从而导致对象跟踪性能瓶颈。为了解决这些问题，我们提出了一种新颖的三分支架构，该架构利用多事件表示和多级融合来实现鲁棒的RGB-事件跟踪。具体来说，我们首先结合了两种互补的事件表示方法：事件帧和时间表面，以全面捕捉移动对象的空间时间信息。其次，设计了一个基于注意力机制的交互式增强与自适应（IEA）模块，以高效且自适应地促进不同模态之间的信息交互和特征融合。第三，我们引入了混合特征变换与融合策略（HFTFS），在融合过程中同时提取和整合复合特征、差异特征和联合特征，从而实现鲁棒的跨模态信息整合。最后，通过逐步进行模内和模间特征融合，生成了更具信息量的特征表示。在多个具有挑战性的数据集上的广泛实验表明，我们的方法达到了先进的性能水平。消融研究进一步验证了每个组件的贡献。代码将公开提供。

引言

视觉对象跟踪是计算机视觉中的一个活跃研究领域，其目标是在给定视频中估计特定对象的坐标和尺度[1]。它在导航、监控、机器人技术、交通控制和增强现实等领域有着众多实际应用[2]。大多数现有的跟踪器都是为RGB相机开发的，并应用于各种领域。许多研究人员为这一领域做出了重要贡献，提出了多种经典方法[3]、[4]、[5]、[6]、[7]、[8]、[9]，这些方法从不同角度提供了鲁棒的解决方案。然而，仅依赖RGB图像纹理线索的跟踪方法受到固定帧率和动态范围的限制，在过曝、快速运动和低光照等极端条件下往往表现不佳。引入新的传感器以克服RGB相机的局限性，为鲁棒对象跟踪提供了有希望的途径。

事件相机是一种异步传感器，它在视觉信息的获取方式上带来了范式的转变[14]。它能够在极端光照或高速运动条件下捕捉高质量的时间亮度变化，并已广泛应用于光流估计[15]、深度估计[16]、对象分割[17]、对象检测[18]等领域。这些领域的成功自然推动了事件相机在视觉对象跟踪中的探索，旨在克服基于帧的相机在快速运动和极端光照条件下的根本限制，如运动模糊和动态范围有限。因此，提出了许多RGB-事件跟踪方法。在早期阶段，研究人员主要采用了基于孪生网络的方法[10]、[19]、[20]，这些方法通常依赖一系列独立组件来分阶段处理特征提取、跨模态整合和目标匹配。一个典型的例子是FENet[10]，它引入了专门的跨域整合器来弥合RGB域和事件域之间的差距。然而，这种范式往往由于依赖解耦的模块设计而导致计算冗余和推理效率低下。因此，研究逐渐转向了单阶段统一架构。CEUTrack开创了一种统一的单阶段骨干网络，可以同时进行特征提取、融合和交互式学习。在此统一框架的基础上，最近的研究探索了更有效的策略来充分释放预训练模型的潜力并处理复杂场景。HRCEUTrack[13]引入了掩码建模和正交高秩损失，以进一步增强ViT[21]的跨模态能力。同时，ViPT[22]利用视觉提示来高效地将基础模型适应于多模态任务，且参数更新最少。此外，为了应对干扰物干扰和多尺度表示的挑战，CSAM[23]提出了联合跟踪目标和干扰物的概念，而TENet[24]通过集成多尺度事件特征和自适应的相互引导融合模块实现了双模态协作建模。如图1(a)所示，现有的RGB-事件跟踪框架从孪生网络架构演变为统一架构，这突显了多模态融合在更准确的对象跟踪中的显著优势。尽管如此，这些集成式多模态设计在充分利用不同模态的互补优势方面仍存在两个限制：

事件信息提取有限。现有方法[10]、[12]、[22]、[23]、[24]、[25]通常采用单一事件表示，如事件帧（EF）[26]、事件时间表面（ET）[27]或事件体素（EV）[28]。虽然这些表示来自同一事件流，但它们的构建方式不同。其中，事件帧在固定时间窗口内累积事件以保持空间结构，但时间细节有限。事件时间表面记录每个像素的最新时间戳，并应用归一化来编码具有速度不变性的运动动态（见图2(a)）。显然，单一事件表示难以同时捕捉这两个方面。基于此，我们在图2(c)中的探索性分析表明，一致地整合多种事件表示可以提高性能。特别是EF和ET的结合带来了最显著的改进。这种改进源于EF和ET的互补协同作用：EF保持了目标的结构轮廓，而ET编码了细粒度的时间动态。通过结合它们，模型可以同时保持结构稳定性和运动感知，同时避免单一表示中的信息丢失。尽管这种方法简单，但它产生的时空表示更为全面，计算开销仅略有增加（MACs增加了大约1到1.5倍），这进一步激发了我们采用多事件策略进行鲁棒跟踪的动机。
信息交互不足。与表示限制并行，现有方法通常采用单级融合框架（见图1(a)），将多模态整合限制在固定的语义深度。具体来说，后期融合 [10]、[11]（在特征或决策层面）往往导致低级语义相关性较弱。相反，早期融合 [12]、[13]（在浅层语义层面）倾向于干扰特定模态特征的提取。因此，这种单级融合框架从根本上缺乏跨层次协作和动态建模能力。如图2(b)中的初步探索所示，这些限制阻碍了多模态信息的充分利用：可视化显示单级策略往往产生模糊或不准确的响应中心。此外，图2(d)中的定量比较进一步证明了我们方法的必要性，多级融合在不同数据集上始终优于早期和后期融合模式。为了解决这个问题，我们的多级融合框架将交互组织为顺序步骤：模内事件表示交互、跨模态特征交互以及自适应整合和精细化。这种分层设计允许低级空间细节和高级语义上下文共同优化，有效实现了多模态信息的充分利用。

为了解决这些关键限制，并利用我们观察到的全面见解，我们提出了MEMLTrack，一种多事件表示和多级融合方法，旨在提高复杂场景中的跟踪性能。如图1(b)所示，MEMLTrack独立处理多模态数据并整合多种事件表示。值得注意的是，特征增强模块和动态交互机制被设计用来优化模内和模间特征。通过分别处理RGB数据和事件流，MEMLTrack可以更好地优化每种特定模态。具体来说，图像分支使用了视觉变换器（ViT）[21]模型，使我们能够利用其预训练的权重，显著提高图像数据处理性能。对于事件数据，我们采用了两种表示方法：事件帧来捕捉空间上下文，时间表面来表征局部运动模式。这两种表示方法是互补的，能够提取更丰富的事件特征。基于这种设计，我们的方法不仅克服了现有RGB-事件跟踪框架在有效利用事件表示方面的限制，还在低光照和快速运动等挑战性场景下提高了跟踪性能。

此外，我们引入了一个鲁棒的交互式增强与自适应（IEA）模块，其中基于事件的IEA（E-IEA）模块实现了事件表示之间的有效交互，而RGB-事件IEA（RE-IEA）模块促进了跨模态交互。这些模块允许网络层之间的灵活分支交互和整合。我们不仅简单地连接输出，还提出了一种可行的融合策略，即混合特征变换与融合策略（HFTFS），以生成更丰富的特征表示。最后，我们开发了多模态特征增强（MFE）模块来进一步提高表示能力。在两个具有挑战性的RGB-事件跟踪数据集上的广泛实验证明了我们MEMLTrack的有效性和优越性。

我们的主要贡献可以总结如下：

•

我们提出了一种基于双模态三分支架构的先进RGB-事件跟踪方法，有效融合RGB和事件数据，提高了动态场景中的准确性和鲁棒性。

•

我们开发了一种有效的多事件表示融合策略，充分利用了互补事件表示的空间时间上下文，从而增强了跟踪的鲁棒性。

•

我们引入了一个包含E-IEA和RE-IEA模块的多级融合框架，用于模内和模间交互。此外，还整合了HFTFS和MFE模块以生成多样化和具有区分性的表示。

章节片段

视觉对象跟踪

随着深度学习的快速发展，视觉对象跟踪已成为计算机视觉中的一个关键研究领域。特别是基于孪生网络的方法因其效率和准确性而受到青睐。这些方法通过两个并行的网络分支处理模板和搜索区域来定位目标。Siamfc[29]将跟踪视为模板和搜索区域匹配问题，结合离线训练和在线微调来实现高精度

方法

在本节中，我们提出了MEMLTrack，一种用于RGB-事件单对象跟踪的双模态三分支架构。该框架由几个关键组件组成：基于事件的交互式增强与自适应（E-IEA；第3.4.1节）模块、RGB-事件交互式增强与自适应（RE-IEA；第3.4.2节）模块、混合特征变换与融合策略（HFTFS；第3.5节）以及多模态特征增强（MFE；第3.6节）模块。最后，融合后的特征被

数据集

FE240Hz数据集。 FE240Hz数据集[10]的标注频率高达240 Hz，包含超过143K张图像和相应的记录事件。该数据集使用DVS346灰度事件相机收集，包括71个训练视频和25个测试视频，以及超过113万个标注。它涵盖了各种退化条件下的跟踪场景，使其成为基于事件的视觉研究的综合资源。

COESOT数据集。 COESOT数据集[12]是一个为

结论

在本文中，我们提出了一种鲁棒的RGB-事件对象跟踪方法MEMLTrack，该方法通过多级融合策略协同整合RGB和事件数据。该框架结合了互补的事件表示来捕捉动态目标信息，并引入了交互式增强和自适应模块来促进不同事件表示和跨模态之间的交互。此外，混合特征变换和融合策略也起到了重要作用

CRediT作者贡献声明

何玉婷：撰写——原始草稿、软件、方法论、形式分析、数据管理、概念化。范斌：验证、项目管理、调查、概念化。万哲雄：撰写——审阅与编辑、可视化、资源管理、调查。刘琪：撰写——审阅与编辑、资源管理、方法论、调查。戴宇超：撰写——审阅与编辑、监督、方法论、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了国家自然科学基金（编号62525115、62271410、62401021）和中央高校基本科研业务费（编号G2025KY05244）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号