C3Net:一种基于帧和事件的多模态特征协同校准方法,用于目标检测
《Neural Networks》:C3Net: A Cross-modal Collaborative Calibration of Features for Object Detection using Frames and Events
【字体:
大
中
小
】
时间:2026年02月05日
来源:Neural Networks 6.3
编辑推荐:
基于事件相机的多模态目标检测框架C3Net提出自适应时间表面ABTS解决运动不匹配问题,通过跨模态特征协作校准模块CM-FCCM进行分布对齐和交互增强,结合通道自适应融合模块ACFM动态整合特征。在PKU-DAVIS-SOD等数据集上mAP50提升显著。
陈云华|钟金宇|郭一豪|谢泽权|肖金生|陈萍华
中国广东省工业大学计算机科学与技术学院,广州
摘要
由于RGB帧和事件流之间存在固有的异质性和显著的统计差异,融合这两种数据以进行对象检测具有挑战性,这通常会导致现有方法的融合效果不佳。为了解决这个问题,我们提出了C3Net框架,该框架采用了从直接特征合并转向协同校准的新范式。首先,我们提出了自适应平衡时间表面(ABTS)方法,通过减轻由于物体速度不同而引起的空间不一致性来生成对运动具有鲁棒性的事件表示。其次,核心的跨模态特征协同校准模块(CM-FCCM)在通道和空间维度上对RGB特征和事件特征进行相互校准,从而在融合前减少模态差异;校准后的特征随后被反馈到各自的骨干网络中进行丰富的特征学习。最后,自适应通道融合模块(ACFM)根据通道置信度动态地整合这些模态。在PKU-DAVIS-SOD、DSEC-MOD和PKU-DDD17-CAR数据集上的广泛实验表明,C3Net取得了先进的性能,展示了其在利用帧和事件的互补优势方面的卓越能力。
引言
事件相机(如Brandli等人(2014年)和Li等人(2024b年)所开发的相机)以其高时间分辨率、高动态范围(HDR)和低功耗而闻名,这些特性在检测快速移动的物体以及在极端光照条件(例如过曝或欠曝)下运行时具有显著优势。然而,它们的输出数据稀疏且异步,缺乏绝对强度测量,导致数据在语义上较为贫乏。相比之下,传统的基于帧的相机擅长捕捉绝对亮度和详细纹理。这种互补能力使它们能够弥补事件数据在静态或纹理稀缺场景中的语义局限性。因此,融合这些异构的视觉流以提高对象检测的准确性和鲁棒性已成为一个关键的研究焦点(参见Cao等人(2024年);Li, Tian, Li, 2023年;Li, Dong, Yu, Tian, Huang, 2019年;Xiao等人(2026年)的研究)。然而,有效地利用它们的互补优势面临几个关键挑战。
第一个挑战是从事件流中提取以不同速度移动的物体的高质量结构信息。现有方法通常使用固定的时间窗口或事件计数来采样和压缩事件数据,然后将其转换为类似图像的张量以进行特征提取(参见Chen等人(2026年);Lagorce等人(2016年);Maqueda等人(2018年);Sironi等人(2018年)的研究)。然而,这些方法难以处理由运动引起的伪影:快速移动的物体会产生高频事件,这通常会导致运动模糊;而缓慢移动的物体产生的低频事件可能导致纹理不清晰。这种局部事件频率的不平衡给特征生成带来了不确定性。最近基于学习的方法在获得更具信息量的事件表示方面显示出潜力(参见Gehrig等人(2019年);Liu等人(2024年);Paredes-Vallés等人(2023年)的研究),但这些方法通常需要大量的训练数据和更高的模型复杂性。
第二个更根本的挑战源于现有的融合范式本身,该范式通常采用过于简化的“直接合并”策略。当前的事件-帧对象检测方法通常使用双骨干网络从每种模态中提取特征,然后通过交叉注意力或逐元素操作在单个或多个阶段合并输出。虽然这种方法直观,但它很大程度上忽略了RGB帧和事件流之间的显著模态差异,导致三个主要限制。首先,它未能弥合统计和语义分布的差距,通常导致特征污染而不是协同互补。其次,它未能充分建模跨模态相关性,忽略了不同模态之间物体表示之间的细微对应关系。第三,在模态不平衡的情况下(例如在光线不足的情况下,事件信息丰富但RGB质量下降),主导模态往往会抑制较弱的模态,从而产生不可逆地减少互补信息的马太效应。
为了解决第一个挑战,我们提出了自适应平衡时间表面(ABTS)这一新颖的事件表示方法。ABTS利用基于线性累积的每个像素的事件计数作为物体运动速度的度量标准。这一度量标准直接减轻了非均匀的局部事件频率问题。因此,我们的方法能够自适应地保留缓慢移动物体的完整结构信息,同时捕捉快速移动物体的细粒度纹理边缘——这对于高性能的RGB-事件融合至关重要。
为了解决更根本的第二个挑战,我们认为解决方案需要超越设计越来越复杂的融合操作器的范式转变。受到领域适应中分布对齐思想的启发(参见Wang和Deng(2018年)的研究),我们认为在融合之前减少统计和语义差异对于实现协同作用至关重要。因此,我们提出了一个新颖的协同校准范式,通过我们的跨模态特征协同校准模块(CM-FCCM)来实现。与直接合并不同,CM-FCCM首先通过两个组件进行特征校准:(1)二阶通道协同校准(SO-CCC),利用跨模态注意力共同细化通道特征;(2)大核空间协同校准(LK-SCC),利用大核卷积增强空间细节。这个两阶段过程明确地建模了跨模态相关性并减少了差异。校准后的特征随后被反馈到骨干网络中进行精细提取,为融合做好准备。最后,自适应通道融合模块(ACFM)根据通道置信度动态地融合这些增强后的特征,确保融合的适应性和互补性。图1展示了这一概念性进展。我们的主要贡献如下:
•我们提出了自适应平衡时间表面(ABTS),通过像素级事件累积来量化物体运动速度,从而解决了事件结构退化的问题,其性能优于现有的事件表示方法。
•我们提出了一种新颖的协同校准融合方法(通过CM-FCCM模块实现),在最终融合之前促进对齐和协同交互,使得在PKU-DAVIS-SOD数据集上的mAP50提高了1.4个点。
•我们设计了自适应通道融合模块(ACFM),根据两种模态的通道置信度分布有效整合跨模态特征。与类似方法相比,在PKU-DAVIS-SOD数据集上的mAP50提高了0.5个点。
这三个组件共同构成了我们提出的C3Net框架。与现有方法相比,C3Net在PKU-DAVIS-SOD、DSEC-MOD和PKU-DDD17-CAR数据集上的mAP50分别提高了3.6、8.4和5.4个点。
部分摘录
事件表示
事件数据的稀疏和异步特性要求将其转换为结构化的张量,以便输入深度神经网络(参见Gallagher和Oughton(2025年);He等人(2016年);Ren等人(2024年)的研究)。早期的方法将事件聚合成密集的帧,例如直方图(Maqueda等人(2018年)或事件帧(Zhao等人(2014年)),但这往往以牺牲时间保真度为代价。为了更好地保留时间动态,后续研究引入了时间表面(Lagorce等人(2016年);Sironi等人
方法
在本节中,我们首先介绍了事件相机的成像原理,然后介绍了我们提出的C3Net框架的各个组成部分:ABTS、CM-FCCM和ACFM。
实验
我们选择在PKU-DAVIS-SOD(Li等人,2023年)、DSEC-MOD(Zhou等人,2023年)和PKU-DDD17-CAR(Li等人,2019年)这三个数据集上验证我们方法的有效性。考虑到PKU-DAVIS-SOD数据集的优势,如更大的规模、手动注释以及涉及更具挑战性的场景,我们选择在PKU-DAVIS-SOD上进行各种消融实验。
结论
在本文中,我们提出了C3Net,这是一种基于事件和帧的对象检测新网络,它有效地融合了两种模态的特征,以实现鲁棒的性能。C3Net的核心创新在于从传统的“直接合并”特征融合范式转变为以“协同校准”为中心的新范式,从而实现了更全面的跨模态交互。具体来说,我们首先介绍了ABTS,它利用局部事件计数作为物体速度的代理。
CRediT作者贡献声明
陈云华:撰写——审稿与编辑、撰写——初稿、监督、资金获取、概念化。钟金宇:撰写——初稿、软件、方法论、研究。郭一豪:撰写——初稿、方法论、研究。谢泽权:撰写——审稿与编辑、验证。肖金生:监督。陈萍华:监督、资源获取、资金获取。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:陈云华报告获得了广东省科技部的财务支持。陈萍华报告获得了广东省科技部的财务支持。如果有其他作者,他们声明没有已知的财务利益或个人关系可能会
致谢
本项工作得到了中国广东省自然科学基金(项目编号:2025A1515012243)和中国广东省软科学研究项目(项目编号:2025A1010010002)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号