《Results in Engineering》:An Efficient Siamese Triple-Stream Network with Collaborative Channel-Spatial Aggregation for RGBT Tracking
编辑推荐:
为解决RGB跟踪在复杂场景下性能受限的问题,研究人员开展了基于Siamese三重流网络与通道-空间协同聚合的RGBT跟踪研究,提出SiamCCA模型。该模型通过DGSA模块实现多尺度特征自适应融合,利用CSCA模块增强跨模态特征交互,最终通过RPS模块选择最优跟踪结果。实验表明,该方法在GTOT和RGBT234数据集上分别达到88.1%/70.2%和77.1%/55.4%的PR/SR指标,以56 FPS实现实时高性能跟踪,为多模态目标跟踪提供了新思路。
在自动驾驶、安防监控等计算机视觉核心应用中,视觉目标跟踪技术发挥着不可或缺的作用。然而传统RGB跟踪方法在低光照、恶劣天气和剧烈光照变化等挑战性条件下往往难以提供稳定可靠的目标信息。红外模态的引入有效解决了这一困境,其独特的热辐射特性弥补了RGB图像在视觉感知方面的局限性,显著提升了目标跟踪的鲁棒性。尽管如此,可见光和红外模态在物理成像机制上的本质差异导致外观特征和特征分布存在显著不同,引起特征表示中的语义错位,这对依赖共享嵌入空间和直接相似性匹配的Siamese跟踪器构成了巨大挑战。
为解决上述问题,发表在《Results in Engineering》上的这项研究提出了一种新颖的三重流通道-空间协同聚合网络SiamCCA,用于实现高效的RGBT跟踪。该研究通过三个核心模块的创新设计,在保持实时处理速度的同时显著提升了跟踪性能。
研究采用的关键技术方法包括:基于动态门控尺度感知(DGSA)模块的多尺度特征自适应融合,通过并行多尺度卷积和门控机制增强特征表示;通道-空间协同聚合(CSCA)模块实现跨模态深度特征交互,利用分组策略和交叉注意力机制优化特征融合;区域建议选择(RPS)模块根据置信度评分动态选择最优跟踪结果。实验使用GTOT、RGBT234和LasHeR等权威数据集进行评估,训练样本来源于LasHeR数据集。
3.1. 动态门控尺度感知(DGSA)模块
该模块包含自适应多尺度卷积(AMSC)和平行门控空间注意力(PGSA)两部分。通过层归一化和多尺度深度可分离卷积捕获长程空间依赖关系,利用动态门控机制自适应调整不同尺度特征的重要性。实验表明,该模块能有效扩大感受野,缓解局部卷积导致的视野限制问题。
3.2. 通道-空间协同聚合(CSCA)模块
采用通道分组策略将输入特征分解为相互排斥的子空间,通过双分支并行结构分别处理局部感知和扩展感受野特征。引入交叉注意力机制实现双向注意力交互,通过矩阵乘法操作实现特征交叉融合。该设计在降低计算复杂度的同时,增强了跨模态融合能力。
3.3. 区域建议选择(RPS)模块
通过比较RGB和红外响应图的峰值分数,结合尺度惩罚机制和余弦窗抑制过度位移,动态选择最优建议区域。该模块能根据置信度分布快速计算目标位置,实现长期精确跟踪。
研究结论表明,SiamCCA框架通过DGSA和CSCA模块的协同工作,有效解决了多模态特征融合中的语义对齐问题。在三个权威RGBT基准数据集上的综合实验证明,该方法在保持56 FPS实时处理速度的同时,在精度上超越了现有先进跟踪器。特别是在低光照(LI)、无遮挡(NO)和低分辨率(LR)等挑战性场景下表现出显著优势,PR/SR指标分别提升3.9%/4.2%、0.3%/0.8%和0.7%/0.9%。该研究为复杂环境下鲁棒的多模态目标跟踪提供了有效解决方案,对推动自动驾驶、智能监控等实际应用具有重要意义。
研究的创新性主要体现在:提出动态门控尺度感知机制,使网络能灵活适应不同视觉条件;设计通道-空间协同聚合模块,实现RGB特征与红外特征的有效融合;构建区域建议选择策略,通过综合评估RGB和红外的响应图得分实现快速精确定位。这些技术突破为后续多模态跟踪研究提供了重要参考。