CSAFNet：用于RGB-T人群计数的跨模态空间对齐与融合网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：CSAFNet: Cross-modal Spatial Alignment and Fusion Network for RGB-T Crowd Counting

【字体：大中小】 时间：2026年02月10日 来源：Pattern Recognition 7.6

编辑推荐：

　　人群计数中RGB-Thermal跨模态融合网络CSAFNet提出，通过特征空间对齐模块解决设备差异导致的时空错位问题，采用KL散度与JS散度实现解耦特征融合，有效区分模态特异性与共性特征，在RGBT-CC数据集上RMSE降至17.91。

赵永杰|蒲立如|宋华波|姜波

西北农林科技大学机械电子工程学院，中国杨陵，712100

摘要

在智慧城市中，人群计数对于公共安全和城市管理至关重要，但在复杂场景下仍面临诸多挑战。尽管RGB-热成像（RGB-T）融合技术有助于解决低光照条件下的信息丢失问题，但目前的方法仍存在两个主要局限。(a) 现有的RGB-T人群计数方法无法解决由于不同采集设备导致的RGB特征和热特征之间的空间错位问题，这降低了融合效果，阻碍了人群计数精度的提升。(b) 当前方法无法充分区分RGB和热成像模式之间的特定特征和共有特征，导致特征融合冗余，从而影响特征表示，进而使得计数性能不佳。为了解决这些问题，本文提出了跨模态空间对齐与融合网络（CSAFNet）。CSAFNet整合了三个创新模块：跨模态特征空间对齐（CFSA）、多尺度空间位移补偿（MSDC）和跨模态特征解耦融合（CFDF）。CFSA模块通过特征窗口实现精确的空间对齐，并通过MSDC模块实现广泛的空间一致性。CFDF模块利用Kullback-Leibler散度和Jensen-Shannon散度进行跨模态特征的解耦融合，保留了模态特异性细节，增强了跨模态共性，减少了冗余特征，提升了特征表示能力。大量实验表明，CSAFNet在RGBT-CC数据集上表现优异，将GAME(0)降低到了10.75，RMSE降低到了17.91。这些结果验证了CSAFNet在跨模态人群计数任务中的有效性和巨大潜力。代码发布地址 https://github.com/Zyjer888/CSAFNet

引言

人群计数旨在无约束场景下估计人群分布和密度。准确预测人群密度对公共安全和智慧城市至关重要[1]、[2]、[3]。近年来，人工智能在缺陷诊断[4]、[5]、[6]和动态场景理解[7]等多样化和复杂领域展示了强大的特征表示能力。近期提出了许多基于深度学习的人群计数方法，主要分为基于检测和基于回归的方法。基于检测的方法为每个个体生成边界框，从而在单张图像中实现精确定位和计数[8]。当目标分散且遮挡较少时，这些方法通常能取得较高精度。相比之下，基于回归的方法分为回归计数和回归密度图技术。回归计数直接估计图像中个体的数量[9]，而回归密度图通过叠加密度图来实现人群计数[10]。此外，基于回归的方法可以应对复杂遮挡和小目标带来的挑战。

在夜间低光照条件下，仅依赖RGB图像难以捕捉人群特征，从而影响全天的人群计数。幸运的是，热成像图像在低光照或杂乱背景中能显著帮助识别行人。因此，热成像图像已被纳入人群计数任务。尽管热成像图像在不良光照条件下提供更可靠的信息，但有效利用RGB和热成像数据仍是一个重大挑战。为此，人们采用了跨模态特征融合技术。

然而，这些方法仍存在两个主要问题。(a) 在特征融合过程中忽略了不同模态之间的空间错位。 由于不同的成像设备和视差效应，RGB特征和热特征之间存在显著的空间错位。图1展示了RGBT-CC数据集中一些跨模态图像对的空间错位[11]。在数据标注过程中，这个问题常被忽略或加剧，因为通常只以一种模态作为参考，从而引入空间差异，影响融合精度[10]、[11]、[12]。(b) 在特征融合过程中，忽略了跨模态的共有特征和特定特征。 当前方法通常依赖简单的操作（如连接或逐元素求和），无法区分模态特异性细节和共有特征[14]。这种忽视导致特征融合冗余，阻碍了网络充分利用互补信息。因此，迫切需要一种统一的方法来同时对齐跨模态特征并解耦它们，以实现更有效的整合。

为了解决上述问题，提出了跨模态空间对齐与融合网络（CSAFNet）用于RGB-T人群计数。具体而言，引入了跨模态特征空间对齐（CFSA）和多尺度空间位移补偿（MSDC）模块来克服RGB和热特征之间的固有空间错位。在CFSA模块中，对热特征和RGB特征应用窗口化操作，然后计算每个窗口内的空间位置偏移，并根据这些偏移调整RGB特征以实现初始空间对齐。此外，MSDC模块利用网络高层特征较大的感受野，帮助低层特征实现跨窗口空间对齐。这种方法实现了不同尺度和模态之间更全面和准确的特征空间对齐。

此外，为了提取跨模态特征中的特定特征和共有特征，并避免简单融合导致的冗余特征，提出了基于Kullback-Leibler（KL）散度和Jensen-Shannon（JS）散度的跨模态特征解耦融合（CFDF）模块。该模块不直接使用连接或逐元素加法进行跨模态特征融合，而是利用KL散度和JS散度进行解耦，分离模态特异性特征和共有特征。随后，通过门控网络实现模态特异性特征和共有特征的自适应融合。重要的是，CSAFNet建立了一个协同框架，其中空间对齐是基于散度融合的前提。CFDF模块中解耦机制的有效性本质上依赖于CFSA和MSDC提供的精确空间对应关系。这种依赖性确保了像素级的KL和JS散度计算基于空间一致的表示，防止空间噪声干扰特征解耦过程。本文的主要贡献如下：

•

引入了CFSA和MSDC模块以实现全面的跨模态特征空间对齐。CFSA模块在特征窗口内进行细粒度空间对齐操作。MSDC模块利用多尺度特征补偿跨窗口空间对齐。

•

我们提出了CFDF模块，该模块使用KL散度和JS散度生成像素级掩码。该模块增强了跨模态特征中的特定特征和共有特征，同时防止引入冗余背景信息并避免信息丢失。

•

我们将这些模块集成到CSAFNet中，使用标准的VGG-16骨干网络实现了最先进的鲁棒性，显著优于采用高级网络骨干的现有方法。

章节摘录

RGB人群计数

随着深度神经网络的快速发展，深度学习方法在人群计数领域取得了前所未有的成功。例如，图像被用作输入，直接生成检测假设，绕过了非最大值抑制步骤，实现了端到端的人群计数。此外，HeadNet[15]引入了上下文信息，减少了头部区域的漏检，提高了头部边界框的精度。

方法

本节首先描述了CSAFNet用于RGB-T人群计数的整体架构。随后详细阐述了CFSA、MSDC和CFDF模块的构建方法。最后介绍了优化损失函数。

本文中使用的数学符号和下标总结。
$i$	网络层索引（通常为

i \in {1,, 5}

c

特征通道维度索引

h, w

空间坐标（高度和宽度）索引

实验

在本节中，使用RGBT-CC[11]和DroneRGBT[34]数据集作为基准，评估CSAFNet的性能。我们还定量比较了所提出方法与其他经典跨模态人群计数方法的效果，并在密度图中提供了计数性能的视觉对比。此外，我们进行了消融实验，分析了CSAFNet主要组件的有效性，包括跨模态特征空间对齐和融合效果。

结论

在本文中，我们提出了一种用于RGB-T人群计数的跨模态空间对齐与融合网络（CSAFNet）。CSAFNet的核心是通过特征级对齐和基于散度的解耦融合来减轻跨传感器空间错位和融合冗余。具体来说，引入了CFSA来校正窗口内的细粒度局部偏移，而MSDC用于补偿较大的跨窗口位移，以提高空间一致性。

CRediT作者贡献声明

赵永杰：撰写——原始草稿、可视化、方法论、概念化。蒲立如：撰写——审阅与编辑、验证。宋华波：撰写——审阅与编辑、可视化、监督、软件、资源、项目管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

RGB人群计数

方法

实验

结论

CRediT作者贡献声明

利益冲突声明

热点排行