随着智能监控技术的快速发展以及对公共安全管理需求的增加,人群计数作为一种能够自动计算无约束场景中人数目的技术受到了广泛关注。人群计数是计算机视觉中的一个基本而具有挑战性的任务,在公共安全、交通监控和社会距离监测等领域有重要应用。特别是在复杂的工业园区中,环境从开阔的场地到拥挤的室内车间不等,每种环境都带来了独特的人员管理和安全监督挑战。然而,由于照明条件的剧烈变化、基础设施的严重遮挡以及复杂的动态背景,准确计数人群或生成高质量的密度图变得非常困难。因此,开发一种能够在这些多样且无约束条件下可靠运行的强大人群计数方法具有重要的实际意义。
人群计数方法的发展经历了明显的进步。早期的研究主要基于检测方法[1]、[2],这些方法旨在识别和定位每个个体。然而,在人群高度聚集且个体被严重遮挡的情境下,这些方法表现不可靠。因此,研究人员引入了基于回归的方法[3]、[4],这些方法建立了从全局或局部特征到人群计数的直接映射。凭借卷积神经网络(CNN)强大的表示能力,基于密度估计的方法[5]、[6]、[7]已成为主流方法。这些方法将任务转化为学习到人群密度图的映射,有效减轻了遮挡和视角扭曲的影响。然而,仅依赖RGB图像进行人群计数在遇到具有挑战性的现实世界条件时性能不佳。正如几项关于感知质量评估的调查[8]、[9]、[10]所全面总结的那样,输入媒体的质量是可靠视觉处理的基本前提。进一步的研究表明,多样的环境扭曲会显著影响智能视觉系统的性能和鲁棒性[11]、[12]、[13]、[14]、[15]、[16]。如图1(a)所示,在照明条件较差的情况下,视觉信息会显著下降,使得区分个体和背景变得困难。这一限制促使人们探索多模态方法来提高鲁棒性。
随着多模态传感技术的普及,热红外相机在各种计算机视觉任务[17]、[18]、[19]、[20]、[21]中得到广泛应用,成为人群计数的强大补充传感器。热成像信息作为一种理想的补充模态,因为它提供了高对比度的信息,无论光照条件如何都能清晰地将人体与背景区分开来。在更广泛的计算机视觉领域,显式的注意力和显著性机制已被有效地纳入各种媒体处理任务中,包括音视频质量评估和多模态信号分析[22]、[23]、[24]、[25]。这些研究强调了有效协调异构信息源的重要性。受到这些成功注意力建模策略的启发,RGB-T人群计数领域的研究人员也提出了复杂的融合架构,包括三流自适应融合网络和跨模态注意力机制[21]、[26]、[27]。尽管这些先进方法取得了有希望的结果,但它们通常基于协作融合的前提运行,即通过求和或共享注意力机制来聚合RGB和热成像特征。这种交互模式假设两种模态始终为最终表示提供有效信息。然而,在图像质量剧烈波动的无约束园区环境中,这种假设就变得有问题了。当一种模态严重退化时,例如在完全黑暗中捕获的RGB图像,协作融合策略缺乏明确的机制来过滤掉损坏的特征。因此,网络会将有效的热成像特征与RGB噪声不加区分地整合在一起,导致干扰的传播和计数准确性的降低。这引出了我们的第一个问题:如何设计一种自适应的判别机制,能够动态评估模态的可靠性以防止噪声传播。为了解决这个问题,我们提出了一种判别性融合策略,网络利用来自可靠模态的信息来选择性地校准来自退化模态的特征。我们设计了一个双向判别性激励模块(BDEM)。该模块使更可靠的模态作为动态“判别器”,以适应性地引导和增强另一个模态,从而在变化条件下显著提高融合的鲁棒性。
此外,由于当前层和相邻层的特征都包含同样重要的人群信息,有效地协调它们有助于提高计数准确性,尤其是在人群规模剧烈变化时。然而,尽管早期工作[27]、[28]忽略了这一方面,甚至一些最近的工作[29]、[30]、[31]也仅使用简单的线性操作进行整合。这种空间域操作可能会导致特征混叠,因为它们不加区分地将粗略的结构布局与细粒度细节混合在一起。基于多尺度特征由不同的低频(结构)和高频(细节)成分组成的原理,我们认为在融合之前需要将它们解耦。这引出了我们的第二个问题:如何有效地协调和融合相邻的上下文特征,以突出共同的前景人群信息。为此,我们构建了频率门控上下文融合模块(FGCFM)。它是第一个在频率域中解决上下文协调问题的模块,其中特征被分解为低频和高频成分,以便通过相邻特征进行更精确、有针对性的门控增强。
在这项工作中,考虑到上述两个问题,我们提出了一种新的判别性上下文融合网络(DCFNet),用于在复杂园区环境中进行准确的RGB-T人群计数。具体来说,为了解决模态融合的第一个问题,我们设计了一个双向判别性激励模块(BDEM)。该模块超越了传统的协作方法,使更可靠的模态作为动态引导,适应性地增强特征并抑制另一个模态的噪声。考虑到上下文协调的第二个问题,我们构建了频率门控上下文融合模块(FGCFM)。它是第一个在频率域中将特征分解为低频(结构)和高频(细节)成分的模块,并利用相邻级别的上下文进行有针对性的门控增强。最后,通过一个定制的解码器生成高质量的人群密度图,该解码器聚合了增强的多尺度特征。在公共RGBT-CC数据集上的广泛实验表明,我们提出的方法性能优于各种现有的最先进(SOTA)方法。我们的贡献可以总结为三个方面:
(1) 我们提出了一种新的端到端判别性上下文融合网络(DCFNet),它开创了判别性融合范式和频率域上下文协调策略,用于鲁棒的人群RGB-T计数。
(2) 我们设计了一个双向判别性激励模块(BDEM),它超越了传统的协作融合方法,使更可靠的模态能够适应性地引导和增强另一个模态,从而在变化条件下显著提高融合的鲁棒性。
(3) 我们开发了频率门控上下文融合模块(FGCFM),它是第一个在频率域中分解多尺度特征的模块,以实现结构和细节信息之间更精确的协调。
在公共RGBT-CC数据集上的广泛实验表明,我们提出的方法性能优于各种现有的最先进方法。本文的其余部分组织如下。第2节介绍相关工作。第3节详细介绍了我们提出的模型。第4节展示了实验结果。最后,第5节提供了结论。