用于复杂公园环境中人群计数的具有区分能力的上下文融合网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Displays》：Discriminative context fusion network for crowd counting in complex park environment

【字体：大中小】 时间：2026年03月21日 来源：Displays 3.4

编辑推荐：

　　针对复杂工业公园环境中跨模态信息融合不足及多尺度上下文协调困难的问题，提出 Discriminative Context Fusion Network (DCFNet)。通过 Bi-directional Discriminative Excitation Module (BDEM) 实现模态间动态增强与噪声抑制，利用更可靠的模态自适应引导其他模态特征；设计 Frequency-Gated Context Fusion Module (FGCFM) 首次在频域解耦多尺度特征，通过低频（结构）与高频（细节）分层的靶向门控提升上下文协调精度。实验表明该方法在 RGB-T-CC 数据集上优于现有SOTA方法。

朱启凡|张莉|王柳静|万中海|莫晓东|邵峰

中国浙江省烟草工业有限公司，杭州

摘要

为了解决在复杂工业园区环境中进行人群计数时存在的跨模态信息融合不足和多尺度上下文协调困难的问题，提出了一种新的判别性上下文融合网络（DCFNet）。该网络首先通过设计的双向判别性激励模块（BDEM）实现对RGB和热成像特征的双向和自适应激励与增强，有效解决了不同光照条件下模态信息值动态变化的问题。其次，为了更精确地协调多尺度信息，构建了频率门控上下文融合模块（FGCFM）。该模块在频率域中将特征分解为低频和高频成分，并利用相邻级别的上下文进行有针对性的门控增强，以适应园区内人群规模的显著变化。在公共RGBT-CC数据集上的实验结果表明，所提出方法的性能优于各种现有的最先进方法。

引言

随着智能监控技术的快速发展以及对公共安全管理需求的增加，人群计数作为一种能够自动计算无约束场景中人数目的技术受到了广泛关注。人群计数是计算机视觉中的一个基本而具有挑战性的任务，在公共安全、交通监控和社会距离监测等领域有重要应用。特别是在复杂的工业园区中，环境从开阔的场地到拥挤的室内车间不等，每种环境都带来了独特的人员管理和安全监督挑战。然而，由于照明条件的剧烈变化、基础设施的严重遮挡以及复杂的动态背景，准确计数人群或生成高质量的密度图变得非常困难。因此，开发一种能够在这些多样且无约束条件下可靠运行的强大人群计数方法具有重要的实际意义。

人群计数方法的发展经历了明显的进步。早期的研究主要基于检测方法[1]、[2]，这些方法旨在识别和定位每个个体。然而，在人群高度聚集且个体被严重遮挡的情境下，这些方法表现不可靠。因此，研究人员引入了基于回归的方法[3]、[4]，这些方法建立了从全局或局部特征到人群计数的直接映射。凭借卷积神经网络（CNN）强大的表示能力，基于密度估计的方法[5]、[6]、[7]已成为主流方法。这些方法将任务转化为学习到人群密度图的映射，有效减轻了遮挡和视角扭曲的影响。然而，仅依赖RGB图像进行人群计数在遇到具有挑战性的现实世界条件时性能不佳。正如几项关于感知质量评估的调查[8]、[9]、[10]所全面总结的那样，输入媒体的质量是可靠视觉处理的基本前提。进一步的研究表明，多样的环境扭曲会显著影响智能视觉系统的性能和鲁棒性[11]、[12]、[13]、[14]、[15]、[16]。如图1(a)所示，在照明条件较差的情况下，视觉信息会显著下降，使得区分个体和背景变得困难。这一限制促使人们探索多模态方法来提高鲁棒性。

随着多模态传感技术的普及，热红外相机在各种计算机视觉任务[17]、[18]、[19]、[20]、[21]中得到广泛应用，成为人群计数的强大补充传感器。热成像信息作为一种理想的补充模态，因为它提供了高对比度的信息，无论光照条件如何都能清晰地将人体与背景区分开来。在更广泛的计算机视觉领域，显式的注意力和显著性机制已被有效地纳入各种媒体处理任务中，包括音视频质量评估和多模态信号分析[22]、[23]、[24]、[25]。这些研究强调了有效协调异构信息源的重要性。受到这些成功注意力建模策略的启发，RGB-T人群计数领域的研究人员也提出了复杂的融合架构，包括三流自适应融合网络和跨模态注意力机制[21]、[26]、[27]。尽管这些先进方法取得了有希望的结果，但它们通常基于协作融合的前提运行，即通过求和或共享注意力机制来聚合RGB和热成像特征。这种交互模式假设两种模态始终为最终表示提供有效信息。然而，在图像质量剧烈波动的无约束园区环境中，这种假设就变得有问题了。当一种模态严重退化时，例如在完全黑暗中捕获的RGB图像，协作融合策略缺乏明确的机制来过滤掉损坏的特征。因此，网络会将有效的热成像特征与RGB噪声不加区分地整合在一起，导致干扰的传播和计数准确性的降低。这引出了我们的第一个问题：如何设计一种自适应的判别机制，能够动态评估模态的可靠性以防止噪声传播。为了解决这个问题，我们提出了一种判别性融合策略，网络利用来自可靠模态的信息来选择性地校准来自退化模态的特征。我们设计了一个双向判别性激励模块（BDEM）。该模块使更可靠的模态作为动态“判别器”，以适应性地引导和增强另一个模态，从而在变化条件下显著提高融合的鲁棒性。

此外，由于当前层和相邻层的特征都包含同样重要的人群信息，有效地协调它们有助于提高计数准确性，尤其是在人群规模剧烈变化时。然而，尽管早期工作[27]、[28]忽略了这一方面，甚至一些最近的工作[29]、[30]、[31]也仅使用简单的线性操作进行整合。这种空间域操作可能会导致特征混叠，因为它们不加区分地将粗略的结构布局与细粒度细节混合在一起。基于多尺度特征由不同的低频（结构）和高频（细节）成分组成的原理，我们认为在融合之前需要将它们解耦。这引出了我们的第二个问题：如何有效地协调和融合相邻的上下文特征，以突出共同的前景人群信息。为此，我们构建了频率门控上下文融合模块（FGCFM）。它是第一个在频率域中解决上下文协调问题的模块，其中特征被分解为低频和高频成分，以便通过相邻特征进行更精确、有针对性的门控增强。

在这项工作中，考虑到上述两个问题，我们提出了一种新的判别性上下文融合网络（DCFNet），用于在复杂园区环境中进行准确的RGB-T人群计数。具体来说，为了解决模态融合的第一个问题，我们设计了一个双向判别性激励模块（BDEM）。该模块超越了传统的协作方法，使更可靠的模态作为动态引导，适应性地增强特征并抑制另一个模态的噪声。考虑到上下文协调的第二个问题，我们构建了频率门控上下文融合模块（FGCFM）。它是第一个在频率域中将特征分解为低频（结构）和高频（细节）成分的模块，并利用相邻级别的上下文进行有针对性的门控增强。最后，通过一个定制的解码器生成高质量的人群密度图，该解码器聚合了增强的多尺度特征。在公共RGBT-CC数据集上的广泛实验表明，我们提出的方法性能优于各种现有的最先进（SOTA）方法。我们的贡献可以总结为三个方面：

(1) 我们提出了一种新的端到端判别性上下文融合网络（DCFNet），它开创了判别性融合范式和频率域上下文协调策略，用于鲁棒的人群RGB-T计数。

(2) 我们设计了一个双向判别性激励模块（BDEM），它超越了传统的协作融合方法，使更可靠的模态能够适应性地引导和增强另一个模态，从而在变化条件下显著提高融合的鲁棒性。

(3) 我们开发了频率门控上下文融合模块（FGCFM），它是第一个在频率域中分解多尺度特征的模块，以实现结构和细节信息之间更精确的协调。

在公共RGBT-CC数据集上的广泛实验表明，我们提出的方法性能优于各种现有的最先进方法。本文的其余部分组织如下。第2节介绍相关工作。第3节详细介绍了我们提出的模型。第4节展示了实验结果。最后，第5节提供了结论。

章节片段

RGB人群计数

由于卷积神经网络（CNN）强大的特征表示能力，人群计数研究发展迅速。翟等人[32]设计了一个尺度上下文感知网络，该网络减轻了背景干扰和尺度变化的固有影响，同时实现了人群计数和定位。易等人[33]提出了一个基于编码器-解码器架构的轻量级网络，以平衡复杂的网络架构和有限的计算能力。此外，庞等人[34]

动机

许多研究表明，融合RGB和热成像模态可以显著提高人群计数性能。然而，大多数现有方法设计了一个通用模块来实现多模态融合，忽略了每种模态的信息价值具有高度动态性和场景依赖性的事实。例如，在低光照条件下，RGB模态提供的信息有限且噪声较大，而热成像模态则占主导地位。传统的协作融合策略

数据集和评估指标

(1) 数据集：我们在两个公开可用的RGB-T人群计数数据集RGB-T CC [28]上进行了实验，以验证我们提出的DCFNet的进步。RGB-CC数据集共有2030对RGB图像和热红外地图，其中标记了138389名行人。RGB-T CC数据集可以根据光照条件分为两组：1013对在充足光照条件下捕获的RGB-T图像，以及1017对

结论

在这项工作中，我们提出了一种新的判别性上下文融合网络（DCFNet），用于RGB-T人群计数任务。为了解决多模态融合阶段中模态可靠性的动态挑战，我们设计了一个双向判别性激励模块（BDEM）。该模块引入了一种判别性融合方法，其中更可靠的模态适应性地引导和增强另一个模态。此外，为了有效地和精确地协调多尺度上下文，我们设计了

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争财务利益或个人关系。

致谢

本工作得到了“烟草园区安全风险感知与早期预警关键技术研究”项目的支持，该项目由浙江省烟草工业有限公司资助（ZJZY2024E008）。

朱启凡于2008年在中国浙江吉利大学获得学士学位，2016年在中国浙江工业大学获得硕士学位。他目前的研究兴趣包括企业安全生产管理和安全技术。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

RGB人群计数

动机

数据集和评估指标

结论

利益冲突声明

致谢

热点排行