《Pattern Recognition》:Lightweight and Effective Crowd Counting and Localization in Diverse Low-Visibility Conditions
编辑推荐:
本文提出基于多维知识蒸馏的MDKD框架,通过图像恢复引导分支提升教师模型在低可见条件下的性能,并采用重参数化学生模型减少计算开销。设计了非均匀雾模拟算法构建数据集,实验表明在多种低可见环境下,该框架在人群计数和定位精度上优于现有方法,同时显著降低计算成本。
姚博阳|李展|袁伟军|Bir Bhanu|Ke Ruikai|陈张路|谢新怡
中国广州济南大学信息科学与技术学院,510632
摘要
在低能见度条件下(例如雾霾、雨天、雪天和夜间),由于图像质量下降、计算成本高昂以及训练数据有限,人群计数和定位仍然具有挑战性。在本文中,我们提出了一个多维知识蒸馏(MDKD)框架,旨在实现高精度的人群分析,同时保持轻量级架构。我们在教师模型中引入了一个基于图像恢复的插件(IRG-Crowd)分支,以恢复被环境因素遮挡的人群信息。为了确保推理效率,我们构建了一个可重参数化的学生模型(Rep-Crowd),该模型仅使用教师模型参数的四分之一。通过多维蒸馏,学生模型继承了教师模型的鲁棒特征表示,而无需额外的恢复成本。此外,为了解决恶劣天气数据集的稀缺问题,我们基于人群密度模拟景深,以构建用于MDKD训练的非均匀雾霾人群数据集。通过大量实验,我们发现我们的方法在多种低能见度条件下的人群计数和定位准确性方面优于现有方法,并显著降低了计算开销。代码和数据集可在以下链接获取:
https://github.com/lizhangray/MDKD-CC。
引言
近年来,全球人口的流动性增加推动了人群计数和定位在公共空间中的广泛应用,用于人群监控、城市规划和智能监控,从而能够准确分析复杂环境中的人群分布和密度。大多数现有的人群分析模型在晴朗天气下能够有效估计密度图[2]、[3]、[4]、[5]或头部点坐标[1]、[7]、[8]、[9]、[10]。然而,在雾霾、雨天、雪天和夜间等低能见度环境下,头部特征常常被遮挡或模糊,从而大大降低了计数和定位的准确性。尽管一些研究[11]、[12]在特定场景(如雾天)中取得了有希望的结果,但这些方法对其他具有挑战性的条件的泛化能力仍然有限。这些方法通常通过密度图预测总人数,而不提供精确的定位信息,主要是由于在恶劣天气或照明不足的情况下信息损失严重。因此,直接应用传统的群体计数和定位技术而不考虑低能见度条件下的图像退化可能会导致性能不佳,如图1所示。为了评估环境因素的影响,我们在包含雾霾、雨天、雪天和夜间图像的数据集上重新训练了一个代表性的点对点网络(P2PNet)[1]进行头部定位。在这些条件下,大多数模型以及手动注释在头部定位方面都出现了显著错误,如图1中的蓝色箭头所示。
为了在恶劣天气条件下提高计数准确性,现有方法通常采用复杂的自适应模型[13],这会引入较大的计算开销,并妨碍在资源受限的平台(如移动设备和边缘设备)上的实际应用。相反,我们的方法通过设计一个基于图像恢复的插件(IRG)分支来提升教师模型在低能见度条件下的性能,并通过MDKD框架将其有价值的知识传递给轻量级学生模型。图2将模型性能与效率联系起来,在所有情况下,我们的模型都位于等值线分隔的左下角,展示了性能和计算成本之间的最佳平衡。此外,在低能见度条件下手动标注人群数据集的固有挑战凸显了迫切需要高度准确的定位模型,以减少对易出错的人类标注的依赖。
为了解决这些问题,我们提出了一个多维知识蒸馏(MDKD)框架,用于在恶劣条件下高效地进行人群计数和定位。为了提高退化图像中的场景可见度,我们为教师网络设计了一个基于图像恢复的插件(IRG)分支。该分支在推理过程中被移除,而不会增加计算成本。为了构建轻量级学生网络,我们引入了一个结构化重参数化模块(RepBlock),该模块在训练期间使用多个并行卷积来提高头部检测效率,并在推理期间使用单个等效卷积核来减少参数数量。鉴于低能见度条件下公共数据集的稀缺性,我们提出了一种基于人群密度的非均匀雾霾模拟算法来构建雾霾人群数据集。我们的主要贡献总结如下:
•提出了一种MDKD框架,用于在低能见度条件下有效进行人群计数和定位。它采用了基于图像恢复的插件IRG分支来恢复场景可见度,并使用RepBlock在准确性和效率之间取得平衡。
•提出了一种雾霾模拟算法,用于根据深度和人群密度的相关性构建非均匀雾霾人群数据集,从而解决了恶劣天气条件下训练样本稀缺的问题。
•在多种低能见度条件下的群体计数基准测试中,我们的方法表现出优越的计数和定位性能,同时保持了轻量级和高效性。
部分内容摘录
人群计数和定位
随着人群计数和定位技术的日益广泛应用,已经开发出几种先进的算法[6]、[10]、[12]。当前的人群计数方法主要分为三类:全局计数回归、密度估计和点定位。
全局计数回归算法学习了人群图像与人数之间的直接映射。Wang等人[14]提出了基于token注意力融合的弱监督人群计数方法
MDKD框架
我们提出的用于低能见度条件下人群计数和定位的MDKD框架采用了通用的教师模型IRG-Crowd,通过从三个维度(中间特征、样本关系和模型输出)蒸馏知识来指导轻量级学生模型Rep-Crowd的学习。图3展示了两种模型的MDKD架构概览。教师网络IRG-Crowd由IRG分支和预测分支组成,它们共享一个四阶段的过程非均匀雾霾模拟用于数据集构建
为了解决雾霾等恶劣条件下人群数据集的稀缺问题,我们设计了一种非均匀雾霾模拟算法来构建Hazy-SHA/B数据集。首先,通过曲线拟合推导出人群密度与景深之间的线性关系。接下来,提出了一种基于这种线性关系从人群密度估计深度的流程。最后,应用大气散射模型[24]将空间变量雾霾添加到图像中。
实验
我们在四种具有挑战性的低能见度条件下(雾天、雨天、雪天和低光照环境)评估了教师模型IRG-Crowd和学生模型Rep-Crowd在人群计数和定位方面的性能。对于每种条件,我们使用标准指标将提出的方法与几种现有先进方法进行了比较。我们还评估了现有轻量级人群计数模型的性能和效率。最后,进行了消融研究
结论
在这项研究中,我们提出了一个多维知识蒸馏(MDKD)框架,在低能见度条件下实现了高精度的人群分析与计算效率的平衡。值得注意的是,这是第一篇将基于样本关系的蒸馏引入人群计数的论文,它限制了教师模型和学生模型之间的人群分布结构模式。具体来说,教师模型IRG-Crowd集成了一种基于图像恢复的插件分支来捕捉场景信息
CRediT作者贡献声明
姚博阳:撰写——原始草稿、可视化、软件、方法论、形式分析。李展:撰写——原始草稿、监督、资金获取、概念化。袁伟军:撰写——审阅与编辑、可视化、软件、方法论、数据管理。Bir Bhanu:撰写——审阅与编辑、监督。Ke Ruikai:撰写——审阅与编辑、可视化、形式分析。陈张路:撰写——审阅与编辑、验证、数据管理。谢新怡:撰写——审阅与
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作部分得到了广东省基础与应用基础研究基金(项目编号2024A1515011762)和中国国家自然科学基金(项目编号62071201)的支持。