《Displays》:Change Detection of large-field-of-view video images in low-light environments with cross-scale feature fusion and pseudo-change mitigation
编辑推荐:
针对低光大视野视频图像变化检测中的光照伪变化、噪声干扰及多尺度特征融合难题,提出包含Cross-scale Attention Feature Fusion(CAF)、Difference Enhancement and Optimization(DEO)及Pseudo-Change Suppression and Multi-scale Fusion(PSF)的深度学习框架。实验表明,相比现有方法,该方法在F1值和准确率上分别提升3.65%和1.84%。
郭雅妮|贾振宏|周刚|黄晓辉|李月|李明燕|陈国红|李俊杰
中国新疆大学计算机科学与技术学院,乌鲁木齐,830002
摘要
在低光环境下,对于大视场视频图像(例如由鹰眼设备拍摄的图像)的变化检测任务面临许多障碍,主要原因是难以区分真实变化和由光照引起的伪变化,容易受到复杂噪声干扰的影响,以及多尺度变化检测的鲁棒性受限。为了解决这些问题,本文提出了一种适用于低光环境下大视场变化检测的深度学习框架,该框架包含三个核心模块:跨尺度注意力特征融合、差异增强与优化以及伪变化抑制与多尺度融合。首先,跨尺度注意力特征融合(CAF)模块利用跨尺度注意力机制融合多尺度特征,捕捉不同尺度上的变化信息。然后,差异增强与优化(DEO)模块通过频域分解和边界感知策略增强结构差异,减轻光照变化的影响。接下来,伪变化抑制与多尺度融合(PSF)模块利用伪变化过滤注意力抑制由光照引起的伪变化,并进行多尺度特征融合以生成准确的变化图。此外,还引入了一种端到端优化策略,结合对比学习和自我监督的伪标签生成,进一步提高模型在各种低光场景下的鲁棒性和泛化能力。实验结果表明,与其它方法相比,本文提出的方法将F1分数提高了3.65%,准确率提高了1.84%,证明了其在低光环境下准确区分真实变化和伪变化的能力。
引言
鹰眼相机作为一种广角视频采集设备,能够捕捉广阔的场景,为人员管理、交通分析和安全监控等应用提供全面的视角。然而,鹰眼相机拍摄的视频图像,尤其是在低光环境下的大视场图像,面临诸多问题。这些图像容易受到复杂随机噪声的干扰,严重削弱了变化检测的可靠性。特别是在夜间或光线不足的环境中,光照不足、对比度降低和信噪比下降会导致图像质量下降,使得检测小规模移动物体(如行人或车辆的微妙动作)变得更加困难。现有的变化检测算法往往无法在低光、大视场场景中准确区分真实变化和噪声或光照引起的伪变化,导致检测性能受损。因此,基于鹰眼相机视频图像开发适用于低光、大视场环境的鲁棒变化检测算法具有重要的理论意义和实际价值。
目前,低光变化检测面临几个关键问题:光照变化和伪变化——在低光条件下,光照变化更为明显,经常导致大量伪变化。例如,同一物体在不同光照条件下可能表现出完全不同的视觉特征,导致算法错误地将其识别为变化区域。遮挡、阴影和季节性变化等因素进一步加剧了这一问题。低光条件下拍摄的视频图像通常会受到质量下降的影响。主要问题是对比度降低,这会模糊图像细节,影响整体可见性[1]。此外,低光环境会放大噪声,使图像中的细节变得模糊[2]。同时,光照不足还会导致严重的色彩失真,使色调不准确或柔和,无法准确再现原始场景[3]。这些问题不仅降低了图像的视觉质量,还为后续的计算机视觉任务带来了重大障碍,可能降低依赖这些图像进行决策和分析的系统的准确性和有效性。
传统的变化检测方法,如依赖于手工制作的特征或简单的差分技术,由于无法区分结构变化和光照引起的伪变化,在低光场景中表现不佳。例如直方图均衡化(HE)[4]、自适应直方图均衡化(AHE)[5]和对比度受限自适应直方图均衡化(CLAHE)[6]。深度学习的最新进展推动了更鲁棒的变化检测方法的发展,特别是在多尺度特征融合方面取得了突破,为提高检测精度提供了新的机会。Lin提出的FPN-CD是一种基于特征金字塔网络的架构,通过分层特征融合有效捕捉不同尺度上的变化信息,适用于大视场场景。Zhang提出的HFA-Net引入了分层特征聚合机制,进一步提高了对多尺度特征的上下文理解。Chen提出的MSF-Net将多尺度特征融合与注意力机制相结合,专注于中尺度变化检测,并提高了复杂场景中的边界精度。随着研究向更细粒度的多尺度融合方法发展,Zhang提出的CrossScale-Net采用跨尺度注意力机制动态融合多尺度特征,同时捕捉局部和全局变化信息,这与我们在跨尺度特征融合方面的方法有一些相似之处。此外,Cai提出的TSLCD、Shi提出的LightAdapt-CD以及Ren等人提出的Night-ASMD(夜间自适应超像素和多尺度分解)是为低光条件下的大视场视频图像变化检测专门设计的少数完整解决方案。这些方法通过光照补偿模块和对比学习策略减轻了光照变化的影响,与我们在伪变化抑制和对比学习方面的方法密切相关。然而,这些方法在低光、大视场场景中的鲁棒性和伪变化抑制能力仍然有限,难以完全适应复杂光照条件下的变化检测任务。
为了解决这些问题,提出了低光增强技术,如Retinex[14]、[15]、Zero-DCE[16]和EnlightenGAN[17],作为变化检测模型应用前的预处理步骤来提高图像可见性。尽管这些技术可以增强低光图像,但它们通常会引入伪影或无法完全抑制伪变化,导致性能不佳。此外,这种两阶段方法没有同时优化增强和检测过程,从而限制了它们在复杂低光场景中的有效性。
基于上述分析,我们认为有必要设计一个专为低光环境下大视场变化检测定制的端到端深度学习框架。该框架应同时整合光照不变特征学习、时间上下文建模、多尺度特征融合和伪变化抑制能力,以实现低光场景中变化目标的准确检测。
本文的主要贡献如下:
(1)采用了跨尺度注意力特征融合模块,可以在考虑保护局部细节和全局上下文信息的同时动态融合多尺度特征。其特征提取性能优于其他方法。
(2)提出了差异增强优化模块。该模块通过频率感知和边界感知策略增强结构差异,得到的差异特征具有更强的光照鲁棒性。
(3)设计了伪变化抑制与多尺度融合模块,结合伪变化过滤注意力有效抑制由光照变化引起的伪变化,从而提高变化检测的准确性。
(4)引入了端到端优化策略,结合对比学习和自我监督的伪标签生成,提高了模型在多种低光场景下的鲁棒性和适用性,优于其他方法。
相关研究
相关工作
在低光环境下的大视场变化检测面临许多独特问题,包括对比度降低、噪声增加以及由阴影和反射等光照变化引起的伪变化。为了解决这些问题,一些研究采用了低光图像增强作为预处理步骤。郭[18]提出了一种基于光照映射估计(LIME)的低光图像增强方法,通过估计光照映射来提高图像亮度
方法论
为了解决低光条件下大视场场景中的变化检测问题,本文提出了一种新的框架,整合了三个关键模块:跨尺度注意力特征融合(CAF)、差异增强与优化(DEO)以及伪变化抑制与多尺度融合(PSF)。这些模块协同工作,提取鲁棒特征,增强与变化相关的差异,并抑制由光照变化引起的伪变化。
数据集和评估指标
为了评估所提出框架在低光环境下大视场变化检测中的性能,通过将自收集的夜间图像与Panoramic Streetscape Change Detection(PSCD)数据集[32]的处理版本相结合,构建了一个混合数据集。该混合数据集专门针对低光环境下的大视场变化检测挑战而设计,涵盖了多样的城市环境和各种类型的变化。
结论
本文提出了一种适用于低光环境下大视场视频图像变化检测的新深度学习框架,解决了低对比度、高噪声和光照引起的伪变化等问题。实验结果验证了该框架在低光照、宽视场视频图像中检测变化的优越性。在低光数据集上的定量结果表明,我们的方法提高了3.65%
CRediT作者贡献声明
郭雅妮:撰写——原始草稿,形式分析,方法论,数据管理,概念化。贾振宏:撰写——审阅与编辑,项目管理,资金获取。周刚:验证,监督。黄晓辉:撰写——审阅与编辑,验证,监督。李月:验证,监督。李明燕:调查,形式分析,数据管理。陈国红:撰写——审阅与编辑,概念化。李俊杰:撰写——审阅。
利益冲突声明
作者声明没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了国家自然科学基金(编号:62261053)和天山人才培训项目 - 新疆科技创新团队计划(编号:2023TSYCTD0012)的支持。