SVRMAE:通过分离掩蔽和MAE预训练技术提升监控视频的超分辨率效果
《Neurocomputing》:SVRMAE: Enhancing surveillance video super-resolution through separation masking and MAE pretraining
【字体:
大
中
小
】
时间:2026年02月03日
来源:Neurocomputing 6.5
编辑推荐:
本文提出SVRMAE方法,创新性地将掩码自编码器(MAE)结构与分离处理-合并框架结合,解决监控视频超分辨率(SVSR)问题。通过分离前景与背景区域进行训练-free掩码生成,结合MAE预训练增强时空特征提取,显著提升视频超分辨率性能,实验表明优于现有SOTA模型。
刘志峰|何正|叶刚|朱文倩
武汉大学计算机科学学院,中国武汉,430072
摘要
我们创新地将掩码自编码器(MAE)结构与分离过程合并范式相结合,提出了监控视频修复掩码自编码器(SVRMAE),以解决监控视频超分辨率(SVSR)问题。鉴于MAE预训练和视频超分辨率(VSR)任务对时空信息提取的共同需求,SVRMAE整合了MAE预训练策略,使模型能够深入理解低级视觉特征并提升视频超分辨率性能。据我们所知,我们的工作是首次成功将MAE预训练与VSR任务结合的尝试,且SVRMAE可广泛适用于大多数现有的VSR模型。此外,我们为分离过程合并框架设计了一种新颖的分离掩码策略,该策略显著增强了前景和背景元素的超分辨率效果。大量实验表明,我们的SVRMAE方法在监控视频超分辨率方面表现优异,优于其他先进模型。
引言
监控视频对公共安全、异常检测以及各种安全相关应用至关重要。然而,在资源受限的网络环境中,这些视频通常使用H.264或H.265等标准进行压缩,导致质量大幅下降。除了分辨率低之外,这些视频还常常受到明显的噪声污染[1],[2],[3],必须仔细处理这些问题以恢复精细的空间模式。为了解决这些问题,可以采用视频超分辨率(VSR)技术从低质量输入中重建高分辨率帧,从而恢复细节并提高整体视觉保真度。
视频超分辨率(VSR)技术对于从低分辨率(LR)视频重建高分辨率(HR)视频至关重要。VSR是一项时空重建任务,其性能在很大程度上依赖于有效的多帧信息聚合。在空间域中,从局部和全局上下文中学习和整合语义细节。对于时间处理,架构通常采用滑动窗口局部传播或循环连接,并结合多尺度(像素级或特征级)对齐模块以确保时间连贯性并最大化帧间的信息流动。我们通过使用掩码自编码器(MAE)对VSR模型进行创新预训练来增强其时空重建能力。所提出的范式通过关键信息掩码和重建显著提高了视觉细节的恢复能力。MAE的核心原理很简单:它涉及对输入图像的部分进行掩码处理,并训练模型预测缺失区域。VSR本质上是一个病态问题,仅最小化像素级误差往往会导致过度平滑的结果,因为模型无法恢复真实的高频细节。我们认为,掩码重建任务迫使网络捕捉数据中的时空相关性和隐含的结构先验,这对于恢复VSR中的丢失细节非常有益。据我们所知,我们的工作是首次成功将MAE方法应用于视频超分辨率(VSR)任务。
MAE框架中最关键的组成部分之一是掩码策略。虽然大多数现有MAE模型[4],[5],[6]采用随机掩码策略,但这些方法未能考虑不同图像块之间的信息密度差异。这一限制最终限制了MAE学习鲁棒视觉表示的能力[7]。为了解决这个问题,一些先进的MAE模型[7],[8],[9]采用了基于信息的掩码策略来促进语义丰富特征的提取。然而,这些方法通常需要额外的模块来生成掩码模式,增加了框架的复杂性。为了解决这些问题并提高MAE在监控视频超分辨率应用中的有效性,我们设计了一种无需训练但非常有效的分离掩码策略。
由于监控视频通常由静止摄像头拍摄,运动较少,因此它们自然包含两个不同的组成部分:动态前景和静态背景[10]。我们的分离掩码策略首先定位视频中的前景区域并将其屏蔽掉,留下剩余区域作为背景,如图1所示。具体来说,前景通常包含快速运动和丰富的纹理,需要模型关注时间对齐和结构细节。相比之下,背景相对静态,更依赖于空间一致性。传统的VSR方法通常均匀处理整个视频,常常忽略这些固有的语义差异。因此,模型可能难以同时保持背景稳定性和捕捉动态前景变化,从而导致性能下降。我们的分离掩码策略通过针对每个区域进行定制的特征提取来独立处理这些问题,从而有效捕获这种异构视觉信息。
分离前景和背景后,学习它们具有不同领域特性的特征表示至关重要。因此,具有共享参数的标准单分支架构用于顺序处理前景和背景是无效的。我们改用了SVRNet的分离过程合并(SPM)[10],其中两个分支在MAE预训练期间独立处理指定区域,损失计算仅限于被屏蔽的区域。在正式训练阶段,我们添加了一个融合层来聚合来自前景和背景分支的特征。借助分离掩码策略、MAE预训练和SPM框架,这种融合特征封装了监控视频中来自前景和背景的丰富语义信息,从而显著提高了VSR任务的有效性。
上述的MAE预训练方法、分离掩码策略和SPM框架展示了出色的泛化能力,可以轻松适应大多数VSR模型,显著提升监控视频的超分辨率性能。我们已经将这些组件整合到基于CNN和Transformer的模型中,并观察到了显著的性能提升。
我们的主要贡献总结如下:
•作为首次成功将MAE预训练应用于视频超分辨率的工作,我们提出了一个通用框架,与现有VSR架构集成时表现出一致的性能提升。
•我们提出了一种新颖的分离掩码策略,使分离过程合并(SPM)框架能够区分性地学习监控视频中前景对象和背景场景的增强表示。
•我们进行了大量实验,证明所提出的分离掩码策略结合MAE不仅在SVSR任务上实现了最先进的性能,而且在不同模型架构上也表现出显著的泛化能力。
章节摘录
视频超分辨率
视频超分辨率专注于从低分辨率视频重建高分辨率视频。传统的VSR技术主要依赖于双三次插值等插值方法,这些方法简单快捷,但往往产生模糊的结果且缺乏细节。随着深度学习的出现和SRCNN[11]的开创性工作,研究人员开始将神经网络应用于VSR。BasicVSR[12]认为,基于深度学习的VSR模型通常包括四个
初步
掩码自编码器(MAE)为计算机视觉中的自监督学习提供了一个经典框架,通过掩码重建目标优化未标记图像数据的利用。该模型通过将输入图像分割成不重叠的补丁网格,随机屏蔽其中的大部分补丁,然后从可见补丁的稀疏子集中重建原始图像。这种方法迫使编码器学习鲁棒的特征
方法
我们提出了监控视频修复掩码自编码器(SVRMAE)来提升监控视频的超分辨率和清晰度。我们的方法采用了一种创新的分离掩码策略,首先检测前景区域并生成相应的掩码。该前景掩码的逆表示背景区域,从而实现精确的分割和有针对性的处理。为了有效地从前景和背景中提取语义信息,我们使用了
数据集
为了评估我们的模型在监控视频上的性能,我们使用UA-DETRAC数据集[44]进行训练和测试。该数据集包含超过140,000帧从监控角度拍摄的视频,每帧的分辨率为960×540像素。低分辨率帧是通过应用4倍的比例因子进行双三次下采样生成的。由于原始数据集没有单独的验证集,我们提取了4个序列
局限性
这项工作存在与提出的无需训练的分离掩码策略相关的固有局限性,该策略以计算效率为代价牺牲了分割精度。掩码方法依赖于一个核心假设,即监控视频背景是静态的或变化可以忽略不计。当在复杂场景中(例如,摇曳的树叶、缓慢移动的物体,如图7所示)违反这一假设时,掩码生成失败,导致背景被错误地分类为前景
结论
在本文中,我们介绍了SVRMAE,这是一种为监控视频超分辨率精心设计的有效解决方案。认识到VSR和MAE都需要利用时空信息的能力,我们将MAE预训练整合到VSR模型中以提高其性能。此外,我们提出了一种新颖的分离掩码策略,使模型能够学习前景和背景区域中存在的不同语义信息。此外,我们采用了
CRediT作者贡献声明
刘志峰:撰写——原始草案、方法论、概念化。何正:监督、项目管理、资金获取。叶刚:验证、监督、调查。朱文倩:撰写——审阅与编辑、方法论、调查、概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
刘志峰于2025年获得武汉大学计算机科学与技术学士学位。他目前正在武汉大学攻读硕士学位。他的当前研究兴趣包括视频超分辨率和计算机视觉。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号