人工免疫系统作为网络物理生产系统中扰动管理的设计模式

《Knowledge-Based Systems》:Artificial Immune Systems as a Design Pattern for Disturbance Management in Cyber-Physical Production Systems

【字体: 时间:2026年02月28日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  实时视频去噪框架RTDM通过双路径Mamba架构分离全局空间建模与局部时空建模,结合渐进式自蒸馏策略与双向门控时间融合模块,在TIVID数据集上实现33.64dB PSNR与9.47ms/帧的平衡。

  
白玉晨|余明鑫|陈伟强|卢丽丹|娄小平|何彦林|董明丽|王子东|朱连青
合肥工业大学仪器科学与光电工程学院,中国安徽合肥230009

摘要

实时视频去噪需要高保真地恢复精细的空间细节和强时间连贯性。然而,现有方法在重建质量和计算效率之间难以取得平衡。为了解决这一挑战,本文提出了一种新的实时双路径Mamba视频去噪(RTDM)框架,能够在保持实时推理能力的同时实现最先进的去噪性能。RTDM通过集成三个关键组件来设计。首先,开发了一种双路径Mamba架构,将全局空间建模与局部时空处理分离。全局Mamba分支能够以线性计算复杂度实现并行序列建模,而希尔伯特曲线扫描的Mamba分支则以最小的计算成本保留局部运动线索。其次,采用了一种渐进式自蒸馏策略,通过时空一致性损失利用中间特征和真实信号进行多级监督。这种策略消除了对外部教师网络的需求,从而避免了训练和推理过程中的额外参数和计算开销。第三,引入了一种双向门控时间融合(Bi-GTFF)模块,通过可学习的门控机制自适应地重新加权跨帧信息,有效抑制了时间冗余和重影伪影。在具有复杂多源噪声的挑战性基准测试上进行的广泛实验表明,RTDM实现了33.64 dB的PSNR,比之前的最佳方法提高了1.02 dB,同时保持了每帧9.47 ms的超低推理延迟。这种去噪质量和推理速度的同时提升为实时视频去噪树立了新的性能基准,并验证了所提设计的有效性。我们的代码可在https://clelevo.github.io/RTDM-Mamba.github.io/获取

引言

在具有挑战性的噪声条件下进行视频去噪是计算机视觉中的一个基本问题[1],对从自动驾驶和医学成像到监控和遥感[2]、[3]、[4]等应用具有关键意义。尽管深度学习显著推动了图像恢复技术的发展,但实时视频去噪仍然具有特殊要求。它不仅需要高保真地恢复精细的空间细节,还需要在帧间保持强时间连贯性[5]、[6]。现有方法往往无法同时满足这些要求,要么为了实现实时性能而牺牲视觉质量,要么以过高的计算成本获得高精度。
最近的视频去噪方法主要依赖于卷积神经网络(CNNs)[7]、[8]或Transformer[9]、[10]。基于CNN的方法在局部特征提取和计算效率方面表现出色;然而,它们有限的感受野限制了对帧间长距离空间相关性和复杂运动动态的建模。相比之下,基于Transformer的模型使用自注意力机制捕获全局时空依赖性,但由于它们相对于序列长度的二次计算复杂度,不适合实时视频处理。为了解决这些限制,最近出现了如Mamba这样的状态空间模型,提供了具有输入依赖选择性记忆的线性时间序列建模。然而,现有的视觉Mamba变体,如Vision Mamba(VMamba)[11]和MambaOut[12],主要设计用于静态图像处理或单向视频扫描。因此,它们缺乏联合建模全局帧内上下文和局部帧间动态的显式机制,而这对于高质量视频去噪至关重要。
为了解决上述限制,本文提出了实时去噪Mamba(RTDM)作为一个新的实时视频去噪框架,重新思考了架构设计和训练策略[13]、[14]。RTDM的核心是一个双路径Mamba架构,其中全局和局部时空建模被明确分离并协同集成。具体来说,全局Mamba分支独立处理每一帧以捕获长距离空间依赖性,而希尔伯特曲线扫描的Mamba分支沿着填充空间的曲线遍历3D视频体积,以高效建模局部时空相关性[15]、[16]。这种设计从根本上不同于传统的逐帧应用标准2D Mamba模块的方法,实现了全局上下文和局部运动动态的互补建模[17]、[18]、[19]、[20]。除了架构建模外,有效的训练监督对于实现高质量的低级视频重建也是必不可少的。为此,开发了一种针对视频去噪的渐进式自蒸馏方案[21]、[22]、[23]、[24]。与依赖单一教师信号(例如最终输出或深度特征)的传统蒸馏方法不同,所提出的方案动态整合了三种互补的监督来源:真实标签、中间深度特征和网络自身的预测。这种多源监督在网络深度上提供了更丰富的指导,消除了对外部教师网络的需求,并同时增强了空间细节恢复和时间连贯性。在具有复杂运动和严重噪声的挑战性TIVID基准测试中,所提出的方法实现了33.64 dB的PSNR和每帧9.47 ms的推理延迟。本工作的主要贡献总结如下:
  • 1.
    提出了一种基于Mamba的架构,专为高效视频去噪设计,具有将全局空间建模与局部时空建模分离的双路径结构。
  • 2.
    引入了一种多源渐进式自蒸馏策略,无需辅助网络即可提供分层监督,显著提高了低级重建任务的特征学习效果。
  • 3.
    展示了去噪性能和计算效率之间的新最佳平衡,验证了所提方法在延迟敏感的实际应用中的实用性。
  • 相关研究

    相关工作

    本节回顾了构成本研究技术基础的代表性研究。讨论涵盖了三个密切相关的研究方向:用于高效模型训练的自蒸馏技术、平衡重建质量和计算效率的视频去噪方法,以及基于Mamba的序列建模的最新进展。

    方法

    为了实现鲁棒的视频去噪,需要有效联合建模精细的空间细节和帧间的时间连贯性。为此,本文提出了一种新的框架,包括三个紧密集成的组件:用于高效时空特征提取的双路径Mamba架构、用于分层特征细化的渐进式自蒸馏(PSD)训练策略,以及用于增强跨帧表示的时间特征融合模块。

    数据集

    所有实验均在TIVID数据集[39]上进行,该数据集包含518个高质量视频序列,共计159,758帧,空间分辨率为320×256像素。数据集涵盖了包括行人、车辆和城市基础设施在内的各种真实世界场景,使用商用非冷却成像传感器(IRnova T2SL Freja330)捕获。原始TIVID序列没有可见伪影或传输错误,因此被视为干净的数据

    结论

    本文提出了RTDM作为一个实时视频去噪框架,实现了最先进的重建保真度,同时保持了高计算效率。该框架基于双路径Mamba架构构建,该架构明确将全局帧内空间建模与局部帧间时空动态分离,从而能够同时捕获长距离结构上下文和细粒度运动细节,且计算复杂度为线性

    未引用的参考文献

    缺失的参考文献包括表11、图1以及[53]、[54]、[55]、[56]。

    CRediT作者贡献声明

    白玉晨:撰写——原始草稿、软件开发、数据管理、概念构思。余明鑫:撰写——审阅与编辑、资源准备。陈伟强:形式分析。卢丽丹:方法论。娄小平:验证。何彦林:资源准备。董明丽:可视化。王子东:撰写——审阅与编辑。朱连青:监督。

    利益冲突声明

    作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号