PSD-Mamba:一种具有规划传感器畸变的状态空间模型,用于生成高比特深度图像

【字体: 时间:2026年03月13日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  本文提出PSD-Mamba架构,通过预规划传感器失真和动态范围保持量化获取低精度深度图像,并利用Mamba模型的高效长程依赖捕捉重建高精度图像,有效抑制假轮廓并恢复细节,在PSNR、SSIM等指标上优于现有方法。

  
陈艳宇|李金峰|黄景阳|张泽晓|罗成林|彭长猛
四川农业大学信息工程学院,中国四川省雅安市新康路46号,625014

摘要

虽然高深度成像能够提升图像质量,但硬件成本和功耗限制了其直接应用。现有方法存在动态范围压缩、细节丢失以及上下文建模不足等问题。我们提出了PSD-Mamba架构:通过计划的传感器失真(PSD)偏移结合保持动态范围的量化来获取低精度深度图像,然后使用共同优化的Mamba模型重建高精度深度图像。状态空间模型(SSM)能够动态捕捉低精度输入中的长距离依赖关系,从而实现低成本、高保真度的图像生成。该方法在自然图像和动画图像上均表现出卓越的虚假轮廓抑制和细节恢复能力,在质量、效率与成本之间取得了有效平衡,并在PSNR、SSIM和LPIPS等客观指标上也有出色表现。

引言

位深度是指存储或表示数据时单个样本或像素值所使用的位数。在现代数字图像处理和图像生成中,高位深度(HBD)图像的生成逐渐成为一个热门研究课题。如图1所示,HBD图像比低位深度(LBD)图像提供更多细节,带来更好的视觉体验。然而,使用高位设备直接获取图像会增加成本并带来技术挑战(Park和Mackay,2003),尤其是在无线传感器网络(Pandey和Laxmi,2017)和物联网设备(Ji等人,2019)等大规模应用场景中,这些设备通常受功耗和硬件成本的限制,无法支持高位量化下的直接获取。这一限制促使人们探索从LBD图像输入生成HBD图像的方法。BDE(反量化,Wan等人,2012a)旨在通过算法将LBD信号恢复为HBD,从而在避免依赖昂贵硬件升级的同时提高数据质量。
传统的BDE方法(Ulichney和Cheung,1998;Wan等人,2012b;Wan等人,2016;Liu等人,2008;Wan等人,2014;Wan等人,2019;Zhang等人,2016;Liu等人,2018)已被提出用于解决反量化问题。第一类策略基于传统的数学建模和像素插值:直接位操作如零填充(ZP)和位复制(BR)(Ulichney和Cheung,1998),虽然计算效率高,但仅关注单个像素的数值扩展,忽略了相邻像素之间的空间相关性,导致平坦区域出现明显的虚假轮廓和颜色不连续性。基于插值的方法如CA(Wan等人,2016)通过抑制低位图像中的虚假轮廓来恢复细节。基于优化的算法IPAD(Liu等人,2018)通过强度势场的上下文自适应反量化过程来抑制虚假轮廓。然而,在纹理复杂或高频细节较多的区域,仍然难以平衡局部细节与全局一致性,常常会出现过度细节平滑或伪影扩散的问题。尽管上述方法在一定程度上改善了虚假轮廓的抑制效果,但生成的图像中仍可见明显的虚假轮廓和颜色失真。
此外,还有一种基于PSD的确定性重建算法(PSD-DR)(Wan等人,2014),它通过将计划的传感器失真(PSD)插入模数转换器(ADC)来构建多个描述(MDs),然后基于这些MDs减少高比特率像素值的估计误差,有效抑制伪影。PSD-PR(Wan等人,2019)是针对噪声图像改进的PSD-DR算法。PSD-block(Zhang等人,2016)改进了PSD-DR算法的动态范围损失问题。然而,这些算法都没有利用除PSD模板之外的上下文信息,导致明显的虚假轮廓痕迹。
近年来,基于深度神经网络的方法(Liu等人,2017;Byun等人,2018;Zhang等人,2021;Zhao等人,2023;Liu等人,2022;Nie等人,2022;Han等人,2023;Fu等人,2024;Punnappurath和Brown,2022)比传统的BDE方法取得了更大成功。它们利用端到端学习LBD和HBD图像之间的非线性映射,在伪影抑制和细节恢复方面取得了显著进展。典型的CNN方法,如BE-CNN(Liu等人,2017)、BitNet(Byun等人,2018)和BE-ACGAN(Zhang等人,2021),通过残差学习、跳跃连接和多尺度特征融合,在一定程度上克服了传统方法的局限性。然而,由于CNN的固有局限性,卷积的固定感受野难以自适应捕捉长距离依赖关系,难以在平坦区域和非平坦区域之间平衡处理效果。全局信息的利用不足也限制了深度模型的性能提升。
最近,一种改进的结构化状态空间序列模型(S4)Mamba因其能够以线性复杂度建模长距离序列关系而脱颖而出(Fu等人,2022;Gu和Dao,2023;Gu等人,2021a;Mehta等人,2022;Smith等人,2022)。它不仅在自然语言处理(Gu和Dao,2023)方面表现出色,而且在计算机视觉中也展现出巨大潜力。Mamba的一些变体在计算机视觉中也取得了非常显著的结果,如图像分类、目标检测和图像超分辨率(Liu等人,2024;Ma等人,2024;Zhu等人,2024)。基于Mamba模型的出色长期依赖关系建模能力和线性时间复杂度,我们尝试将其引入BDE领域。通过将Mamba的状态空间建模能力引入BDE,可以从LBD图像的像素值序列中学习更复杂的上下文信息,为恢复HBD图像提供更准确的参考。
鉴于现有算法在虚假轮廓抑制方面的不足以及无法充分利用全局上下文的问题,以及Mamba模型在线性时间复杂度下高效捕捉全局长距离依赖关系的能力,本研究提出了一种端到端的BDE算法:PSD-Mamba。该算法利用PSD预处理和中途量化方法,在图像获取端主动嵌入结构化MDs,有效减少动态范围损失和量化误差,同时结合状态空间模型(SSM)的全局感知能力,借助改进的Mamba网络实现从LBD到HBD图像的高效重建。本研究的主要贡献如下:
  • 我们提出了Mamba-UNet Block(MUNB),它构建了一个编码器-瓶颈层-解码器结构,不仅能够充分捕捉图像的局部纹理和全局结构,还能利用SSM的线性复杂度优势高效建模长距离依赖关系,从而在BDE任务中显著提升位恢复细节。
  • 我们在重建网络中引入了Residual Mamba Block(RMB),它将状态空间模块与可学习的局部卷积残差结构相结合,保持了长距离像素依赖关系的准确建模,同时精细地提取高频细节并大幅减少量化伪影。
  • 我们结合SSM和PSD的开创性组合展示了Mamba在BDE中高效有效进行全局建模的潜力。广泛的实验结果表明,我们的方法优于现有的BDE方法,为将LBD图像转换为HBD图像提供了一种高效且稳健的新策略。

相关研究

相关工作

BDE方法旨在将LBD图像转换为HBD图像,以提高图像质量和减少量化伪影。现有方法可以分为两大类:传统方法和基于深度学习的方法。每种方法在虚假轮廓抑制、细节恢复和计算效率方面各有特点。
传统方法的核心思想是通过数学建模或像素插值优化位扩展过程。

PSD-Mamba的系统架构

针对高比特图像生成算法中存在的动态范围损失、高频细节丢失和上下文建模不足的问题,我们提出了一个端到端框架PSD-Mamba,该框架整合了PSD预处理、保持动态范围的量化和Mamba长距离建模。如图2所示,通过主动在传感器端嵌入结构化多描述信息,突破了

数据集

本文的实验数据集包含动画和自然图像,训练集包括SINTEL(XFOUNDATION,2016)和FIVE-K(Bychkovsky等人,2011)。SINTEL数据集包含超过20,000张16位动画片段的无损图像,分辨率为436 × 1024,其中随机选取了2000张。在FIVE-K中,我们从5000张16位自然图像中随机选取用于实验的图像。测试集包括SINTEL-100(XFOUNDATION,2016)、FIVEK-100(

结论

本文提出了一种端到端的BDE框架PSD-Mamba。它在获取阶段嵌入结构化MD,并结合保持动态范围的量化策略。该方法旨在减少量化误差和动态范围损失。我们引入了改进的Mamba模型,该模型利用SSM进行全局上下文建模。其U形网络架构增强了特征融合并降低了计算复杂度,克服了

CRediT作者贡献声明

陈艳宇:撰写——原始草稿,监督,项目管理,方法论。李金峰:撰写——原始草稿,验证,调查,形式分析。黄景阳:撰写——原始草稿,验证,软件。张泽晓:撰写——审阅与编辑,可视化,形式分析。罗成林:撰写——审阅与编辑,验证,数据管理。彭长猛:撰写——审阅与编辑,监督,资源管理,数据管理,概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号