通过3D稀疏几何消除冗余:针对多视图视频的具有3D感知能力的神经压缩技术

《INTERNATIONAL JOURNAL OF COMPUTER VISION》:Breaking Redundancy via 3D Sparse Geometry: 3D-aware Neural Compression for Multi-View Videos

【字体: 时间:2026年01月08日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐:

  现有隐式神经表示方法难以有效压缩多视角沉浸视频,因其无法统一处理复杂几何变形和跨视角关联。本文提出M-NeRV模型,通过全局点云构建3D结构条件,结合动态网格适应(DGA)消除视角参数冗余,利用3D空间一致性聚合(3D-SCA)增强几何细节,在保持语义一致性的同时显著提升压缩性能,较MPEG标准提升3.00 BD-PSNR。

  

摘要

现有的隐式神经表示(INR)方法通常通过消除图像之间的冗余来压缩单个视频。然而,随着3D视觉技术的发展,对多视图沉浸式视频的需求不断增加,现有的INR框架在单一的统一压缩模型中难以有效处理不同视图之间的复杂几何变形。由此产生了两个核心限制:1) 视图之间的重复参数不仅浪费内存,还阻碍了对统一场景理解的学习;2) 缺乏共享的3D表示迫使模型将本质上的3D空间关系简化为2D近似,从而削弱了跨视图的几何相关性。相比之下,本文提出了一种空间统一的神经表示方法M-NeRV,它将整个视图场景作为基本单元进行建模,利用多视图场景的高维变化中的丰富3D空间信息来增强表示学习。具体而言,M-NeRV首先构建一个全局点云,并将其编码到上下文空间中作为3D结构条件。在该条件的指导下,动态网格适应(DGA)模块根据局部3D场景元素动态生成特征,从而消除视图特定嵌入中的参数重复,保持多个视图之间的连贯3D几何关系。此外,我们还引入了3D空间一致性聚合(3D-SCA)模块,该模块利用真实世界场景中的3D结构关系而非2D特征匹配来保持语义一致性并增强场景的详细几何信息,从而在解码后的图像中保留更多结构细节。实验结果表明,与最新的MPEG沉浸式视频标准相比,我们的方法在BD-PSNR方面实现了高达3.00的提升,展现了先进的编码性能。

现有的隐式神经表示(INR)方法通常通过消除图像之间的冗余来压缩单个视频。然而,随着3D视觉技术的发展,对多视图沉浸式视频的需求不断增加,现有的INR框架在单一的统一压缩模型中难以有效处理不同视图之间的复杂几何变形。由此产生了两个核心限制:1) 视图之间的重复参数不仅浪费内存,还阻碍了对统一场景理解的学习;2) 缺乏共享的3D表示迫使模型将本质上的3D空间关系简化为2D近似,从而削弱了跨视图的几何相关性。相比之下,本文提出了一种空间统一的神经表示方法M-NeRV,它将整个视图场景作为基本单元进行建模,利用多视图场景的高维变化中的丰富3D空间信息来增强表示学习。具体而言,M-NeRV首先构建一个全局点云,并将其编码到上下文空间中作为3D结构条件。在該条件的指导下,动态网格适应(DGA)模块根据局部3D场景元素动态生成特征,从而消除视图特定嵌入中的参数重复,保持多个视图之间的连贯3D几何关系。此外,我们还引入了3D空间一致性聚合(3D-SCA)模块,该模块利用真实世界场景中的3D结构关系而非2D特征匹配来保持语义一致性并增强场景的详细几何信息,从而在解码后的图像中保留更多结构细节。实验结果表明,与最新的MPEG沉浸式视频标准相比,我们的方法在BD-PSNR方面实现了高达3.00的提升,展现了先进的编码性能。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号