MRF-SA:一种用于光场角向超分辨的多接收场空间-角度框架 Ebrahem Elkady、Ahmed Salem、Hyun-Soo Kang 和 Jae-Won Suh

《Mathematics》:MRF-SA: Multi-Receptive Field Spatial–Angular Framework for Light Field Angular Super-Resolution Ebrahem Elkady, Ahmed Salem, Hyun-Soo Kang and Jae-Won Suh

【字体: 时间:2026年05月10日 来源:Mathematics 2.2

编辑推荐:

  摘要 光场角超分辨率(LFASR)旨在通过利用空间-角度相关性,从稀疏输入重建密集采样的视图,从而产生丰富的空间-角度表示,并实现3D重建、重新聚焦和虚拟现实等应用。在本文中,我们提出了一种多接收场空间-角度(MRF-SA)框架,该框架通过互补的空间和角度

  摘要 光场角超分辨率(LFASR)旨在通过利用空间-角度相关性,从稀疏输入重建密集采样的视图,从而产生丰富的空间-角度表示,并实现3D重建、重新聚焦和虚拟现实等应用。在本文中,我们提出了一种多接收场空间-角度(MRF-SA)框架,该框架通过互补的空间和角度分支共同捕获细粒度细节和长距离依赖性。这种设计能够在不依赖计算成本高昂的注意力机制的情况下,有效建模具有视差感知的交互作用。此外,我们引入了一种基于深度可分离卷积的轻量级变体,以在重建精度和计算效率之间实现有利的平衡。在真实世界和合成数据集上的广泛实验表明,所提出的方法与最先进的方法相比具有竞争力。

1. 引言
与传统的二维成像不同,光场(LF)成像同时捕捉光线的空间和角度信息,提供了场景的更丰富表示。这一额外的角度维度保留了多视图几何线索,使密集的光场数据能够支持广泛的先进计算机视觉应用,如对象检测[1,2]、深度估计[3,4]、三维重建[5,6]、前景去遮挡[7]和捕获后的重新聚焦[8]。通过同时编码空间内容和视图依赖的变化,LF数据比传统图像提供了更强的场景理解能力。尽管有这些优势,获取高分辨率的密集光场数据仍然具有挑战性。现有的LF成像系统通常成本高昂且体积庞大,并且会面临空间和角度分辨率之间的固有折中。因此,以实际和高效的方式捕获密集采样和高质量的光场数据非常困难。为了解决这些限制,大量的研究工作集中在计算重建技术上,旨在从稀疏采样的输入(例如少数视图)恢复密集的光场数据(例如多数视图)。这些方法通过算法解决方案减轻了硬件限制,提高了角度密度和空间保真度,而无需复杂的采集系统。

光场可以表示为一个四维函数,该函数描述了光线在角度和空间维度上的辐射度。这种表示可以用几种互补的形式表达,每种形式都突出了空间-角度结构的不同特征,如图1所示。图1. 空间-角度域中不同光场数据表示的示意图:(a) 宏像素图像(MacPIs),(b) 子孔径图像(SAIs),以及(c) 极平面图像(EPIs)。这些互补的表示突出了LF数据中不同的空间-角度相关性方面。与提高每个子孔径图像(SAI)分辨率同时保持视图数量不变的空间超分辨率方法[9,10,11]不同,光场角超分辨率(LFASR)专注于通过利用空间-角度相关性从稀疏输入重建密集采样的视图。现有的LFASR方法通常可以分为显式和隐式方法。显式方法通过视差引导的变形来估计视差图并合成新视图。尽管在具有大视差的场景中有效,但其性能严重依赖于视差估计的准确性,并且由于假设光的恒定性,在无纹理或非朗伯区域性能常常下降。相比之下,隐式方法直接使用深度神经网络学习视图间关系,从而避免了显式的深度估计,并在复杂场景中提供了更好的鲁棒性。早期的方法依赖于高维卷积来建模LF数据;然而,其高计算成本限制了实际应用。因此,最近的方法通常将LF信息分解为空间、角度和极平面图像(EPI)表示,以实现更有效的建模。

尽管取得了这些进展,有效地建模依赖于视差的角交互仍然是一个基本挑战。现有的基于CNN的LFASR方法通常依赖于解耦的或隐式的空间-角度建模策略。例如,DistgASR[12]采用独立的空间和角度(EPI)分支,其中角度特征被压缩成深度通道表示,然后通过顺序解耦-融合过程中的像素混合操作进行恢复。然而,这种方法可能会导致精细角度细节的丢失。相比之下,EASR[13]利用3D卷积来隐式混合空间和角度信息,但对跨维度交互提供了有限的显式控制。基于变换器的方法最近通过自注意力捕获全局依赖性显示出有希望的结果;然而,对于高分辨率或密集采样的LF,它们的计算和内存需求可能会变得相当大,这对高效部署构成了挑战。另一方面,传统的基于CNN的方法计算效率高,但通常依赖于小的卷积核,导致接收场较小,建模长距离角度依赖性的能力减弱。重要的是,LF中的角度相关性表现出结构化和由视差驱动的模式,而不是任意的全局关系,这表明适当扩大的接收场可以有效地捕捉空间-角度交互,而无需依赖计算密集型的注意力机制。

受到这一洞察的启发,我们提出了一个多接收场卷积框架,通过不同尺度的卷积的结构化组合来扩展有效的接收场。与之前的解耦或隐式策略不同,所提出的架构通过并行分支显式建模空间和角度特征,能够捕获细粒度的纹理和长距离的视差感知相关性。此外,我们开发了一个全容量模型和一个基于深度可分离卷积的轻量级变体,提供了重建精度和计算效率之间的灵活平衡。本文的主要贡献总结如下:我们提出了一种多接收场空间-角度(MRF-SA)框架,它通过具有不同接收场的并行卷积分支共同建模空间和角度相关性,能够在不依赖注意力机制的情况下有效建模依赖于视差的交互作用。我们引入了一个空间-角度交互块(SAIB),它将特征学习分解为互补的空间和角度分支,并通过有效的融合策略将它们集成起来,以增强空间-角度表示。我们开发了一种基于深度可分离卷积的轻量级变体(E-MRF-SA),在重建精度和计算效率之间实现了有利的平衡。广泛的实验证明了其具有竞争力的性能,同时降低了复杂性并提高了可扩展性。

本文的其余部分组织如下:第2节回顾相关工作;第3节介绍所提出的方法;第4节提供实验结果和分析,包括消融研究和深度评估;最后,第5节总结本文。

2. 相关工作
现有的LF角重建方法可以根据它们对视差估计的依赖性分为两类,即显式和隐式方法。在本节中,我们回顾了这两类中的代表性工作,并讨论了它们的优点和局限性。

2.1. 显式LF重建
显式重建方法通过显式估计视差信息来建立LF视图之间的对应关系。通常,这些方法首先计算视差图,类似于光流估计,然后使用它们将输入视图变形到目标视图。随后将变形的结果融合起来生成最终的重建视图。这种管道提供了直观的几何解释,并且在可以获得准确视差的大基线场景中特别有效。早期的方法主要依赖于传统的优化技术。Wanner等人[14]将LF重建构建为一个具有总变分先验的能量最小化问题,视差是使用从EPIs派生的结构张量估计的。然而,视差估计和视图合成之间的分离使该框架对估计误差高度敏感,经常导致诸如重影和撕裂等人为误差。Zhang等人[15]提出了一种基于深度辅助的微基线立体视觉方法,而Zhang的另一项工作[16]引入了一种基于补丁的策略,将中央子孔径图像(SAI)分割成多个深度层进行视图合成。

随着深度学习的发展,基于CNN的显式方法显著提高了重建质量。Kalantari等人[17]引入了一个两阶段框架,分别使用专用神经网络学习视差估计和颜色预测。Shi等人[18]提出了一个混合模型,结合了基于光流深度估计的像素域和特征域重建。Jin等人[19,20]进一步扩展了这些方法,通过结合基于变形的合成和基于置信度的融合机制来处理大基线和不规则稀疏LF输入。最近,Chen等人[21]提出了一个多平面跨视图交互机制,与变换器架构集成以增强视图间的特征交互。

为了克服纯视差基线管道的局限性,也探索了混合方法。Wu等人[22]提出了一种基于几何感知的神经插值方法,将基于深度的渲染与学习到的重建相结合,而Chen等人[23]引入了一个统一的框架,通过视差引导的掩蔽机制整合了显式和隐式策略。尽管有这些改进,显式方法仍然严重依赖于准确的视差估计,并且在具有遮挡、反射和非朗伯效应的具有挑战性的区域中经常遇到困难。

2.2. 隐式LF重建
隐式重建方法避免显式视差估计,而是直接使用深度神经网络从数据中学习空间-角度关系。通过隐式建模视图间依赖性,这些方法在复杂场景中通常具有更大的鲁棒性。因此,它们在最近的LF重建研究中变得越来越占主导地位。早期的隐式方法关注EPI表示。Wu等人[24]引入了一个模糊-恢复-去模糊框架来解决EPIs中的信息不平衡问题,而后续的工作[25]利用剪切的EPIs来更好地处理大视差。Wang等人[26]使用序列3D卷积来增强EPI特征。然而,由于EPIs仅表示4D LF的部分切片,这些方法可能缺乏足够的全局空间-角度上下文,导致重建视图中的错误累积。为了更好地利用LF结构,后来的工作引入了更具表现力的表示。Yeung等人[27]提出了伪4D过滤来捕捉视图间的交互,而Chen等人[28]开发了一个利用LF数据规则视差结构的伪4D端到端框架。其他方法专注于改进特征表示和解耦。例如,Wang等人[12]引入了一种空间-角度解耦机制,而Liu等人[13]利用MacPI表示来实现高效的空间-角度融合和上采样。最近的工作探索了更先进的建模策略。Elkady等人[29]提出从多个方向提取四边形极平面特征来增强重建的鲁棒性;在后续工作中,他们引入了一种三可视化策略,构建了LF特征的层次化表示以提高密集重建性能[30]。Li等人[31]引入了极平面焦点谱(EFS)框架,以在具有遮挡和大视差的场景中提高鲁棒性。Liu等人[32]结合了卷积和变换器模块来共同建模几何和纹理信息,实现了改进的重建质量。

基于变换器的方法通过启用全局依赖性建模进一步推进了LF重建。例如,Wang等人[33]提出了ViewFormer,它在编码器-解码器架构中使用特定于视图的查询来捕获空间和角度交互。虽然这些方法在建模长距离依赖性方面有效,但它们对自注意力的依赖通常伴随着计算和内存需求的增加,特别是对于高分辨率LF数据。同时,最近的研究探索了联合空间-角度超分辨率,以同时增强光场的两个维度。例如,[34]提出了一种隐式细节增强网络,利用3D卷积和隐式表示进行联合空间-角度建模和细节细化。类似地,[35]提出了一种阶段式框架,它适应性地聚合视图间的信息,并使用特征交互模块来更好地捕捉空间-角度相关性并增强视差结构。尽管它们有效,但这些方法主要依赖于隐式建模或复杂的特征交互,这可能限制了它们的可解释性和效率。

这些局限性突出了一种高效和可扩展的框架的需求,该框架能够在不产生显著计算开销的情况下捕获细粒度的局部细节和长距离的空间-角度依赖性。为了解决这个问题,我们提出了一种多接收场空间-角度框架,它利用多样化的接收场来有效地建模依赖于视差的交互,同时保持计算效率。

3. 方法论
3.1. 问题表述
光场可以表示为一个四维函数,其中 表示空间坐标, 表示对应于 视点的角度坐标。每个SAI具有 的空间分辨率。
LFASR旨在从稀疏采样的输入 重建一个密集采样的LF ,其中 。目标是合成缺失的 视图,同时保持空间保真性和跨视图的角度一致性。
按照惯例,输入的LF从RGB颜色空间转换为YCbCr颜色空间;所提出的网络在亮度通道(Y)上操作,其中包含大部分结构和纹理信息,而色度通道(Cb和Cr)使用角度域中的双三次插值独立上采样。最终的密集LF是通过将重建的Y通道与插值后的色度分量结合获得的。

3.2. 所提网络的概述
所提出的MRF-SA网络的总体架构如图2所示,包括三个主要阶段:初始特征提取、深度空间-角度表示和角度重建。图2. 所提出的多接收场空间-角度(MRF-SA)网络的总体架构。该框架包括三个主要阶段:初始特征提取、通过堆叠的空间-角度交互块(SAIBs)进行的深度空间-角度表示,以及角度重建。在给定采样稀疏的立体图像(LF)的情况下,第一阶段从每个视点(SAI)中提取低级特征,以形成初始表示。为了实现高效的联合空间-角度建模,这些特征被重新排列成宏观像素图像(MacPI)表示,从而得到一个紧凑的特征图。转换后的特征随后通过一系列空间-角度交互模块(SAIBs)进行处理,这些模块构成了网络的核心。每个SAIB集成一个多感受野空间分支(MRF-SB)和一个多感受野角度分支(MRF-AB),使网络能够同时捕获细粒度的空间细节和感知差异的角度依赖性。通过渐进式特征提取、密集聚合和通道注意力,这一阶段产生了精细的表示。在最终阶段,使用基于PixelShuffle的上采样模块进行角度超分辨率处理,以重建密集的角度视图。为了进一步提高重建质量,通过将网络输出与双三次插值基线结合,引入了全局残差连接,这有助于在保持角度一致性的同时保留空间细节。为了提高计算效率,我们还引入了一个轻量级变体,称为E-MRF-SA,在其中空间和角度分支中的标准卷积被深度可分离卷积所取代。这种修改显著减少了参数数量和计算成本,同时保持了具有竞争力的重建性能。

3.3. 初始特征提取(IFE)
在给定采样稀疏的LF的情况下,网络首先执行视图级特征提取,以获得低级的空间表示。具体来说,输入的LF被分解为单独的SAIs,每个视图可以使用共享的卷积层独立处理。每个SAI经过一系列卷积层处理,这些卷积层与LeakyReLU激活函数和残差连接交替使用(见图2),产生初步的特征表示。使用卷积可以高效地进行通道级特征嵌入,而不改变空间分辨率,使网络在保留精细结构细节的同时学习紧凑的表示。同时,残差连接有助于稳定的梯度传播并改善训练过程中的收敛性。为了实现联合空间-角度建模,提取的特征随后被重新组织成MacPI表示:这种转换将角度信息嵌入到空间域中,使得后续的卷积操作能够在统一的2D特征空间中捕获空间和角度的相关性。

3.4. 深度空间-角度特征表示
MacPI特征通过一系列空间-角度交互模块(SAIBs)进行处理,这些模块构成了所提出框架的核心。每个SAIB旨在通过将特征学习分解为两个互补的分支来明确建模空间和角度依赖性,然后进行特征交互和融合。给定一个输入特征,空间分支(MRF-SB)通过多感受野卷积来建模视图内的空间结构:具体来说,空间分支采用多个具有不同感受野的并行卷积路径,包括用于局部特征细化的卷积和用于捕获更广泛空间上下文的堆叠卷积(见图3)。这种多路径设计使网络能够在保持计算效率的同时编码细粒度的纹理和大规模的结构信息。

图3. 多感受野空间分支(MRF-SB)和多感受野角度分支(MRF-AB)的架构。空间分支使用具有不同感受野的并行卷积路径来捕获局部细节和更广泛的空间上下文,而角度分支利用不同膨胀率的光圈卷积来建模视图间的依赖性和长距离角度依赖性。同时,角度分支(MRF-AB)模型不同视角间的依赖性:角度分支由多个具有不同膨胀率(例如3、5和7)的光圈卷积路径组成(见图3)。在LF数据中,角度相关性由视差控制,这会导致视图间的像素移动。因此,沿角度方向的感受野应该足够大,以捕获这些依赖视差的关系的变化。选定的膨胀率旨在覆盖多个视差尺度,较小的膨胀专注于局部角度一致性,较大的膨胀则能够建模长距离的视图间依赖性。然而,过大的膨胀率可能会导致采样稀疏和特征聚合效果降低。因此,所采用的配置在感受野覆盖范围和采样密度之间提供了平衡的折中,有效地建模了局部和长距离的角度交互。然后,空间和角度分支的输出被融合:融合模块由卷积层组成,这些卷积层能够促进空间和角度特征之间的有效交互,从而实现互补的信息交换。为了进一步提高表示能力,多个SAIBs被级联,并且它们的输出被密集聚合:接着应用通道注意力机制:该机制通过强调信息丰富的通道并抑制冗余通道来自适应地重新调整特征响应。最后,应用一个投影层(实现为卷积)来生成最终的深度空间-角度表示:该操作执行通道级特征聚合和维度调整,产生一个编码丰富空间-角度相关性的紧凑且具有辨别力的表示。为了提高效率,轻量级变体E-MRF-SA用深度可分离卷积替换了两个分支中的标准卷积(见图4),显著减少了参数数量和计算成本,同时保持了多尺度空间-角度建模的有效性。

3.5. 角度重建
在最终阶段,深度特征通过MacPI域中的角度上采样转换来重建密集的LF。首先,通过卷积投影模块处理特征,其中一个卷积的核大小与输入的角度分辨率对齐,以聚合空间-角度信息。这之后是扩展通道维度的卷积。然后使用PixelShuffle操作对特征进行上采样,通过将通道信息重新排列到空间-角度维度中来提高角度分辨率。为了进一步完善上采样后的特征,应用额外的卷积层和带有LeakyReLU激活函数的卷积层来抑制伪影并增强局部一致性。整个操作可以表示为。最后,采用全局残差学习策略。首先使用双三次插值生成一个粗略的LF:然后通过添加学习到的残差来获得最终输出。

4. 实验
本节通过与几种最先进的(SOTA)LFASR方法进行全面比较来评估所提出方法的有效性。此外,还进行了消融研究,以分析关键架构组件的贡献,并简要检验了该模型在深度估计中的应用性。

4.1. 数据集和实现细节
实验在合成和真实世界的LF数据集上进行,以确保全面评估(见表1)。对于合成数据,我们使用HCInew [36] 和 HCIold [37] 数据集,这些数据集包含具有大视差和复杂几何结构的场景。对于真实世界的评估,我们采用30Scenes [17] 和 STFlytro [38] 数据集,这些数据集包括具有不同纹理和照明条件的多样化场景。表1. 用于训练和评估的LF数据集的总结,包括数据集类型、场景数量、视差范围和空间-角度分辨率。按照标准实验设置,训练集包含120个场景,其中包括100个真实世界场景和20个合成场景。评估集包括来自HCIold的5个场景、来自HCInew的4个场景、来自30Scenes的30个场景以及来自STFlytro的40个场景。为了进一步评估在具有挑战性条件下的性能,STFlytro数据集被分成25个以遮挡为主体的场景和15个具有强烈反射效果的场景。所有实验都遵循广泛采用的视角超分辨率设置,其中从四个角视图重建一个密集的LF。在训练过程中,每个SAI被裁剪成块,产生大约15,000个训练样本。应用数据增强技术,包括随机旋转和水平/垂直翻转,以提高泛化能力。所提出的网络配置有一个特征通道维度,并由五个堆叠的SAIBs组成。模型使用Adam优化器进行训练,批量大小设置为4,初始学习率为,每25个周期减少0.5倍。训练在NVIDIA RTX 3090 GPU上进行,共训练80个周期。训练过程表现出稳定的收敛性,损失逐渐减小并在后期饱和。相同的GPU也用于推理时间测量。网络使用损失函数进行优化:其中表示真实LF,表示稀疏输入。重建质量使用峰值信噪比(PSNR)和结构相似性指数(SSIM)在亮度(Y)通道上进行评估。所有报告的结果都是在每种数据集的所有重建视图和所有测试场景下平均得出的,以确保全面和可靠的性能评估。

4.2. 与最先进方法的比较
为了评估所提出方法的有效性,我们与几种SOTA LFASR方法进行了全面比较,包括LFASR-Geo [19]、FS-GAF [20]、DistgASR [12]、QEASR [29]、EASR [13]、DFEASR [39]、ELFR [23]、Wang等人[33]和CTDDNet [32]。为了公平和一致的评估,所有方法都在两种常用的视角重建设置下进行测试。

4.2.1. 重建任务
表2展示了该任务的定量结果。所提出的方法在真实世界和合成数据集上都表现出一贯的强大性能,在PSNR和SSIM方面排名靠前。表2. 对LFASR任务的PSNR和SSIM进行定量评估,将所提出的方法与最先进的方法进行比较。最佳和第二最佳性能分别用粗体和下划线表示。结果以PSNR(dB)/SSIM报告。在真实世界数据集上,完整模型(MRF-SA)在所有基准测试中实现了最佳的PSNR,从而获得了最高的整体平均性能。具体来说,它在30Scenes、Occlusions和Reflective数据集上的PSNR分别为44.12 dB、40.57 dB和40.01 dB,并且具有最高的SSIM值。这些结果表明了准确的视图重建和结构细节的强保留。轻量级变体(E-MRF-SA)也表现出有竞争力的性能,其结果可与QEASR [29]和Wang等人[33]相媲美,同时优于CTDDNet [32]和ELFR [23]等方法。在涉及更大视差和更复杂几何变化的合成数据集上,MRF-SA在HCInew上实现了38.25 dB,在HCIold上实现了44.29 dB。ELFR [23]在HCInew上报告了更高的PSNR,这可以归因于它使用了显式的几何或深度相关建模,在大视差条件下提高了像素级的准确性。相比之下,所提出的方法依赖于隐式的空间-角度相关建模,没有深度监督,这提供了更好的鲁棒性,但在极端视差情况下可能精度较低。尽管如此,所提出的方法仍实现了具有竞争力的SSIM性能,表明了强结构一致性。E-MRF-SA变体与QEASR [29]和ELFR [23]保持竞争力,同时在多个其他方法上也显示出改进。总体而言,MRF-SA在真实世界数据集上的平均PSNR为41.57 dB,SSIM为0.991,在合成数据集上的PSNR为41.27 dB,SSIM为0.990,超过了现有方法。轻量级E-MRF-SA在合成数据集上的排名第三,仅次于ELFR [23]和QEASR [29],在真实世界数据集上仅次于QEASR [29]和Wang等人[33],显示出准确性和效率之间的良好平衡。为了进一步验证重建质量,图5和图6展示了真实世界和合成数据集的定性比较。图5. 对真实世界数据集上LF重建任务的不同方法进行定性比较。所有结果都使用相同的裁剪区域和缩放比例呈现,以确保公平和一致的比较。图6. 对合成数据集上LF重建任务的不同方法进行定性比较。所有结果都使用相同的裁剪区域和缩放比例呈现,以确保公平和一致的比较。对于真实世界场景(图5),竞争方法往往难以保留精细结构并在具有挑战性的区域显示出退化。例如,在30Scenes_IMG_1541中,几种方法无法准确重建如植物尖端这样的细结构,而在occlusions_16_eslf中,它们无法在遮挡下保持清晰的道路边界。相比之下,所提出的方法产生了更准确和一致的重建,与真实值非常接近。对于合成数据集(图6),如HCI_new_bedroom和HCI_new_stilllife,现有方法经常产生模糊的结果或无法恢复绘画或桌布图案中的高频率细节。相比之下,所提出的方法恢复了这些细节,结构更加清晰,伪影更少。残差误差图进一步表明,所提出的方法引入了更少的重建错误。此外,对重建的EPI图像的分析表明,所提出的模型能够高精度地保留线性结构,有效地模拟了角度几何形状。与之前经常产生变形或不准确视差的方法不同,所提出的方法在各个视角中保持了强烈的几何一致性。为了进一步评估角度一致性,我们分析了HCIold数据集中的静物场景任务的PSNR和SSIM的统计分布(见图7)。除了平均值外,还计算了所有重建SAI的每个指标的标准差。图7显示了LFASR任务的PSNR和SSIM分布,反映了重建质量和角度一致性。所提出的方法在两个指标上都获得了最高的平均值和最低的标准差,证明其在所有角度视角下的准确性和性能的稳定性。该方法取得了最高的平均性能,PSNR为36.80 dB,SSIM为0.985。此外,它的变化最小,标准差分别为1.04和0.003。这表明该模型不仅能够生成准确的重建结果,还能在不同视角下保持一致的质量。减少的方差突显了所提出框架在保持空间-角度一致性方面的鲁棒性。

4.2.2 重建任务
表3对所提出的方法与最先进(SOTA)方法在LFASR任务上的进行了全面的定量比较。结果清楚地证明了全参数(MRF-SA)和轻量化(E-MRF-SA)变体在合成数据和真实世界数据集中的有效性。表3报告了LFASR任务的PSNR和SSIM的定量评估,将所提出的方法与最先进的方法进行了对比。最佳和第二最佳性能分别用粗体和下划线标出。数值以PSNR(dB)/SSIM的形式呈现。全参数MRF-SA模型在所有基准测试中 consistently取得最佳性能,展示了其强大的重建能力。同时,轻量化变体(E-MRF-SA)在合成数据集上与QEASR[29]相当,而在真实世界数据集上则超过了多种现有方法。在真实世界数据集上,尽管其复杂性显著降低,但其性能与其他领先方法相当。

在真实世界数据集上,所提出的方法的表现始终与现有方法相当或更好。在具有较大基线的合成数据集上,这种方法的优势更加明显,因为许多方法——特别是那些没有显式建模空间-角度依赖性的方法——往往会退化。这证明了所提出的多感受野设计在捕捉复杂的角度关系和处理较大视差方面的有效性。

4.2.3 计算分析
表4比较了不同LFASR方法的模型复杂性和性能,包括参数数量、FLOPs、推理时间和所有数据集上的平均PSNR。表4报告了在不同设置下的模型复杂性和重建性能。推理时间是基于五次运行的平均值,以减少GPU引起的差异。所提出的MRF-SA模型在重建准确性和计算复杂性之间取得了良好的平衡。它需要的参数比EASR[13]少,同时实现了更高的重建精度。尽管MRF-SA的复杂性略高于某些方法,但它始终至少提高了0.34 dB的性能。高效版本的E-MRF-SA旨在在重建性能和计算复杂性之间实现平衡的权衡。与全参数模型相比,它显著减少了参数数量和FLOPs,同时保持了有竞争力的重建质量。尽管一些方法报告了更低的计算成本(例如EASR [13]),但这通常会以重建性能的牺牲为代价。相比之下,E-MRF-SA在中等复杂度下实现了良好的PSNR/SSIM效果,显示出准确性和效率之间的有效平衡。值得注意的是,它的性能优于LFASR-Geo [19]和FS-GAF [20]等轻量化模型,同时仍与其他高效方法保持竞争力。

4.3 消融研究
在本节中,我们进行了全面的消融研究,以评估所提设计的效果。分析重点关注框架的两个核心组件,即MRF-SB和MRF-AB。我们首先通过单独移除每个组件来检查它们的贡献,然后通过选择性地禁用特定路径来进一步分析它们的内部结构。此外,我们还研究了每个分支中不同感受野配置的影响。通过改变SAIB块的数量以及进行角度分支中不同膨胀率配置的敏感性分析,我们进一步扩展了分析。这些额外的研究提供了对设计选择及其对重建性能影响的更深入见解。所有实验都在LFASR任务上使用真实世界和合成数据集进行。定量结果总结在表5中,提供了对每个设计组件的详细评估。这些实验直接验证了所提出的架构选择的有效性,并强调了多感受野空间-角度建模的重要性。

4.3.1 空间和角度分支的影响
为了评估MRF-SB和MRF-AB的各自贡献,我们通过分别移除每个分支来进行消融研究。结果记录在表5中。移除空间分支(无MRF-SB)会导致性能适度下降,在真实世界数据集上平均PSNR下降了0.31 dB,在合成数据集上下降了0.74 dB。相比之下,移除角度分支(无MRF-AB)会导致更大的性能下降,在真实世界数据集上PSNR下降了1.8 dB,在合成数据集上下降了8.12 dB。这种不对称行为反映了LF重建的固有特性。角度分支在建模依赖于视差的视角间关系中起着关键作用,这对于合成新视图至关重要,特别是在大视差条件下。没有这个组件,模型在保持视角间几何一致性方面的能力较弱,从而导致性能大幅下降。空间分支虽然单独不足以恢复缺失的角度信息,但它通过增强局部纹理和结构细节提供了互补的视角内细化。当它与角度分支结合使用时,观察到了持续的改进。总体而言,这两个分支起到了互补的作用:角度分支建立了全局几何一致性,而空间分支提高了局部重建的保真度。

4.3.2 空间分支路径的消融
为了研究MRF-SB中每条路径的贡献,我们通过一次移除一条路径来进行消融研究,同时保持其他路径不变。结果总结在表5中。移除第一条路径(MRF-SB-b1),该路径包含卷积操作,在真实世界数据集上PSNR下降了0.05 dB,在合成数据集上下降了0.37 dB。消除第二条路径(MRF-SB-b2),该路径基于卷积操作,分别导致PSNR下降了0.11 dB和0.20 dB。同样,移除第三条路径(MRF-SB-b3),该路径使用堆叠卷积来扩大感受野,在真实世界数据上PSNR下降了0.09 dB,在合成数据上下降了0.37 dB。这些结果表明,所有空间路径都对性能提升有所贡献,每条路径在不同感受野尺度上捕获了互补的空间特征。

4.3.3 角度分支路径的消融
为了评估MRF-AB中每条路径的作用,我们通过分别移除每条路径来进行消融研究。相应结果记录在表5中。移除第一条路径(MRF-AB-b1),该路径使用膨胀率为7的卷积操作,在真实世界数据集上PSNR下降了0.09 dB,在合成数据集上下降了0.84 dB。消除第二条路径(MRF-AB-b2),该路径由膨胀率为5的堆叠卷积组成,分别导致PSNR下降了0.09 dB和0.10 dB。同样,移除第三条路径(MRF-AB-b3),该路径使用膨胀率为3的堆叠卷积,导致在真实世界数据上PSNR下降了0.19 dB,在合成数据上下降了0.17 dB。这些结果确认了所有角度路径都对重建性能有所贡献,每条路径在不同尺度上捕获了互补的视差感知角度依赖性。

4.3.4 膨胀率选择的影响
为了研究角度分支中膨胀率选择的效果,我们使用了不同的膨胀配置进行了消融研究,包括膨胀率为1、2、3、4和7的配置。结果显示,膨胀率为1的配置在大多数数据集上导致了明显的性能下降。这主要是因为较小的膨胀率限制了有效感受野的范围,限制了模型捕捉长距离角度依赖性的能力,尤其是在大视差场景中。相比之下,使用较大的膨胀率(如4和7)虽然提高了长距离相关性的覆盖范围,但性能略低于所提出的配置。这可能是因为在较高膨胀率下采样变得更加稀疏,从而减弱了局部角度信息的聚合。所提出的配置在真实世界和合成数据集上都一致地实现了最佳的整体性能。这表明它在捕捉细粒度局部细节和建模长距离视差依赖性之间提供了平衡的权衡。

4.3.5 单感受野与多感受野设计的影响
为了进一步评估多感受野设计的重要性,我们进行了消融研究,通过将空间和/或角度分支限制为使用单个感受野来操作。除了独立评估每个分支外,我们还引入了一种变体,其中两个分支同时被限制为单个感受野,表示为SRF-BB。这种设置允许我们明确区分多尺度建模的效果与仅仅存在空间和角度分支的效果。结果记录在表5中。当空间分支被限制为单个卷积(SRF-SB)时,模型表现出明显的性能下降,在真实世界数据集上平均PSNR下降了0.11 dB,在合成数据集上下降了0.57 dB。类似地,将角度分支限制为使用膨胀率为5的卷积(SRF-AB)时,PSNR分别下降了0.20 dB和0.35 dB。更重要的是,当两个分支都被限制为单个感受野(SRF-BB)时,性能下降更为明显,在真实世界数据集上平均PSNR下降了0.37 dB,在合成数据集上下降了1.79 dB。这证实了仅仅保留空间和角度分支是不够的,多感受野设计在捕捉复杂的空间-角度相关性中起着关键作用。

4.4 深度估计应用
高质量和密集采样的视差图(LFs)对于可靠的深度估计至关重要。为了进一步评估所提出的重建方法的有效性,我们使用旋转平行四边形算子(SPO)[40]在其下游深度估计任务上对其性能进行了评估。具体来说,SPO被应用于从HCIold数据集中重建的佛像场景的光线场(LF)。得到的深度图与使用真实LF导出的深度图作为参考的竞争方法获得的深度图进行了比较。如图10所示,所提出的方法生成的深度图与真实情况非常吻合,表明几何重建准确。此外,它还实现了比其他方法更低的均方误差,证明了在重建的光线场中角度一致性和结构保真度的改善。图10. 使用SPO [40]从重建的光线场图像中估计的深度图的视觉比较。

5. 结论

在本文中,我们提出了一个多感受野空间-角度框架用于LFASR。所提出的架构通过互补的分支共同建模空间和角度相关性,从而能够从稀疏输入有效地重建密集的光线场。在真实世界和合成数据集上的广泛实验表明,所提出的方法在包括大差异和遮挡的具有挑战性的场景中取得了有竞争力的性能。此外,轻量级变体在计算效率和重建质量之间提供了良好的折中。消融研究验证了多感受野设计的有效性,并强调了联合建模空间-角度特征的重要性。尽管有这些优势,但在像HCInew这样的具有挑战性的数据集上的性能表明仍需要进一步改进。未来的工作将集中在提高模型有效处理复杂差异变化和精细几何结构的能力上。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号