编辑推荐:
光场显示零样本编辑框架ELF通过预训练扩散模型原生知识,提出分层角一致性机制确保多视角编辑一致性,兼容主流裸眼3D光场显示器,实验验证其显著优于现有方法在结构一致性和编辑质量上的表现。
Baolin Liu | Zongyuan Yang | Yingde Song | Yongping Xiong
中国北京邮电大学交换与网络技术国家重点实验室,北京 100876
摘要
光场显示器(LFDs),特别是自动立体3D显示器,无需特殊眼镜即可提供沉浸式的多视图体验。然而,对这些显示器进行灵活内容编辑的需求不断增长,这带来了挑战,尤其是在确保多个视角之间的一致性方面。这种困难源于光场数据的复杂性以及合适数据集的稀缺性。现有的图像和视频编辑方法往往无法保持视图一致性,导致诸如纹理错位和结构扭曲等问题。为了解决这些问题,我们推出了ELF,这是第一个专为LFDs设计的零样本、通用编辑框架,它利用预训练的扩散模型先验而无需训练数据。我们的关键创新包括分层角度一致性机制(HACM),该机制根据LFDs的硬件特性进行定制,以确保在硬件支持的视野范围内视图之间的纹理和风格保持一致。我们的方法与主流的裸眼3D LFDs完全兼容,并已在主要的商用光场显示器上进行了广泛验证。实验结果表明,在结构一致性和编辑质量方面都有显著提升,优于现有的方法。我们的框架为零样本光场内容编辑树立了新的标杆,为LFDs带来了更加沉浸式和灵活的编辑体验。
部分摘录
引言
近年来,光场显示器(LFDs)作为一种尖端技术出现,无需头戴设备即可提供沉浸式的3D视觉体验,而这正是VR/MR系统所需要的[1]。LFDs通过模拟光线从不同角度的感知方式来实现这一点,使用户能够自然地体验深度和视角[2]。与依赖每只眼睛单独图像的传统立体显示器不同,LFDs使用透镜阵列[2]放置在
光场编辑
与我们任务相关的先前光场编辑工作主要集中在低级编辑上。[20]使用亲和函数来指导整个光场的稀疏用户编辑,并利用多维下采样来提高编辑效率。[21]在簇图像域中进行编辑,并应用2D到4D的传播来保持子孔径图像之间的连贯性,从而支持多种编辑任务。[17]利用4D CNN来捕捉输入光的空间和角度特征
初步介绍
基于透镜的3D显示系统包括三个阶段:多视图渲染、交错和光学显示[1]。在3D LFD的LCD面板上,透镜阵列将来自多个视图的单像素光引导到不同的观看区域,根据观看者的对齐产生立体感知。我们的编辑任务位于多视图渲染和交错阶段之间,其中多视图内容的结构属性起着核心作用。大多数商用LFDs依赖于离轴
整体架构
如图2所示,给定一个文本提示和一组多视图光场图像(这些图像是在离轴设置等配置下捕获的,数据来源可以是相机、网格渲染或辐射场[32]),我们的目标是在交错后生成由文本引导的、经过编辑的多视图图像,以便在LFD上无缝显示。为此,我们提出了一个框架,该框架利用预训练的文本到图像扩散模型?θ来实现LFDs之间的一致内容编辑。在之前的工作[6]、[22]的基础上
实验设置
实施细节。实验在单个NVIDIA A100 GPU上进行。我们使用Stable Diffusion [19]作为预训练的文本到图像扩散模型,通过重用原始注意力模块的参数来扩展其注意力机制,从而消除了重新训练或微调的需要。MASt3R [38]被用作第4.2节中的特征匹配的特征提取器。我们将方程3中的λ设置为0.6。在DDIM反转[28]过程中,源图像没有文本提示
局限性
尽管ELF表现稳健,但我们承认其局限性。首先,我们的框架是一个基于预训练的文本到图像扩散模型[19]构建的一致性强化机制。因此,最终的视觉质量在很大程度上依赖于底层模型的生成先验。如果基础模型无法生成合理的内容或对提示的遵循性较差,这些问题可能会不可避免地出现在生成的光场中。其次,我们依赖于特征
结论与未来工作
在这项工作中,我们提出了ELF,这是一个用于光场显示器(LFDs)内容一致性编辑的新型且无需训练的框架。通过利用预训练的Stable Diffusion模型中嵌入的强大先验知识,ELF实现了零样本编辑,无需额外的微调。我们的方法的核心是分层角度一致性机制(HACM),它专门针对LFDs的独特特性进行了优化,例如它们的多视图结构和视角
CRediT作者贡献声明
Baolin Liu:写作 – 审稿与编辑、撰写原始草稿、可视化、验证、监督、资源管理、方法论研究、形式分析。Zongyuan Yang:写作 – 审稿与编辑、监督、方法论研究、概念化。Yingde Song:写作 – 审稿与编辑、验证。Yongping Xiong:写作 – 审稿与编辑、资源管理、形式分析、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
我们感谢实验室成员们的宝贵讨论和技术支持。同时,我们也感谢MirrorFlower AI提供必要的光场显示设备,以及用户研究参与者的建设性反馈。