《Optics and Lasers in Engineering》:PHAROS: Prior-guided holographic architecture for region-specific optimization and smoothing
编辑推荐:
全息图生成框架PHAROS融合视觉基础模型与物理渲染流程,通过自适应关键区域识别和自动编码压缩实现4K分辨率高质量内容感知全息图生成,实验表明其PSNR超过30dB,SSIM达0.9,LPIPS提升超20%,有效克服传统方法刚性架构和手动ROI定义的局限,为AR/VR显示提供新方案。
Xirun Cheng|Zhenyu Gao|Quan Wang|Xiang Liu|Chaofan Zhang|Yong Liu
中国科学院合肥物质科学研究院安徽光学精密机械研究所,中国合肥230031
摘要
深度学习彻底改变了视觉计算领域,但生成高质量、具有内容感知能力的全息图仍面临挑战,例如需要统一的框架和依赖手动区域定义。基于视觉基础模型,我们提出了PHAROS这一新框架,它能够自适应地识别用于特定任务的全息图生成的关键区域。与HoloNet等传统方法不同,PHAROS将可控的特征细化流程(通过ControlNet)和自动编码压缩(使用VAE-KL)整合到传统的两阶段物理过程中。这使得它能够高效处理4K分辨率的图像,特别是3840×2160分辨率的图像。在仿真和实际光学设置中的广泛实验表明,PHAROS的性能处于领先水平,其PSNR超过30 dB,SSIM超过0.9。在感知指标(如Learned Perceptual Image Patch Similarity (LPIPS))方面也表现出色,其结构保真度比现有方法高出20%以上。通过高保真度的光学重建验证,这项工作为将基础模型驱动的全息技术应用于增强现实和虚拟现实显示等 demanding 应用领域铺平了道路。
引言
全息技术长期以来一直是光学计算的基石,应用于增强现实(AR)、虚拟现实(VR)和先进显示技术[1]。计算机生成的全息图(CGH)利用物理原理直接编码光场信息。值得注意的是,仅编码相位信息的全息图(POHs)具有更高的衍射效率,并且可以在重建过程中有效消除孪生图像伪影[2]。这些优势使得它们在实际应用中得到广泛采用。随着空间光调制器(SLM)硬件能力的不断进步[3],POHs在全息重建领域变得尤为突出[4]。
几十年来,已经开发出了许多生成POHs的算法。这些算法的核心是一个优化问题:给定一个复振幅全息图,目标是将它编码成POH,以便重建后的图像尽可能接近原始图像。传统方法可以分为迭代和非迭代两种。迭代算法从初始全息图近似开始,通过重复操作进行细化,直到重建图像满足预定义的误差标准。Gerchberg-Saxton(GS)算法[5]是一种基础的迭代方法,它通过傅里叶或菲涅尔变换在空间域和频率域之间交替操作,施加振幅约束以收敛到最优相位解[6]。相比之下,非迭代方法可以立即得到近似解,无需大量优化,但计算速度更快,但重建质量较低。改进版本如优化随机相位(ORAP)[7]通过GS迭代预计算可重用的相位模板,以平衡噪声和效率。双相位方法将复振幅分解为两个互补的POHs,从而减少信息损失[8]。虽然非迭代方法由于其效率更高[9],[10],但迭代方法通常能获得更高的精度。
POH生成任务可以自然地被框定为在物理约束下的图像到图像的转换问题,这使其成为深度学习的一个有前景的应用领域[11],[12]。近年来,基于监督学习的数据驱动方法出现了,使用目标图像和相应全息图的配对数据集来训练神经网络[13]。然而,这些方法严重依赖于训练数据的质量和多样性,往往难以结合基本的光学物理原理,导致收敛困难且泛化能力有限。此外,学习到的映射可能与物理上可行的解决方案偏离,特别是在实际应用环境中。
为了解决这些限制,无监督或基于物理的模型逐渐受到关注。这些方法将生成过程分为两个阶段——通常是相位恢复和全息图编码——通过将物理衍射模型整合到网络架构中。例如,Holonet[14]、Holoencoder[15]和CCNN-CGH[16]使用可微的光学传播层作为解码器,允许梯度通过物理模型流动,从而实现端到端训练,而无需配对的真实全息图。这种设计不仅符合实际的物理过程,还通过将解决方案空间限制在物理上有效的范围内,显著降低了学习负担[17]。如图1a和图1b所示,这种两阶段架构在收敛速度和重建保真度方面表现出色。
然而,大尺寸的图像,尤其是4K级别的图像,对网络设计有显著影响,导致参数数量大幅增加[18]。此外,生成关键区域的高质量图像已成为一些研究的重点[19],[20],[21],[22]。现有的基于深度学习的方法通常使用缺乏任务特定定制的统一框架,限制了它们适应不同视觉计算场景的能力[23]。此外,许多方法依赖于手动定义的感兴趣区域(ROIs),这引入了主观性并阻碍了可扩展性。
视觉基础模型(VFMs)的最新进展为克服这些挑战提供了有希望的方向。预训练在大量数据集上的VFMs能够捕获丰富的语义和结构先验,这些先验可以有效地转移到下游任务中[24],[25],[26]。它们为多种视觉任务设计的编码器-解码器架构能够在低维的潜在空间中实现高效的特征表示,该空间既结构化又可解释。利用这些模型,可以在显著降低数据维度和计算负载的同时提取有意义的特征——这对于高分辨率全息合成特别有益[27]。
在这项工作中,我们提出了PHAROS,这是一个基于基础模型的框架,它能够自适应地识别关键区域以生成高质量、具有任务感知能力的全息图,如图1c所示。在基于传统两阶段物理过程的基础上,PHAROS引入了两项关键创新:(1)一个可控的特征细化流程,用于对全息图质量进行细粒度调整;(2)一种自动编码压缩机制,用于高效处理高分辨率输入(例如3840×2160)。这两者的结合使PHAROS在仿真和光学实验中都取得了优异的性能,通过消融研究验证了其在重建保真度方面的持续改进。该方法在感知指标上也获得了高分,证实了它能够生成符合人类视觉偏好的视觉上令人愉悦的全息图。这项工作展示了将基础模型与物理渲染流程结合用于计算全息技术的潜力[28],为更高效和感知优化的虚拟现实显示铺平了道路。
方法
图2展示了PHAROS的完整框架,它由三个关键组件组成:光场潜在嵌入、控制流程和全息图生成。以下将对其进行详细解释。
实验设置
我们使用了多种数据集,包括BSD100/BSD200 [33]、City100 [34]、DIV2K [35]、Manga109 [36]、Set5/Set14 [37]、Urban100 [38]、Flickr2K [39] 和 COCO2017 [40],这些数据集使用了生成的掩膜或提供的分割标签。所使用的数据集涵盖了各种类型的图像,如自然场景、城市景观、漫画插图和日常环境中的各种摄影内容,确保了评估的广泛适用性和在不同视觉领域的鲁棒性。
掩膜区域策略
为了验证最大区域策略的可靠性,我们引入了显著性图像检测来突出图像中的重要区域。我们使用U2Net [41]获取显著性图像,并通过方程(10)计算阈值范围内的区域与掩膜之间的交并比(IoU)。我们比较了两种策略:最大掩膜区域策略和随机掩膜区域策略:(1)如果有多个掩膜输出,则使用最大的掩膜;如果原始数据集
光学评估
为了验证我们算法的实际性能,我们根据[16]中描述的实验方法构建了一个物理光学设置,如图10所示。该设置与模拟的光学路径非常匹配。使用的激光源波长为。生成的全息图被加载到UPOLabs HDSLM36R空间光调制器(SLM)上,该调制器的分辨率为4096×2240,像素间距为3.6 μm。
结论
在这项工作中,我们提出了PHAROS,这是一个新颖的全息图生成框架,它利用视觉基础模型(VFMs)的力量实现自适应的、基于显著性的优化。通过将可控的特征细化流程和紧凑的自动编码潜在空间整合到基于物理的两阶段过程中,PHAROS有效克服了依赖刚性架构和手动区域注释的先前方法的局限性。在4K分辨率(3840×2160)下的广泛评估表明
CRediT作者贡献声明
Xirun Cheng:撰写——原始草稿、验证、软件、项目管理、方法论、调查、形式分析、概念化。Zhenyu Gao:撰写——审阅与编辑、监督、资金获取、概念化。Quan Wang:验证、软件、方法论、调查、形式分析、数据管理。Xiang Liu:可视化、验证、软件、调查、数据管理。Chaofan Zhang:资源、调查、资金获取。Yong Liu:撰写——
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
这项工作得到了“数字孪生在精密制造设备关键技术及应用研究”(一个内部研发项目)的支持。