将单视图2D图像转换为全彩色3D计算全息图：一种基于神经逆向渲染的方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Pattern Recognition 7.6

编辑推荐：

　　直接生成高质量三维相位-only全息图是突破现有计算全息技术瓶颈的关键。本文提出神经逆向渲染框架，通过多尺度优化单目深度网络、物理光学衍射模型和三角相位合成网络，实现单视图二维图像到三维全息的端到端生成。方法有效整合深度学习与波前光学理论，支持任意分辨率输出，实验表明PSNR达33.26dB，SSIM达0.84，且可同时处理全彩色和多深度细节。

张彦楠|李家琪|景涛|胡海荣|于阳|张阳|张聪聪|闫星鹏

中国人民解放军陆军装备大学信息通信系，北京，100072，中国

摘要

为了解决直接从单视图二维（2D）图像生成高质量三维（3D）纯相位全息图这一关键挑战，本文提出了一种新颖的神经逆向渲染方法。该方法构建了一个深度学习流程，包括一个优化的单目深度估计网络用于几何推理、一个连接2D和3D的光学衍射模型，以及一个具有所提出的三角特征融合机制的特殊三角相位网络，以实现高保真度的纯相位全息图编码。这种深度学习与物理光学的结合消除了对预先获取的3D场景信息的依赖，并有效融入了物理先验知识。定量评估表明，该方法具有33.26 dB的峰值信噪比和0.84的结构相似性指数，光学重建验证了多焦平面成像。该方法在全彩重建、多深度细节编码和灵活输出生成方面表现出色。这项工作显著降低了创建3D全息内容的门槛，促进了其在3D显示、增强现实和虚拟现实中的应用。

引言

全息术作为实现三维（3D）显示的终极技术途径之一[1]，[2]，其传统方法受到物理限制的阻碍，这促使了计算机生成全息图（CGH）[3]的出现。尽管CGH已成为一个越来越重要的研究方向[4]，[5]，但其发展长期以来受到两个主要瓶颈的制约：高计算成本[6]和对精确3D场景表示的依赖。为了突破计算瓶颈，以卷积神经网络（CNN）[7]为代表的深度学习技术[8]提供了一条变革性的路径。它们显著提高了CGH的生成质量和效率，催生了诸如使用相机内循环优化进行全彩重建[9]、基于RGB-D数据的端到端合成框架TensorHolo[10]，[11]，以及结合新型硬件实现实时采集和重建的解决方案[12]。然而，这些先进方法通常依赖于RGB-D数据或点云[13]，其获取过程复杂且成本高昂。相比之下，单张2D图像是最普遍且易于获取的数据格式[14]。因此，直接从单张2D图像生成高保真度的3D全息图是扩大全息内容可访问性和降低成本的核心挑战。

为应对这一挑战，学术界最近进行了一系列前沿探索（如表1所示）。早期研究，例如Ishii等人的工作[15]，通常采用级联网络架构，分别执行深度估计、全息图生成和后处理优化。然而，这种多阶段流程中的固有误差累积问题促使人们转向集成端到端解决方案。在这种新范式下，Ak?it和Itoh[16]提出了一种从RGB输入直接生成多平面全息图的端到端流程，尽管这种方法在一定程度上牺牲了深度保真度。同时，Chang等人[17]展示了直接从2D图像合成单色3D全息图的可行性，并在[18]中通过引入感知损失和相关优化策略将其扩展为高效的全彩解决方案。这一系列工作突显了深度CNN在无需显式深度监督的情况下学习复杂2D到3D映射的能力。然而，无论是单色还是全彩模型，主要依赖于完全端到端的隐式映射，其中底层的物理传播过程并未明确嵌入到网络结构中。因此，模型性能可能取决于训练分辨率和特定的光学配置（例如波长和像素间距），这会影响其在不同显示条件下的适应性。为了进一步提高模型泛化能力，Zhan等人[19]提出了一个可配置的全息框架，揭示了深度估计与全息合成任务在学习领域内的强相关性。通过多任务学习机制，该模型能够适应不同的波长和像素间距，同时支持从单张图像预测3D全息图。尽管取得了这些进展，但要实现任意分辨率的原生支持、保持物理准确性并确保推理效率仍然是一个挑战。因此，设计一个能够深度整合物理先验、具有高几何保真度并突破固定光学配置限制的通用生成架构成为克服现有技术瓶颈的关键。

为了弥合2D输入和3D全息输出之间的差距，我们将生成过程视为一个特定任务的神经逆向渲染（NIR）问题。传统的神经渲染技术[20]，如神经辐射场（NeRF）[21]、[22]或3D高斯散射[23]，主要关注前向渲染——学习能够再现2D图像观测的显式3D场景表示。例如，Choi等人[24]提出了高斯波散射，将这一范式扩展到计算全息术，通过从显式的3D高斯原语传播光场到全息图平面。相比之下，我们的工作考虑了逆向方向：从单视图2D观测中推断几何和光度属性，并将它们映射到全息图合成所需的复杂相位分布。通过将这个问题纳入神经逆向渲染框架，我们将可微分的物理先验——特别是解析衍射模型——整合到学习流程中。这种整合使网络能够在保持与基于波动光学的传播一致性的同时学习2D到3D的逆向映射。

基于这种构想，我们提出了一个新颖的NIR框架，该框架基于预训练的深度估计网络、解析光学衍射模型和全息相位合成网络构建，具有协同优化的架构。整个系统在统一的端到端训练策略下共同优化，从而将深度学习的强大表示能力与光学物理的精确性结合起来。实验结果表明，该方法能够高效生成高质量、全彩、多深度的3D全息图，支持任意分辨率，展现出清晰的多焦成像和出色的视觉效果。在权威的DIV2K验证数据集上，该方法取得了具有竞争力的定量指标，具体为33.26 dB的信噪比（PSNR）和0.84的结构相似性指数（SSIM）。这项工作为自动化生成高质量全息内容开辟了一条高效可行的路径，有望加速计算全息技术在消费级3D显示、增强现实（AR）和虚拟现实（VR）等前沿领域的应用。

章节摘录

用于全息图生成的神经逆向渲染方法

本文提出的直接从单视图2D图像生成高质量3D CGH的NIR方法被构想为一个整体流程，如图1中详细展示。该过程从捕获的3D场景的单视图2D图像开始。首先，该图像通过预训练的多尺度细化网络（MSRNet）进行处理，以进行单目深度估计，并输出深度图。随后，将此深度图与原始图像结合

实验与结果

本研究中的数值实验，包括单目深度估计的训练和验证以及相位编码模块的训练和数值重建，是在NVIDIA A100 80GB GPU上进行的。实验使用Ubuntu 20.04操作系统、Python 3.10.13、PyTorch 2.1.0和CUDA 11.8实现。

光学实验设置如图4所示。对于全彩3D重建，系统使用了红光（638 nm）、绿光（520 nm）和蓝光（450 nm）激光器。

讨论

为了解决直接从单视图2D图像生成高质量3D纯相位CGH这一关键挑战，本文提出并实现了一种新颖的NIR方法。该方法的核心在于构建一个集成的深度学习流程，其中整合了三个协同的关键组件：一个优化的单目深度估计网络（MSRNet）、一个明确引入的基于物理的光学衍射模型，以及一个高效的全息图生成网络（TPN）。MSRNet通过

CRediT作者贡献声明

张彦楠：撰写——审稿与编辑、撰写——初稿、可视化、验证、软件、方法论、概念化。李家琪：撰写——审稿与编辑、方法论、调查、形式分析、概念化。景涛：撰写——审稿与编辑、调查、形式分析。胡海荣：撰写——审稿与编辑、形式分析。于阳：撰写——审稿与编辑、可视化、资源、调查。张阳：撰写——审稿与编辑、可视化

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本研究部分得到了中国国家自然科学基金（项目编号：62375286，负责人：闫星鹏）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

用于全息图生成的神经逆向渲染方法

实验与结果

讨论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行