PONet：一种端到端的深度学习框架，用于多视图3D-DIC（三维离散化成像），通过解决图像重叠问题来实现该任务

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Optics & Laser Technology》：PONet: An end-to-end deep learning framework for multi-view 3D-DIC by solving the image overlap problem

【字体：大中小】 时间：2026年02月23日 来源：Optics & Laser Technology 4.6

编辑推荐：

　　伪重叠成像系统通过光学设计实现大视场与高空间分辨率的平衡，但存在图像重叠难以分离的问题。本文提出基于深度学习的PONet框架，通过Atrous Spatial Pyramid Pooling增强多尺度特征提取，结合双输出头架构实现独立图像分离，并引入排列不变训练解决重叠问题。实验验证其能有效同步采集并解耦重叠图像，提升3D数字图像相关测量精度。

作者：建增文、邵新星、陈振宁

南京航空航天大学航空航天工程学院，中国南京 210016

摘要

本文提出了一种伪重叠成像系统，旨在解决三维数字成像（3D-DIC）中大视场（FOV）与高空间分辨率之间的根本trade-off问题。为克服这类系统在同步采集方面的局限性，本文引入了PONet，这是一种深度神经网络，用于从传感器上分离出来自不同FOV的复杂非线性重叠图像。该网络结合了孔状空间金字塔池化（ASPP）技术来增强多尺度特征提取，并采用双输出头架构，以确保两个子视图能够独立且清晰地重建。将PONet集成到成像系统中后，实现了端到端的同步采集和后端解耦框架，支持单次测量以及跨两个视场的较大样本测量。实验结果表明，重建的三维位移场与基准数据吻合良好。通过将这些位移场拼接在一起，成功生成了连续的全场位移图。

引言

光学成像中的一个核心挑战是视场（FOV）与空间分辨率之间的固有trade-off，这受到图像传感器有限像素数的限制。通常，增加FOV会稀释较大区域内的可用像素信息，模糊细节并降低测量精度。相反，在传感器资源固定的情况下，任何提高空间分辨率（每毫米像素数）的努力都不可避免地需要减小FOV。为了解决这一挑战，提出了两种主要策略：使用额外相机[1]、[2]、[3]、[4]、[5]、[6]、[7]或移动传感器[8]、[9]的多视图方法，以及仅在局部区域提高分辨率的多尺度方法[10]、[11]、[12]、[13]、[14]。然而，尽管这两种方法有效，但它们都通过增加硬件需求提高了系统复杂性和成本，后者还牺牲了测量的连续性。

我们之前提出的伪重叠成像系统[15]通过光学设计将多个窄视场投影到单个传感器上，从而消除了对额外相机的需求，降低了硬件成本，但它引入了一个新的限制：系统必须避免传感器上的图像重叠。这迫使我们在对大样本进行交替照明（与动态事件不兼容）和对小样本进行大FOV测试之间做出选择。因此，有效分离重叠图像对于该系统至关重要。

为了实现有效的图像分离，研究人员探索了各种技术，例如设计硬件级分离方法或在投影和采集策略中引入时间控制。在硬件级分离中，三电荷耦合器件（3CCD）彩色相机可以物理隔离RGB通道，但它容易受到通道间串扰的影响[16]。对于时间控制，例如在结构光3D成像中，异步投影通常会在相机曝光期间导致条纹图案切换，从而影响相位估计和重建精度[17]。此外，一些基于强先验假设（如信号统计独立性、非负性或稀疏性）的盲源分离（BSS）方法[18]、[19]在面对复杂的非线性混合关系时其鲁棒性受到限制。

相比之下，随着深度学习技术的发展，在使用端到端学习框架进行混合图像分离任务方面取得了显著进展。例如，姚等人提出的深度胶囊网络[20]可以学习空间层次关系以推断被遮挡数字的完整形状。然而，这种方法严重依赖于固定的拓扑先验，不适合分离缺乏明确语义几何结构的随机模式。在去除玻璃反射的任务中，朱等人[21]设计了一个位置感知的级联框架来明确定位和去除反射区域。尽管这些方法对视觉恢复有效，但它们通常更重视语义上下文而非像素级保真度，可能在特征提取过程中牺牲高频细节。同样，在结构光测量中，冯等人[22]开发了一个深度网络来分离光栅图案和背景照明。虽然这种方法对于规则周期性条纹有效，但它缺乏分离随机分布的非线性混合的灵活性。这些成就表明，深度学习在处理难以明确建模的复杂图像重叠关系时具有独特优势，为图像分离问题提供了新的解决途径。

本文提出了PONet（伪重叠成像网络），这是一种专门为解决我们系统中的图像重叠问题而设计的深度神经网络。PONet允许来自不同FOV的图像在传感器上重叠，并在后端进行高保真度解耦。基于Uformer[23]架构构建的PONet加入了四个关键改进，以适应基于DIC的伪重叠成像中的图像分离任务：

(1)

减少了下采样阶段的数量，以防止精细斑点特征的过度压缩，这对于保持DIC所需的亚像素级精度至关重要[24]；

(2)

移除了残差连接，以适应图像分离任务——与图像恢复不同，我们的目标是将单个重叠图像分离成两个对应的独立图像；此外，引入了受语音分离方法[25]、[26]启发的双输出投影头，以促进两个独立输出的生成并防止特征串扰；

(3)

前馈网络被孔状空间金字塔池化（ASPP）[27]、[28]取代，以更好地处理斑点和校准模式的多尺度特征；

(4)

在损失函数中采用了排列不变训练（PIT）[29]，以解决固有的排列问题并确保训练稳定性。

这种方法将伪重叠成像系统转变为同步测量范式，有效克服了FOV与分辨率之间的trade-off问题，无需额外硬件，并首次使低成本伪重叠成像系统具备了进行动态测量所需的同步采集能力。

部分摘录

伪重叠成像

伪重叠成像系统如图1(a)所示。它利用镜阵列（M1-M4）和分束器（P1, P2）将来自两个相邻视场（FOV1和FOV2）的光引导到一对M × N像素传感器（Sensor1和Sensor2）上。通过调整这些光学元件，每个相邻视场都能完整地成像到整个M × N传感器上。

对于大样本，无法进行交替照明；对于小样本，则在大FOV下进行测试。

训练细节

数据集是使用我们的伪重叠成像系统收集的，样本由UV打印机（Mimaki UCJV300-160）制造。为了确保网络的泛化能力，这些样本具有直径从0.3到0.8毫米不等的随机斑点图案和不同的密度，而校准板则设计了不同的网格间距和点大小。在数据收集过程中，我们通过调整镜片角度和应用

讨论与结论

本文解决了伪重叠成像系统中的图像重叠问题。为此，我们提出了PONet，这是一个基于深度学习的后端图像解耦框架。这种方法允许来自不同FOV的图像在传感器上重叠，然后以高保真度分离它们，从而将系统从依赖避免图像重叠的测量模式升级为同步测量范式。此外，为了确保DIC所需的高重建精度，

CRediT作者贡献声明

建增文：撰写 – 审稿与编辑、撰写 – 原始草稿、验证、项目管理、方法论、调查、正式分析、数据管理。邵新星：撰写 – 审稿与编辑、验证、监督、调查、正式分析。陈振宁：撰写 – 审稿与编辑、软件开发、资源管理、项目管理、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。

本工作得到了国家自然科学基金（12272176）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号