尽管成像技术不断进步,但在现实世界的成像系统中,几何失真仍然普遍存在,严重降低了图像质量,并影响了下游应用(如自动驾驶[[1], [2], [3]]、医学成像[[4], [5], [6]]和工业计量[7,8])的性能。这些失真源于光学缺陷、环境因素和数字处理伪影,传统上被分类为内在失真(桶形、枕形、鱼眼)、外在失真(透视、旋转、剪切)和人为失真(波浪)。混合失真[[9], [10], [11]],即同一图像中几种失真类型非线性相互作用,在现实世界场景中占主导地位,并且比任何单一失真都更具挑战性[10,[12], [13], [14]]。例如,倾斜广角相机同时引入了桶形曲率和透视偏差[15,16]。同样,安装在移动车辆上的鱼眼传感器会同时受到径向、透视和旋转变形的影响[17,18]。
当前的几何失真校正方法通常针对特定类型的失真[19]。传统方法通常依赖于多视图失真图像来计算相机的内在和外在参数[20,21]。然而,这些方法需要棋盘格图案和来自不同视角的多张图像进行校准。另一类方法使用单张失真图像,并通过检测低级线索(如垂直线[22,23]、直线[[24], [25], [26]]、消失点[[27], [28], [29]])来估计失真参数。然而,这些方法严重依赖于人工制作的特征,并且计算成本较高。
深度学习的进步推动了基于学习的校正方法的发展。大多数方法依赖于通过对未失真图像应用预定义参数范围的数学失真模型来生成合成数据集进行训练。根据它们的输出表示,这些方法可以分为三类:1)参数预测方法[[30], [31], [32]]估计逆变换的失真系数,但在混合失真中难以处理参数耦合;2)端到端校正方法[13,33,34]直接生成校正图像,但由于图像平移网络的固有限制而遭受细节丢失和分辨率下降;3)流场预测方法[10,[35], [36], [37]],目前是主流方法,它们估计用于几何校正的逐像素位移向量,实现了更高的准确性和真实性。然而,由于它们的架构、损失函数和训练协议是针对单一失真模型(例如桶形或鱼眼)[10,37,38]定制的,这些方法在现实世界成像中普遍存在的混合失真场景中的泛化能力较差。
为了解决上述限制,我们引入了GarNet,这是一个能够在任意混合失真下进行校正的通用几何感知校正网络(图1)。GarNet通过预测密集的流(位移)场并相应地重新采样输入图像来校正复杂的混合几何失真。其架构包括三个相互耦合的组件。首先,几何感知模块(GAM)作为前端特征提取器。通过将多尺度卷积特征与可变形的几何自适应采样相结合,GAM捕获多尺度几何模式和细粒度的局部形状线索,同时保持高分辨率细节。其次,基于变换器的编码器模拟这些特征之间的长距离空间依赖性。自注意力机制将不同图像区域之间的上下文聚合在一起,产生全局一致的几何表示,这对于理解多种失真类型的相互作用至关重要。最后,恢复解码器将编码器输出与跳过连接的GAM特征融合,并回归逐像素流场,然后用于将失真图像重新映射到其校正后的对应图像。与针对孤立失真优化的先前方法不同,我们还引入了一个复合损失函数,该函数结合了逐像素精度和全局平滑性正则化,从而确保校正后的图像具有更高的真实感、更少的伪影以及与自然空间分布更好的对齐,通过平衡局部精度和整体结构一致性。此外,为了实现复杂混合失真的训练,我们还引入了一种系统化的合成策略,构建了第一个包含真实混合失真的大规模数据集。在合成数据集、真实成像系统和多样化应用领域进行的广泛实验表明,GarNet在质量和数量上都优于现有的最先进方法,即使在之前方法尚未解决的具有挑战性的混合失真场景中也表现出色。总之,本文的贡献如下:
•我们引入了GarNet,这是一个具有几何感知模块(GAM)的失真校正网络,该模块通过变形感知特征学习和多尺度几何建模动态适应复杂的混合类型失真,实现了对任意几何失真的通用校正能力。
•我们建立了第一个全面的混合失真数据集,并引入了一个结合逐像素监督和全局平滑性约束的复合损失函数,这促进了视觉上真实的校正输出,减少了不自然的不连续性。
•我们在多个合成和真实世界数据集上进行了广泛的实验验证,与最先进的方法相比,展示了更好的性能,并确认了我们的方法在各种失真类别中的有效性和泛化能力。