GarNet：一种针对通用图像失真的几何感知校正网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：GarNet: Geometry-Aware Rectification Network for Generic Image Distortions

【字体：大中小】 时间：2026年02月27日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　复杂混合几何畸变校正框架GarNet提出，通过Geometry-Aware Module（GAM）学习多尺度几何特征，结合Transformer编码器捕捉全局上下文，解码器生成像素级位移场实现任意混合畸变校正，复合损失函数平衡像素精度与全局平滑性，在合成与真实数据集上验证优于现有方法。

Sicheng Li | Yunpeng Zhao | Pengpeng Zhao

智能医疗技术与设备创新中心，浙江大学滨江学院，中国杭州

摘要

成像系统中的几何失真通常表现为复杂的混合类型，其中多种失真共存并相互作用，这对受单一失真假设限制的传统校正方法构成了重大挑战。为了解决这一问题，我们提出了GarNet，这是一个用于任意几何失真校正的新框架。GarNet采用编码器-解码器架构来学习将失真像素映射到校正位置的密集流（位移）场，其中增强型变换器编码器捕获全局几何上下文，解码器细化该场以实现精确的重采样。其核心创新在于几何感知模块（GAM），该模块动态学习适应变形的多尺度特征，提供对复杂失真校正至关重要的细粒度局部几何线索。在复合损失函数的支撑下，GarNet在合成数据和真实世界数据集（包括内窥镜和广角相机成像）上实现了最先进的性能。我们的系统化失真合成策略进一步增强了训练的鲁棒性，全面评估表明GAM在实现具有优越泛化能力的通用校正方面起着关键作用。代码和数据集可在以下链接获取：https://github.com/MaybeRichard/Geometric-Distortion-Rectification。

引言

尽管成像技术不断进步，但在现实世界的成像系统中，几何失真仍然普遍存在，严重降低了图像质量，并影响了下游应用（如自动驾驶[[1], [2], [3]]、医学成像[[4], [5], [6]]和工业计量[7,8]）的性能。这些失真源于光学缺陷、环境因素和数字处理伪影，传统上被分类为内在失真（桶形、枕形、鱼眼）、外在失真（透视、旋转、剪切）和人为失真（波浪）。混合失真[[9], [10], [11]]，即同一图像中几种失真类型非线性相互作用，在现实世界场景中占主导地位，并且比任何单一失真都更具挑战性[10,[12], [13], [14]]。例如，倾斜广角相机同时引入了桶形曲率和透视偏差[15,16]。同样，安装在移动车辆上的鱼眼传感器会同时受到径向、透视和旋转变形的影响[17,18]。

当前的几何失真校正方法通常针对特定类型的失真[19]。传统方法通常依赖于多视图失真图像来计算相机的内在和外在参数[20,21]。然而，这些方法需要棋盘格图案和来自不同视角的多张图像进行校准。另一类方法使用单张失真图像，并通过检测低级线索（如垂直线[22,23]、直线[[24], [25], [26]]、消失点[[27], [28], [29]]）来估计失真参数。然而，这些方法严重依赖于人工制作的特征，并且计算成本较高。

深度学习的进步推动了基于学习的校正方法的发展。大多数方法依赖于通过对未失真图像应用预定义参数范围的数学失真模型来生成合成数据集进行训练。根据它们的输出表示，这些方法可以分为三类：1）参数预测方法[[30], [31], [32]]估计逆变换的失真系数，但在混合失真中难以处理参数耦合；2）端到端校正方法[13,33,34]直接生成校正图像，但由于图像平移网络的固有限制而遭受细节丢失和分辨率下降；3）流场预测方法[10,[35], [36], [37]]，目前是主流方法，它们估计用于几何校正的逐像素位移向量，实现了更高的准确性和真实性。然而，由于它们的架构、损失函数和训练协议是针对单一失真模型（例如桶形或鱼眼）[10,37,38]定制的，这些方法在现实世界成像中普遍存在的混合失真场景中的泛化能力较差。

为了解决上述限制，我们引入了GarNet，这是一个能够在任意混合失真下进行校正的通用几何感知校正网络（图1）。GarNet通过预测密集的流（位移）场并相应地重新采样输入图像来校正复杂的混合几何失真。其架构包括三个相互耦合的组件。首先，几何感知模块（GAM）作为前端特征提取器。通过将多尺度卷积特征与可变形的几何自适应采样相结合，GAM捕获多尺度几何模式和细粒度的局部形状线索，同时保持高分辨率细节。其次，基于变换器的编码器模拟这些特征之间的长距离空间依赖性。自注意力机制将不同图像区域之间的上下文聚合在一起，产生全局一致的几何表示，这对于理解多种失真类型的相互作用至关重要。最后，恢复解码器将编码器输出与跳过连接的GAM特征融合，并回归逐像素流场，然后用于将失真图像重新映射到其校正后的对应图像。与针对孤立失真优化的先前方法不同，我们还引入了一个复合损失函数，该函数结合了逐像素精度和全局平滑性正则化，从而确保校正后的图像具有更高的真实感、更少的伪影以及与自然空间分布更好的对齐，通过平衡局部精度和整体结构一致性。此外，为了实现复杂混合失真的训练，我们还引入了一种系统化的合成策略，构建了第一个包含真实混合失真的大规模数据集。在合成数据集、真实成像系统和多样化应用领域进行的广泛实验表明，GarNet在质量和数量上都优于现有的最先进方法，即使在之前方法尚未解决的具有挑战性的混合失真场景中也表现出色。总之，本文的贡献如下：

•

我们引入了GarNet，这是一个具有几何感知模块（GAM）的失真校正网络，该模块通过变形感知特征学习和多尺度几何建模动态适应复杂的混合类型失真，实现了对任意几何失真的通用校正能力。

•

我们建立了第一个全面的混合失真数据集，并引入了一个结合逐像素监督和全局平滑性约束的复合损失函数，这促进了视觉上真实的校正输出，减少了不自然的不连续性。

•

我们在多个合成和真实世界数据集上进行了广泛的实验验证，与最先进的方法相比，展示了更好的性能，并确认了我们的方法在各种失真类别中的有效性和泛化能力。

方法

在这项研究中，我们采用流场预测范式来设计我们的失真校正网络，其主要目的是在失真图像空间和校正图像空间之间建立像素级坐标映射。图2展示了GarNet的架构。对于具有任意失真类型的输入图像，我们提出的GAM首先通过分层卷积层提取多尺度几何特征，适应性地捕获不同空间分辨率下的失真模式

实现细节

数据集。 为了评估GarNet在不同场景下的性能，我们构建了结合合成和真实世界失真图像的多源数据集。我们使用Place365数据集[42]作为生成合成失真的基础，随机选择了55,000张图像（50,000张训练/5,000张测试），并合成了九种不同的失真类型，从而获得了450,000个训练样本和45,000个测试样本。对于真实世界验证，我们使用了两个捕获的数据集：一个广角镜头

结论

在本文中，我们介绍了GarNet，这是一个用于通用几何失真校正的新框架。我们的方法对该领域做出了三项关键贡献：首先，我们提出了一个专门的几何感知模块（GAM），通过分层特征学习和动态空间变形机制实现了自适应的多尺度几何建模。这种设计使网络能够捕获处理多样化失真所必需的复杂空间耦合和几何相互作用

CRediT作者贡献声明

Sicheng Li：撰写——原始草稿、可视化、验证、方法论、概念化。Yunpeng Zhao：撰写——审阅与编辑、监督。Pengpeng Zhao：撰写——审阅与编辑、监督、资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国国家自然科学基金（62305289）、杭州市科学技术局（TD2023018）和浙江省博士后研究选拔资助项目（ZJ2022008）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作