G2LFormer:一种用于盲图像修复等任务的全球到本地(Global-to-Local)令牌混合变换器

《Pattern Recognition》:G2LFormer: Global-to-Local Token Mixing Transformer for Blind Image Inpainting and Beyond

【字体: 时间:2026年02月11日 来源:Pattern Recognition 7.6

编辑推荐:

  基于概率嵌入与可靠性感知三元损失,提出新型局部描述符学习框架,通过建模多变量高斯分布捕获图像不确定性,设计自适应损失函数强化可靠样本贡献,实验表明在图像匹配和三维重建任务中优于传统方法。

  
包伟超|魏晓辉|周彩霞|刘海波
湖南大学人工智能与机器人学院,中国湖南省长沙市麓山路2号,410082

摘要

从图像块中学习局部描述符对于许多下游任务(如图像匹配和3D重建)至关重要。由于传感器噪声和几何变化等因素导致的固有观测不确定性,基于确定性嵌入的现有方法在生成适用于实际应用的鲁棒描述符方面存在局限性。因此,本文提出了一种新的鲁棒描述符学习框架,该框架采用概率嵌入和基于可靠性的三元组损失。具体来说,我们使用概率嵌入在潜在空间中表示图像块,通过预测分布而不是确定性点来明确建模不确定性。为了进一步提高鲁棒性,我们提出了一种基于可靠性的三元组损失,其核心思想是根据估计的不确定性自适应地增强可靠样本的贡献,同时减少不可靠样本的影响。所提出的框架可以无缝集成到现有的基于学习的描述符方法中。广泛的实验结果表明,所提出的框架非常有效,其衍生的方法在三个不同的数据集上均优于原始方法和其他基线方法。代码可在以下链接获取:https://github.com/hnu-VML/bwc/tree/main/UNCERTAINTY_DESC

引言

提取局部特征对于许多计算机视觉应用至关重要,包括SLAM[1]、[2]、[3]、视觉定位[4]、[5]和3D重建[7]、[8]。提取局部特征的方法可以分为两大类:联合检测与描述(JDD)方法和先检测后描述(DtD)方法。JDD方法将整个图像作为输入,在统一框架内同时学习关键点检测和特征描述。尽管取得了进展,但DtD方法在某些任务中仍然具有竞争力,并且表现最佳,如[9]所示。DtD方法将特征提取分为两个连续步骤:首先检测关键点位置,然后从每个检测到的关键点为中心的图像区域提取基于块的局部描述符。这种方法的性能在很大程度上依赖于这些基于块的局部描述符,以实现鲁棒的图像匹配[10]。
一般来说,基于块的局部描述符可以分为两大类:手工制作的描述符[11]、[12]和基于学习的描述符[13]、[14]、[15]、[16]。得益于专门的滤波器和采样策略,手工制作的描述符(如尺度不变特征变换(SIFT)[11]和加速鲁棒特征(SURF)[12])能够有效捕获结构信息,同时忽略容易受到外部干扰的局部细节。然而,这些描述符严重依赖于专家的先验知识,仅在特定场景下表现良好,这限制了它们的进一步发展。
与手工制作的描述符不同,基于学习的描述符[13]、[14]、[15]、[16]使用深度网络自动从数据中提取高级特征,在处理复杂场景时表现出更强的鲁棒性。然而,基于学习的描述符通常基于确定性嵌入,这无法考虑图像块中的固有观测不确定性。这种不确定性源于传感器噪声和几何变化等因素,破坏了视觉观测与其潜在语义之间的一致性。如图1所示,斑块IaIp形成对应于同一物理点的匹配对,而IaIn形成对应于不同物理点的非匹配对。这些斑块是在不同条件下捕获的图像中提取的。如图1(a)所示,现有的基于学习的描述符将图像块表示为潜在空间中的确定性点,表示为z=g(I),其中g是一个映射函数。匹配斑块对(Ia,Ip)的描述符之间的距离大于非匹配斑块对(Ia,In)的距离,从而导致错误匹配。造成这个问题的原因是确定性嵌入无法处理数据不确定性。
为了解决上述问题,本文提出了一种新的概率框架用于局部描述符学习。具体来说,我们首先使用概率嵌入通过将输入斑块映射到潜在空间中的多元高斯分布来明确建模不确定性,而不是使用确定性嵌入。多元高斯分布的均值表示最可能的特征,因为它是分布中概率最高的点。同时,高斯分布的方差捕获了不确定性。如图1(b)所示,图像块由概率嵌入p(z|I)表示。这种概率表示方法鼓励匹配对(Ia,Ip)的距离更短,而非匹配对(Ia,In)的距离更长,从而增强了描述符的鲁棒性。然后,我们设计了一种基于可靠性的三元组损失,以指导模型在训练过程中学习更鲁棒的表示,通过根据估计的不确定性自适应地减少对不可靠样本的重视。最后,我们提出了一种组合优化函数来指导模型的优化。总之,本文的贡献可以总结如下:
我们提出了一种可以集成到现有描述符学习方法中的概率框架。
  • 我们提出使用概率嵌入来表示局部斑块,以解决数据不确定性问题,这有助于减少(或增加)匹配(或非匹配)描述符对之间的距离,从而提高描述符的鲁棒性。
  • 我们设计了一种基于可靠性的三元组损失,使模型能够关注重要特征并有效地学习描述符。
  • 广泛的实验表明了该框架的有效性,其衍生的模型在三个不同的数据集上取得了有竞争力的性能。
  • 本文的其余部分组织如下。第二节简要介绍了相关工作。第三节详细介绍了所提出的方法。第四节展示了广泛的实验结果。最后,第五节提供了结论。

    节选

    基于块的局部描述符学习

    手工制作描述符的核心基于特定的数学原理。计算机视觉中一个著名且成功的局部描述符是SIFT[11]。它构建了一个高斯尺度空间来检测关键点,并通过局部区域内的梯度方向直方图来描述特征。在SIFT的出色区分能力和鲁棒性的基础上,研究人员提出了许多变体。

    背景和动机

    局部描述符学习的目标是通过编码器f将图像块映射到一个< />维描述符空间[35]。f的核心功能是从斑块中提取不变特征,同时抑制传感器噪声和几何变化等不确定性因素的影响。理想情况下,对应于同一物理点的斑块在不同条件下的映射结果应该映射到描述符空间中的相邻区域。
    现有的基于学习的方法依赖于

    实验

    我们首先详细介绍了实验设置,包括所提出方法的实现细节和所使用的数据集。接下来,我们展示了在这些数据集上获得的验证结果,并通过消融研究分析了我们方法的每个组成部分。

    结论

    在本文中,我们提出了一个结合概率嵌入和基于可靠性的三元组损失的鲁棒描述符学习框架。通过将图像块表示为多元高斯分布,我们的方法捕获了最可能的特征表示及其相关的不确定性,从而在视角变化等具有挑战性的条件下提高了鲁棒性。为了进一步利用估计的不确定性,我们引入了一种基于可靠性的三元组损失

    CRediT作者贡献声明

    包伟超:撰写——原始草案、方法论、调查、概念化。魏晓辉:撰写——审阅与编辑、监督、资金获取。周彩霞:可视化、软件、形式分析。刘海波:验证、监督、项目管理、资金获取。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

    致谢

    本工作部分得到了中国国家自然科学基金(项目编号12072366、62571187和62101183)的支持,以及中央高校基本科研业务费(项目编号531118010744)的支持。
    包伟超于2018年获得安徽科技大学的学士学位,2021年获得中国科技大学的硕士学位。他目前正在湖南大学攻读博士学位。他的研究兴趣包括计算机视觉和3D重建。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号