PTCNet:用于双视图对应关系剪枝的纯Transformer网络

《Pattern Recognition》:PTCNet: Pure Transformer Network for Two-View Correspondence Pruning

【字体: 时间:2026年03月28日 来源:Pattern Recognition 7.6

编辑推荐:

  两视图对应关系剪枝中提出纯Transformer模型PTCNet,通过Multi-Perspective Blending Module整合空间全局/局部上下文建模(DAT)和通道级特征筛选(SCT),交替优化提升计算效率与匹配精度,在未知场景中mAP5提升8.05%。

  
向阳淼|陈顺星|王世平|郭俊文|吴凤英|肖国宝|李宗娟
上海同济大学附属肺科医院,中国上海 200433

摘要

在本文中,我们提出了一种基于纯Transformer的新型双视图对应关系剪枝网络(称为PTCNet)。与依赖多层感知器的现有方法不同,PTCNet利用Transformer骨干网络实现了更优异的性能和更高的效率。具体来说,我们提出了多视角融合模块(MPBM),该模块整合了两种不同的基于Transformer的模块:双聚类Transformer(DAT)和稀疏通道Transformer(SCT)。在MPBM中,DAT和SCT以特定的比例交替使用,从而能够有效地从多个视角聚合稀疏对应关系中的上下文信息,并实现它们之间的互补交互。DAT旨在捕捉对应关系之间的局部和全局空间上下文,同时通过简单的聚类操作来管理计算复杂性。相比之下,SCT在通道级自注意力中引入了top-k掩码机制,以优先处理关键通道信息,从而提高了网络关注最具影响力特征的能力。通过整合这些设计元素,PTCNet展示了强大的特征表示能力,并在参数使用效率、鲁棒性和跨不同数据集及描述符的泛化能力方面达到了先进水平。值得注意的是,我们提出的PTCNet在室外未知场景中的mAP5°指标上显著优于第二好的方法。代码位于 https://github.com/mxyttkx/PTCNet

引言

在传统的计算机视觉任务中,找到准确的双视图对应关系是一个基本问题 [1]、[2]、[3],例如从运动中恢复结构 [4]、图像融合 [5]、同时定位和映射 [6]、[7]、视觉定位 [8]、[9]。标准的稀疏匹配流程首先识别关键点并构建特征描述符。然后根据这些特征描述符的相似性建立初始对应关系。一些经典的特征点提取算法包括手工设计的SIFT [10] 和基于学习的SuperPoint [11]。然而,由于特征检测器的敏感性以及图像间存在的挑战性变化,基于这些方法推断出的对应关系通常包含大量错误匹配(异常值)。因此,对应关系剪枝作为后处理步骤起着关键作用,旨在通过减轻异常值的影响来精炼相对相机姿态并识别正确的匹配(内点)。
对应关系剪枝任务在过去已经被广泛研究。传统方法,如RANSAC [12] 及其变体 [9]、[13],通常采用模型拟合技术来建立几何变换,其中包含最多内点的模型被认为是最优的。然而,由于对应关系受到异常值的严重污染,传统方法在现实世界场景中常常失败。从早期的基于多层感知器(MLP)的方法 [14]、[15] 及其革命性的性能开始,对应关系剪枝逐渐从预先手工设计的策略转向基于深度学习的方法。特别是在过去几年中,由于引入了多尺度图构建 [16]、[17]、[18]、注意力机制 [19] 和剪枝验证策略 [21] 等先进技术,深度对应关系剪枝网络取得了显著的性能提升。
这些方法有一个共同的特点:为了保持模型对输入的排列等变性,它们保留了基本的MLP框架,同时专注于设计更复杂的模块来建模上下文信息。MLP的固有属性限制了它们只能单独处理每个对应关系,而无法与其他对应关系进行交互,经常忽略了全局运动一致性和内点在局部共享的运动模式等关键信息。尽管它们单独设计的模块在某种程度上改善了情况,但在无纹理、高度重复或其他复杂场景中仍然存在困难。如果我们不能从根本上改变MLP结构,在双视图场景中建立准确的对应关系仍然非常困难。
在这项工作中,考虑到Transformer在各种计算机视觉任务中的成功,我们旨在利用Transformer作为网络骨干来解决现有方法的局限性。为此,区分我们的方法与那些仅部分集成Transformer模块的先前方法至关重要。大规模使用Transformer需要解决几个关键挑战:1)Transformer的计算复杂度与输入对应关系的数量成二次方关系,这使其不适合点对点的对应关系任务。对应关系的无序性使得它们无法像在图像中那样被分配到较小的窗口中。2)初始对应关系集受到异常值的严重污染。当使用自注意力来捕捉全局上下文时,错误对应关系的干扰不可避免。消除错误上下文的干扰并专注于关键信息对于对应关系剪枝任务至关重要。3)忽略了来自不同视角的Transformer的组合。现有方法要么优先增强普通空间Transformer的局部性,如GCTNet [20],要么使用通道级自注意力来建模特征依赖性,如BCLNet [22]。到目前为止,还没有研究尝试同时整合这些不同的信息方面——局部和全局空间上下文以及通道维度上下文。
为了解决这些挑战,我们重新考虑了Transformer在对应关系剪枝任务中的应用,并提出了PTCNet,这是一个轻量级的、基于纯Transformer的网络,它在保持竞争性模型大小和复杂性的同时显著提高了性能,如图1所示。该框架以我们的多视角融合模块(MPBM)为中心,该模块协调了两种专用的Transformer变体:用于空间层次建模的双聚类Transformer(DAT)和用于特征级细化的稀疏通道Transformer(SCT)。具体来说,DAT采用双分支设计来捕获多尺度信息:一个分支利用空间自注意力来建模全局结构,而另一个分支通过在每个对应关系附近应用卷积来增强局部性。然而,直接在原始尺度上执行这些操作由于计算负担重而具有挑战性,使得大规模使用Transformer不切实际。作为解决方案,我们采用了一种软分配操作,将对应关系从原始尺度映射到簇中,在应用这些操作之前保留重要的空间信息。这种方法只需要两个可学习的变换矩阵来进行映射和逆映射,将自注意力的计算复杂度从O(N2)显著降低到O(M2),其中M是一个较小的可调参数,同时产生的参数开销最小。在SCT中,我们采用了通道级自注意力机制。由于这种方法交换了查询和键的计算维度,其计算复杂度与输入对应关系的数量成线性关系。此外,我们在SCT中引入了top-k掩码机制,并使用多个掩码来强调不同重要性的信息,同时有效抑制噪声。在MPBM中,DAT和SCT以特定的比例交替使用,通过它们的协同作用逐步整合来自空间和特征视角的互补上下文信息。
我们的主要贡献如下:
  • 我们提出了PTCNet,这是一个纯粹基于Transformer的网络,用于双视图对应关系剪枝任务,与其他使用MLP作为主要特征处理单元的工作不同。通过对原始Transformer模块的具体改进,PTCNet能够在不牺牲效率的情况下大规模使用Transformer。
  • 我们引入了MPBM,它整合了具有空间感知能力的Transformer来捕捉稀疏对应关系中的局部和全局上下文,同时使用通道级Transformer中的top-k掩码机制来优先处理关键特征。通过交错这两种类型的Transformer,它解决了现有方法中上下文理解不完整的问题,并实现了多方面的协同增强。
  • 广泛的实验证明了PTCNet在对应关系剪枝任务中的有效性。值得注意的是,PTCNet在未知的室外和室内场景中分别比第二好的方法获得了8.05%的mAP5°和0.52%的mAP5°提升。它还在不同的数据集和特征提取技术上展示了强大的泛化能力。
  • 本文的其余部分组织如下:第2节简要概述了对应关系剪枝任务的背景和相关工作。第3节阐述了对应关系剪枝问题,并详细介绍了提出的PTCNet。第4节通过多个基准测试展示了我们方法的有效性,并对PTCNet进行了全面的消融研究。最后,我们在第5节中得出了一些结论。

    相关工作

    相关工作

    在本节中,我们首先简要回顾了与对应关系剪枝相关的背景,然后讨论了与Transformer相关的工作。

    方法

    在本节中,我们首先介绍了我们工作的问题。然后,我们深入探讨了PTCNet的核心组件,即双聚类Transformer(DAT)块和稀疏通道Transformer(SCT)块。最后,我们介绍了损失函数和实现细节。

    实验

    在本节中,我们首先概述了评估标准和公共基准数据集。然后,我们评估了所提出的PTCNet在对应关系分类和相对姿态估计任务上的性能,并与公共数据集上的最先进方法进行了定量和定性比较。接下来,我们使用两个额外的室外数据集和医学图像分割任务来评估网络的泛化能力。

    结论

    在本文中,我们提出了一种名为PTCNet的新网络,其中Transformer架构作为双视图对应关系剪枝的骨干,取代了以往方法中使用的基于MLP的方法。我们首先分析了使用Transformer架构作为骨干的挑战,如计算复杂性、对异常值的敏感性和处理不完整信息的问题。然后,我们提出了相应的解决方案,并通过实施这些解决方案来解决问题。

    CRediT作者贡献声明

    向阳淼:写作——审阅与编辑、撰写原始草稿、可视化、验证、软件、资源、方法论、数据管理、概念化。陈顺星:写作——审阅与编辑、撰写原始草稿、可视化、验证、软件、方法论、数据管理。王世平:写作——审阅与编辑、可视化、资源、数据管理、概念化。郭俊文:写作——审阅与编辑、可视化、验证、软件、资源,

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号