通过多线索不确定性建模实现的自监督联合流场与深度估计

【字体: 时间:2026年02月28日 来源:Neural Networks 6.3

编辑推荐:

  提出基于不确定性的自我监督框架UGFD,通过建模光流与深度估计中的任务内和任务间不一致性生成密集不确定性图,利用上下文感知模块抑制误差传播,并动态调整损失权重以应对非刚性运动和复杂场景,在KITTI等数据集上达到SOTA性能,验证了零样本泛化能力。

  
Rokia Abdein|Wei Li|Yidan Chen|Chenghao Li|Sumi Helal|Moustafa Youssef
哈尔滨工程大学计算机科学与技术学院,中国哈尔滨,150001

摘要

从动态场景中理解运动和3D结构是计算机视觉的一个基本挑战。无监督学习通过无需手动标签的训练来降低标注成本;在这一领域,自监督学习通过从数据的内在结构中创建监督信号而具有明显优势。虽然这些方法避免了昂贵的标注工作,但在遮挡区域、纹理模糊或非刚性运动情况下仍面临困难。为了更好地利用运动和结构之间的几何协同作用,以往的联合学习框架使用单独的启发式方法或简单的二值掩码来处理这些挑战。本文提出了一种新的范式,将这些问题重新定义为统一的不确定性估计问题,其核心原则是利用任务不一致性作为监督信号。我们提出了UGFD(不确定性引导的流和深度估计框架),该框架通过明确建模两种冲突来源来生成密集的不确定性图:(1)来自局部梯度不一致性的任务内不一致性;(2)来自估计的光流与深度诱导的场景运动之间的刚性假设违反的任务间不一致性。这种学习到的不确定性不仅用于掩蔽,还主动引导学习过程。我们新颖的上下文感知不确定性(CAU)模块利用这一信号来防止错误传播,而我们的非刚性驱动(URD)损失则动态地将优化重点放在高模糊区域。通过在一致的不确定性框架下统一处理多种错误来源,我们的模型能够在没有真实标签的情况下评估其置信度并进行稳健的估计。在KITTI基准测试上的广泛评估显示了其先进的性能,而在Sintel和FlyingThings3D上的零样本测试则证明了其强大的泛化能力。

引言

光流和深度估计是具有广泛应用的基础计算机视觉任务,包括自动驾驶、机器人技术和3D重建(Menze和Geiger,2015年)。自动驾驶车辆依赖精确的深度图来避障,而光流提供了关键的运动信息。联合估计这些任务的动机在于它们之间的强大协同作用。深度限制了刚性场景的运动,而运动视差为深度提供了强有力的线索。这种相互增强有可能产生比单独估计每个任务更稳健和连贯的动态环境理解。此外,流和深度的统一表示对于需要一致场景动态感知的下游应用(如增强现实)至关重要。
为了避免高昂的手动标注成本,该领域已大幅转向自监督学习。这种无监督学习范式通过视频帧之间的光度一致性创建自己的监督信号(Bayramli等人,2023年;Liu等人,2019b年)。尽管这种方法显示出潜力(Jiao等人,2021年;Liu等人,2019b年),但在包含显著遮挡、非刚性运动或动态照明的真实世界场景中仍面临挑战。在这些模糊区域,光度信号不可靠,导致估计结果噪声大且不一致。以往的联合学习框架(如UnRigidFlow(Liu等人,2019b年)和EffiScene(Jiao等人,2021年)试图通过利用几何约束来缓解这些问题。然而,它们通常以有限的方式这样做,例如通过创建二值掩码将场景分割为刚性/非刚性部分,或简单地从损失计算中排除异常值。这种方法放弃了不一致性中的丰富连续信息,并经常通过传播周围像素的信息来补偿,这可能会扩大错误区域,如图1所示。
本文旨在通过引入一种根本不同的方法来克服这些多方面的挑战。我们不仅识别和掩蔽异常值,还首先明确估计一个密集的、逐像素的不确定性图,然后利用它来指导整个学习过程。我们通过使用任务之间和任务内部的不一致性作为这种不确定性估计的主要、连续的监督信号来重新定义问题。我们确定了两个关键的冲突来源:(1)通过流和深度场内的局部梯度不一致性检测到的任务内不一致性;(2)通过估计的光流与从估计的深度和相机姿态得出的刚性流之间的差异测量的任务间不一致性。这种冲突不是被视为需要掩蔽的错误,而是被视为由非刚性、运动边界或其他模糊性引起的估计不确定性的有价值信号。
基于这一原则,我们引入了不确定性引导的流和深度(UGFD)框架。UGFD首先在像素级别量化不确定性,学习在没有真实标签的情况下预测其置信度。然后,这个图驱动了我们的两个核心技术贡献。我们新颖的上下文感知不确定性(CAU)模块利用这一信号来主动防止来自不可靠区域的错误传播。同时,我们的非刚性驱动(URD)模块利用任务间冲突动态地将优化重点放在最具挑战性的区域。如图2所示,这种统一的不确定性感知模型比简单的遮挡掩码捕捉到了更细致的挑战集,从而实现了更清晰、更准确的估计。我们的贡献可以总结如下:
  • 我们提出了UGFD,一种用于光流、深度及其不确定性自监督联合学习的新框架。我们提出了一种统一的方法,通过利用任务内和任务间的不一致性作为自监督信号来学习逐像素的不确定性估计,而不是使用不同的启发式方法来处理遮挡、噪声、异常值或非刚性问题。
  • 我们提出了一种新颖的上下文感知不确定性(CAU)模块,它主动防止错误从不确定区域传播,而不仅仅是简单地掩蔽它们。该模块利用估计的不确定性来指导网络从可靠、空间上距离较远的像素采样特征,同时忽略相邻但模糊的像素。嵌入式迭代细化(IR)过程进一步改进了估计结果,而无需单独的损失计算。
  • 为了利用任务之间的协同作用,我们引入了非刚性驱动(URD)模块,将估计的光流与深度诱导的刚性流之间的冲突转化为动态的、逐像素的损失权重。这迫使网络将更多的学习能力用于解决由非刚性运动或不准确深度引起的挑战性不一致性。
  • 我们的框架在具有挑战性的KITTI 2015(Menze和Geiger,2015年)和KITTI 2012(Geiger等人,2012年)基准测试中展示了先进的性能。关键的是,我们通过广泛的零样本泛化测试验证了其鲁棒性,在包括MPI-Sintel(Butler等人,2012年)和FlyingThings3D(Mayer等人,2016年)在内的未见过的合成数据集上获得了强有力的定量和定性结果。
  • 本手稿是我们初步会议论文Abdein等人(2025年)的扩展和显著增强版本。虽然初步工作介绍了不确定性引导细化的基本概念,但期刊版本提出了一个更成熟和原则性的框架。主要改进包括:(i)扩展的不确定性估计器,利用迭代之间的流不一致性来识别更广泛的不确定区域;(ii)新颖的上下文感知不确定性(CAU)模块,用更复杂的错误预防机制替换了简单的细化步骤;(iii)集成迭代细化(IR)模块,用于嵌入式、自适应的估计改进;(iv)通过新的非刚性驱动(URD)模块形式化任务间不一致性,以动态加权损失函数;(v)详细扩展技术细节、支持性图表和实验验证,包括更新的先进性比较、模型复杂性分析以及在新的数据集上的稳健泛化测试。
    本文的结构如下:第2节讨论相关工作。第3节详细介绍了提出的UGFD框架及其组成部分。第4节展示了我们的实验设置、定量和定性结果、深入的消融研究以及对模型复杂性和泛化性能的分析。最后,第5节总结了本文并提供了潜在的未来发展方向。

    章节片段

    光流和深度中的不确定性估计

    估计不确定性对于构建可靠的光流和深度感知系统至关重要。早期方法依赖于事后技术,如变分推断(Wannenwetsch等人,2017年)或重采样(Kybic和Nieuwenhuis,2011年),这些方法通常与主要估计任务分离。虽然深度学习引入了集成方法,但许多流行技术(如蒙特卡洛Dropout(Milanés-Hermosilla等人,2021年)、贝叶斯网络(Park等人,2010年)和集成方法(Liu等人)

    提出的方法

    我们的目标是开发一个自监督框架,该框架在明确建模和利用这些任务中固有的不确定性的同时,联合估计光流和深度。为此,我们引入了不确定性引导的流和深度(UGFD)框架,如图3所示。该框架基于渐进式、不确定性感知的细化原则,其中初始估计通过主动结合动态计算的不确定性图进行迭代改进。
    总体

    数据集和评估协议

    我们的框架在一系列标准基准测试上进行了训练和评估,以确保对其性能和泛化能力的全面评估。
  • KITTI Raw(Geiger等人,2013年):这是我们的主要训练数据集。它包含来自真实世界驾驶场景的大规模立体视频序列。为了确保公平评估,我们遵循标准协议,并在28,058对图像对上预训练我们的模型,同时仔细排除了任何与
  • 结论和未来方向

    本文扩展了光流和深度无监督学习中的挑战范围,超出了对这些任务中常见的遮挡问题的广泛研究。这个概念——不确定性——涵盖了所有由于各种情况(包括光照变化、纹理模糊和遮挡)而可能导致不准确估计的不确定区域。这种不确定性是通过捕获流和深度梯度中的不一致性来推断的。

    CRediT作者贡献声明

    Rokia Abdein:写作——审稿与编辑,撰写——初稿,可视化,软件,方法论,概念化。Wei Li:监督,方法论,资金获取,概念化。Yidan Chen:验证,软件,数据管理。Chenghao Li:验证,软件,数据管理。Sumi Helal:写作——审稿与编辑,监督。Moustafa Youssef:写作——初稿,监督。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

    致谢

    本研究得到了黑龙江省自然科学基金(LH2023F020)、国家水下声学技术重点实验室稳定支持基金(JCKYS2023604SSJS013)以及中央高校基本科研业务费(3072024XX0604)的资助。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号