MuBe4D:一种互惠框架,用于通用运动分割和基于几何的4D重建

《Information Fusion》:MuBe4D: A Mutual Benefit Framework for Generalizable Motion Segmentation and Geometry-First 4D Reconstruction

【字体: 时间:2026年02月24日 来源:Information Fusion 15.5

编辑推荐:

  零样本运动分割与几何重建的协同优化框架,通过提取几何先验指导分割,并利用双向多模态信息融合提升复杂场景分割效果,同时将分割结果反哺几何重建,增强多帧对齐的一致性。

  
作者:张硕、王伟、苏欣、刘军、曾新瑞、罗斌、王晨杰
中国湖北省武汉市武汉大学测绘与遥感信息工程国家重点实验室,邮编430072

摘要

从动态场景中估计运动和几何信息是计算机视觉领域一个开放且约束不足的问题。由于共标记数据的有限性,当前的端到端方法将运动分割和几何估计视为两个独立的任务,其中运动分割在下游应用中单向促进几何对齐。然而,几何估计也为增强运动分割提供了有价值的信息。本文提出了一个互利的框架,用于零样本运动分割和一致的几何重建。具体来说,从基于几何的4D重建模型中提取3D时空先验,以指导泛化的运动分割。设计了一种双维度多路径信息融合(D^2MIF)模块,通过递归细化机制在多个尺度上融合互补的3D和2D信息,从而在具有背景干扰和物体运动的复杂动态场景中提高零样本分割的性能。随后,利用精炼的运动分割掩模在对齐过程中更准确地分离动态前景和静态背景,从而提高4D重建的几何一致性。实验结果验证了所提出框架的互惠效益和在下游4D重建任务中的效率;运动分割模型表现出竞争力和泛化能力。该项目的网页地址为:https://mube4d.github.io/

引言

从动态场景的视频中同时估计运动和几何信息是计算机视觉的一项基本任务[1]、[2]、[3],这在增强现实[4]和具身智能[5]等应用中至关重要。尽管经过数十年的研究,这两个因素之间的“先有鸡还是先有蛋”的问题仍然没有解决且约束不足。准确的运动分割需要可靠的场景几何估计,而精确的场景结构建模依赖于校正的运动分割[6]、[7]。大多数动态场景重建算法[8]、[9]、[10]、[11]包括估计动态区域、深度、光流和里程计的子任务,采用多阶段优化技术进行动态场景的4D重建。然而,这些复杂的系统通常耗时且脆弱(图1(c))。
大型视觉模型(LVM)最近在图像理解[12]、[13]和深度估计任务[14]、[15]、[16]、[17]的许多方面带来了革命性的变化。然而,尽管期望很高,但由于共标记训练数据集的有限性以及需要适当的联合参数化形式,动态视频中运动和几何的端到端联合学习面临重大挑战。最近的数据驱动方法通常将运动分割和几何估计视为两个独立的任务(图1(a)(b))。前者[18]、[19]通过多帧时间建模提取时空特征以分析运动一致性。后者,即基于几何的4D重建模型[10]、[11],使用点图表示逐对估计局部几何形状。尽管设计简单且取得了成果,但下游应用(例如视频深度估计、相机姿态估计和交互式4D可视化)仍需要集成过程以实现全局对齐。单独推理的系统虽然通过运动分割单向促进了几何重建,但效果不佳且不理想(图1(d))。
受到基于几何的重建模型出现的启发,本研究旨在超越传统的单向范式,探索运动和几何之间的协同作用。我们提出了一个互利的框架,建立了运动分割和4D重建之间的双向增强(图1(e))。具体来说,我们利用从基于几何的4D重建模型中得到的内在3D时空表示作为强大的几何先验,以指导泛化的运动分割。重建框架利用交叉注意力机制来模拟动态视频帧之间的时空相关性,生成每步的几何信息,有效分离动态前景和静态背景结构。这种几何洞察力即使在有限的监督下也能促进连贯的运动分割。认识到2D和3D模态之间的基本互补性[20]、[21],我们引入了双维度多路径信息融合(D^2MIF)模块,递归细化多尺度的2D和3D时空特征。这种架构在具有背景干扰和物体运动的场景中显著提高了模型的鲁棒性。虽然依赖大量时间序列或纯2D时空信息的方法容易受到相机运动耦合和光照变化的影响,但我们的方法利用双维度设计仅使用连续两帧即可实现有竞争力的零样本性能,从而确保了计算可行性、高分辨率训练的可扩展性和出色的操作灵活性。
反过来,我们利用精炼的运动分割掩模来规范成对局部点图的多帧对齐。通过将分割模型作为4D重建流程中的模块化组件,我们实现了内在3D时空特征的共享使用。通过这些共享嵌入,同时推断运动掩模和局部点图,相对于解耦的流程显著减少了计算开销。然后使用预测的掩模在对齐过程中精确分离动态物体和静态背景结构,从而提高4D重建的几何一致性。因此,我们的框架有效地捕捉了前景运动的全面演化轨迹,同时优化了资源利用。此外,我们引入了技术来增强层次优化阶段的全局尺度一致性,使4D重建适应长时间动态视频。在五个运动分割数据集和两个动态场景重建数据集上进行了广泛实验,以验证所提出框架的互惠效益。实验结果表明,通过结合几何信息,所提出的运动分割模型表现出竞争力和泛化能力。此外,改进的4D重建流程在视频深度估计和相机姿态估计任务中表现更优。
本文的贡献可以总结如下:
  1. 我们提出了一个互利的框架,实现了增强的运动分割和几何重建对齐,同时确保了效率。
  2. 我们利用基于几何的4D重建模型中的3D时空信息先验来指导运动分割模型,其中设计了D^2MIF模块来递归融合多级别的3D和2D时空信息,从而提高了在具有背景干扰和物体运动的复杂动态场景中运动分割模型的泛化能力。
  3. 我们将泛化的运动分割模型集成到4D重建流程中,实现了动态前景和静态背景的更准确分离,从而在多帧对齐过程中提高了几何一致性。此外,我们改进了层次优化策略,以适应长时间动态视频。
  4. 我们在五个运动分割数据集和两个动态场景重建数据集上进行了全面实验。结果表明,所提出的框架可以相互增强运动分割和几何重建对齐。运动分割模型表现出零样本性能,改进的4D重建流程在视频深度估计、相机姿态估计和交互式4D可视化等下游任务中表现更优。

章节片段

基于运动的场景结构和视觉SLAM

给定一个2D图像,基于运动的场景结构(SfM)[22]和视觉SLAM[23]、[24]通过精心设计的过程估计场景结构和相机运动。然而,它们主要适用于满足极线约束的静态场景。为了解决这一限制,最近的方法设计了子任务来估计几何信息(例如深度、光流、相机轨迹)以及运动分割,采用多阶段或全局优化来处理动态场景[8]、[9]。[25]、[26]恢复

方法

给定一个由N帧组成的视频序列
{IkRH×W×3k=1, ……,N 我们的目标是估计二进制运动分割掩模 M^kRH×W 深度图 DkRH×W 相机内参 KkR3 对于每一帧,我们提取来自基于几何的4D重建模型的3D时空信息,以指导运动分割,基于3D线索可以有效区分动态物体和静态背景。具体来说,开发了D^2MIF模块

实验

在第4.1节中,我们评估了我们的运动分割方法,并将其性能与最先进(SOTA)方法在标准基准测试和真实世界应用场景中的表现进行了比较。在第4.2节中,我们评估了我们改进的4D重建流程相对于其他SOTA方法的有效性和鲁棒性。最后,在第4.3节中,我们进行了消融研究,以检查我们方法的各个组成部分。

局限性

在快速运动和极端遮挡下的局限性
尽管MuBe4D旨在实现鲁棒的零样本泛化,但其运动分割子模块仍然受到快速运动和极端遮挡的挑战。我们当前的推理基于两帧输入,并依赖于帧间对应线索(例如基于几何的时空先验和光流)。当目标运动相对温和或遮挡有限时,这些对应关系仍然足够稳定

结论

在本文中,我们提出了MuBe4D,这是一个结合运动分割和基于几何的4D重建的互惠框架。通过来自基于几何的重建模型的强大3D时空先验,我们实现了具有强零样本性能的泛化运动分割模型。我们进一步将运动分割模块集成到4D重建流程中,其中精细的运动掩模有助于在多帧对齐过程中分离动态物体和静态背景

CRediT作者贡献声明

张硕:撰写——原始草案、可视化、验证、方法论、形式分析、数据整理、概念化。 王伟:验证、调查、概念化。 苏欣:撰写——审阅与编辑、方法论、形式分析。 刘军:资源获取、项目管理。 曾新瑞:验证、方法论。 罗斌:撰写——审阅与编辑、监督、资金获取。 王晨杰:监督、方法论、调查、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号