寻宝游戏:基于对比学习的精细物体搜索方法——通过探索器与鉴别器的协作实现从粗略到精确的物体定位

【字体: 时间:2026年03月04日 来源:IEEE Transactions on Neural Networks and Learning Systems 8.9

编辑推荐:

  具身对比学习融合几何一致性和行为感知,通过多帧视觉预测导航动作并学习三维语义形状对齐,配合探索者与判别者协作的粗到细策略,有效提升物体导航中遮挡场景的3D几何感知和目标定位精度,在MP3D等数据集上优于SOTA方法。

  

摘要:

对象导航(ObjectNav)使智能体能够寻找特定对象类别的任何实例,这一技术已经取得了显著进展。然而,目前的智能体依赖于容易受到遮挡影响的视觉观测结果或压缩的二维地图,这限制了它们对三维场景几何结构的感知能力。此外,现有方法通常将ObjectNav分解为探索和利用两个子任务,容易导致对象定位模糊和探索方向不明确的问题。为了解决这些问题,我们首先提出了一种结合几何一致性(GC)和行为意识(BA)的具身对比学习(ECL)方法,该方法能够激励智能体主动编码三维场景布局和语义线索。行为意识(BA)通过基于多帧视觉图像预测导航动作来实现,因为能够引起相邻视觉感知差异的行为对于学习连续视觉信息之间的关联至关重要。几何一致性(GC)则通过无监督对比学习将具有行为意识的视觉刺激与三维语义形状对齐来实现。在此基础上,我们提出了一种粗粒度到细粒度的ObjectNav策略,该策略融合了探索器和鉴别器的协作机制,其设计灵感来源于寻宝游戏的概念。具体来说,探索器能够根据积累的场景先验动态切换行动空间,从而在全局和局部探索之间进行切换;鉴别器则利用具有行为意识的视觉特征和几何不变性先验来辨别目标的真实性,这种机制模拟了人类在远距离区分对象时“靠近确认”的行为。实验结果表明,我们的ECL方法在对象检测(ObjDet)和实例分割(InstSeg)任务中表现优异,在Matterport3D(MP3D)、Gibson和HM3D数据集上超越了现有的最先进方法(SOTA)。

引言

对象导航(ObjectNav)任务[1]、[2]要求智能体在未知的三维场景中根据语义标签寻找目标对象。现有的研究在视觉表示[3]、[4]、[5]、[6]、数据增强技术[7]、[8]以及预训练辅助任务[9]、[10]方面取得了显著进展。这些方法的核心思想是充分利用场景布局和语义上下文来提升智能体的对象定位或场景探索能力。一些方法[3]、[4]、[11]、[12]通过强调视觉观测的时空意识,探索历史视觉特征之间的关联以辅助ObjectNav决策。尽管取得了进展,但现实场景中普遍存在严重的遮挡现象,这给智能体准确定位对象和高效探索场景带来了挑战。此外,智能体通常通过移动并从不同角度和距离观察对象来建立对对象的高层次认知。例如,要理解用于对象定位的基本物理概念(如“大”和“长”),仅依靠基于图像的观测是不够的。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号