CGSI:一种基于上下文引导和无人机状态信息的多模态框架,用于实现通用化的跨视图地理定位

《IEEE Transactions on Circuits and Systems for Video Technology》:CGSI: Context-Guided and UAV’s Status Informed Multimodal Framework for Generalizable Cross-View Geo-Localization

【字体: 时间:2026年02月22日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  无人机与卫星跨视角地理定位研究提出CGSI框架,通过融合多海拔视觉特征构建上下文引导的多模态令牌编码器解决域差距问题,并采用无人机群图注意力机制消除状态混淆,在大学-1652和SUES数据集上达到SOTA性能,验证了该方法跨区域泛化优势。

  

摘要:

跨视图地理定位对于无人机的视觉定位和导航至关重要,其目标是在同一地理区域内建立由无人驾驶飞行器(UAV)和卫星平台收集的图像之间的关联。无人机视角的剧烈变化对基于图像表示挖掘的方法构成了重大挑战。以往的研究试图从不同角度学习细粒度的图像外观特征;然而,这些方法往往未能充分利用无人机的各种状态信息。本文提出了一种新颖的多模态框架CGSI(Context-Guided and UAV’s Status Informed),该框架利用无人机的状态文本描述来减轻由于视角差异导致的场景偏差。为实现更准确和可靠的多模态地理定位,本文解决了以下两个问题:1)由于无人机飞行高度固定而导致的不同数据集之间的领域差异。我们提出了一种基于上下文的多模态分词器,该分词器从多高度视觉特征中学习上下文向量,并将其用作自适应文本标记。2)多模态特征容易受到状态特征的歧义影响。我们提出了一种无人机群体图注意力(Drone Group Graph Attention)方法,以增强具有相同位置ID但不同状态的无人机视觉特征之间的关联,并利用内在关系提取具有区分性的多模态特征。在University-1652和SUES基准测试上的广泛实验表明,我们的CGSI显著优于现有算法,达到了最先进的性能水平。跨区域消融实验中观察到的显著改进进一步展示了我们方法出色的领域泛化能力。

引言

ROSS-VIEW地理定位(CVGL)是指在大型GNSS信号缺失的环境中为无人驾驶飞行器(UAV)实现视觉定位和导航,以确保精确的定位和导航安全性。随着UAV应用的日益普及,CVGL越来越多地应用于低空场景,如精确配送、城市规划和自动驾驶[1]、[2]、[3]。这在高层建筑密集的城市地区尤为重要,因为GNSS信号常常受到城市峡谷效应的干扰[4]。CVGL包含两个关键的基本任务[5]:1)UAV定位。当查询图像来自无人机的视角时,通过将其机载图像与带有GPS标签的离线卫星参考图像进行匹配来确定无人机的位置。这可以通过利用空中和卫星视图之间的视觉对应关系,在GNSS信号缺失的环境中实现精确定位。2)UAV导航。相反,当查询图像来自卫星的视角时,无人机可以通过将其与历史飞行路径中的相应图像进行匹配来进行导航。因此,通过跨视图视觉线索实现地理定位已成为一个热门的研究课题,吸引了众多研究人员的关注。

相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号