
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CGSI:一种基于上下文引导和无人机状态信息的多模态框架,用于实现通用化的跨视图地理定位
《IEEE Transactions on Circuits and Systems for Video Technology》:CGSI: Context-Guided and UAV’s Status Informed Multimodal Framework for Generalizable Cross-View Geo-Localization
【字体: 大 中 小 】 时间:2026年02月22日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1
编辑推荐:
无人机与卫星跨视角地理定位研究提出CGSI框架,通过融合多海拔视觉特征构建上下文引导的多模态令牌编码器解决域差距问题,并采用无人机群图注意力机制消除状态混淆,在大学-1652和SUES数据集上达到SOTA性能,验证了该方法跨区域泛化优势。
ROSS-VIEW地理定位(CVGL)是指在大型GNSS信号缺失的环境中为无人驾驶飞行器(UAV)实现视觉定位和导航,以确保精确的定位和导航安全性。随着UAV应用的日益普及,CVGL越来越多地应用于低空场景,如精确配送、城市规划和自动驾驶[1]、[2]、[3]。这在高层建筑密集的城市地区尤为重要,因为GNSS信号常常受到城市峡谷效应的干扰[4]。CVGL包含两个关键的基本任务[5]:1)UAV定位。当查询图像来自无人机的视角时,通过将其机载图像与带有GPS标签的离线卫星参考图像进行匹配来确定无人机的位置。这可以通过利用空中和卫星视图之间的视觉对应关系,在GNSS信号缺失的环境中实现精确定位。2)UAV导航。相反,当查询图像来自卫星的视角时,无人机可以通过将其与历史飞行路径中的相应图像进行匹配来进行导航。因此,通过跨视图视觉线索实现地理定位已成为一个热门的研究课题,吸引了众多研究人员的关注。
生物通微信公众号
知名企业招聘