DRL:一种用于无人机自主定位的高效异构空间特征交互框架

《Pattern Recognition》:DRL: An efficient heterogeneous spatial feature interaction framework for UAV self-localization

【字体: 时间:2026年02月23日 来源:Pattern Recognition 7.6

编辑推荐:

  无人机基于卫星图像的端到端定位框架DRL提出,通过Post-Fusion和Mix-Fusion两种Transformer架构实现多源特征交互,消除传统检索式方法的前后处理开销,引入随机缩放裁剪和数据平衡损失提升鲁棒性,构建UL14基准数据集,实验表明MA@20提升9.4%,计算成本降低7倍,存储减少3倍。

  
戴明|郑恩辉|程文轩|陈家豪|冯振华|杨万寇
东南大学自动化学院,南京,210096,中国

摘要

图像检索(IR)已成为无人机(UAV)自主定位的一种有前景的方法。然而,现有的基于IR的方法面临两个主要挑战:(1)由于复杂的预处理和后处理操作,导致大量的计算和存储开销;(2)双源特征之间的交互不足,导致空间感知精度下降。为了解决这些问题,我们提出了一个高效的异构空间特征交互框架,称为Drone Referring Localization(DRL),其目标是在卫星图像中定位无人机视角的图像。与传统方法不同,DRL不是孤立地处理不同的数据源,然后进行余弦相似度计算,而是促进异构特征之间的可学习交互。为了实现提出的DRL,我们设计了两种基于Transformer的架构:Post-FusionMix-Fusion,支持端到端的训练和推理。此外,我们引入了随机尺度裁剪权重平衡损失来增强数据多样性,并改善正负样本对之间的样本权重优化。另外,我们构建了一个新的基准数据集UL14,专门为DRL框架设计。实验结果表明,DRL的性能优于传统的基于IR的方法,在MA@20指标上提高了9.4%,同时将计算成本降低了7倍,存储使用量降低了3倍。数据集和源代码可在https://github.com/Dmmm1997/DRL公开获取。

引言

近年来,无人机被广泛应用于各个领域的视觉相关任务[1],包括设施检查[2]、农业操作[3]和民用航空摄影[4]。通常,无人机依赖全球定位系统(GPS)信号进行自主定位。然而,GPS信号的可靠性在不同环境中可能会有显著波动,而且无人机经常在信号较弱或完全不可用的区域运行。在这种情况下,无人机可能会遭受导航不稳定甚至完全失控的问题。为了解决这个问题,本文研究了一个仅依赖视觉信息的替代框架,为GPS不可用的环境提供了稳健的无人机自主定位解决方案。
无人机自主定位任务面临几个重大挑战,包括领域差异巨大、尺度变化不确定、视角不一致以及由于时间偏移造成的空间错位。为了解决这些问题,提出了各种深度学习方法来增强内容理解和特征整合。其中一种方法是DenseUAV[5],它采用了图像检索方案,使用无人机视角的图像作为查询,从卫星图库中检索最相似的卫星视角图像。目前,已经出现了细粒度定位方法,用于将地面全景图与卫星图像进行匹配[6]、[7],其中VIGOR类型[8]方法是著名的例子。这些方法通过将偏移预测纳入检索过程来提高定位精度。相比之下,本文专注于通过端到端的、无需检索的范式来实现无人机自主定位。具体来说,所提出的方法通过利用无人机运动的空间连续性消除了粗略搜索阶段。一旦确定了初始位置,就可以裁剪出相应的粗略卫星图像块。通过在该定位区域内准确定位无人机,可以连续跟踪无人机的轨迹,从而实现高效且稳健的定位,而无需依赖大规模的检索操作。
本文的主要目标是研究一种端到端的异构特征交互方法用于无人机自主定位。我们通过数据和模型的全面实验来评估所提出的框架。为了支持DRL训练,我们构建了一个成对属性数据集UL14,该数据集源自DenseUAV分类数据集,并具有更具挑战性的测试集配置。我们进一步设计了两种模型架构:Post-FusionMix-Fusion,它们分别在主干网络的末端和中间阶段整合异构特征。为了全面评估定位性能,我们引入了两个指标:米级精度(MA),直接测量空间距离;相对距离得分(RDS),在模型层面评估定位效果。此外,我们采用了数据增强策略,包括随机缩放和随机偏移,以增加训练样本的对多样性。在平衡的损失框架中加入了负样本权重因子,显著增强了训练过程中的优化和收敛性。最近,基于IR的范式[9]已被广泛用于跨视图地理定位。虽然基于CNN和Transformer的方法改进了表示学习,但它们受到检索范式固有的两个根本限制。
(1)由于离散采样导致的固有定位误差。基于IR的方法缺乏中间特征交互,将相似性估计限制在孤立的表示上。此外,由于卫星图库是离散采样的,定位精度严格受到采样密度的限制。如图1(a)所示,稀疏采样(绿色点)不可避免地会导致较大的定位误差,而密集采样则会带来高昂的计算成本。
(2)高开销和缺乏端到端处理。基于IR的方法依赖于一个多阶段流程,包括昂贵的预处理(图库生成)和后处理(相似性搜索),如图1(a)所示。这些瓶颈阻碍了实时推理。尽管像KNN这样的近似方法减少了计算量,但它们牺牲了精度,使其不适合高精度的无人机任务。
为了解决这些限制,我们提出了Drone Referring Localization(DRL),一种端到端的异构空间特征交互范式。如图1(b)的对比图所示,与分离的IR方法不同,DRL在统一的框架内处理无人机查询和卫星搜索图。它预测了一个空间概率热图,用于直接坐标推理。这种设计实现了完整的特征交互,消除了采样引起的误差,并通过去除复杂的预/后处理步骤简化了流程。
我们通过全面实验评估了DRL。在数据方面,我们构建了具有挑战性测试配置的UL14数据集。在模型方面,我们设计了两种架构Post-FusionMix-Fusion,分别在不同阶段整合异构特征。我们使用米级精度(MA)相对距离得分(RDS)来评估性能。最后,为了确保稳健的收敛,我们采用了随机尺度/偏移增强和带有负样本加权的平衡损失框架。
本工作的主要贡献总结如下:
  • 1.
    我们提出了一种高效的异构特征交互方法,用于无人机自主定位任务,称为Drone Referring Localization(DRL),它以可学习的方式深度交互异构特征,并规避了复杂的预处理和后处理步骤。
  • 2.
    我们提出了两种架构Post-FusionMix-Fusion
    ,并证明深度特征交互比后期交互更有效。此外,我们引入了基于随机缩放和偏移的数据增强策略来增加训练多样性,并通过分析正负样本的数量和权重来增强平衡损失。
  • 3.
    我们构建了一个新的基准数据集UL14
    ,其中包括来自配对样本的数据集,以及两个评估指标:米级精度(MA)和相对距离得分(RDS)。
  • 4.
    所提出的DRL在定位精度(MA@20)上提高了9.4%,同时显著降低了时间(1/7)和存储(1/3)开销。最终,在一个3080Ti GPU上达到了100 FPS的运行速度。
  • 部分摘录

    地理定位数据集

    地面到空中匹配:地理定位最初关注于匹配地面和空中图像。早期研究[10]、[11]建立了使用公共资源构建配对数据集的基础,将地面和空中视图链接起来。在此基础上,CVUSA[12]数据集将基于地面的全景图像与相应的卫星图像配对,而CAACT[13]通过引入空间信息(如方向图)进一步增强了CVUSA。最近,

    定位方案

    所提出的框架Drone Referring Localization(DRL)引入了一种新的无人机自主定位方法。据我们所知,这是第一个采用端到端解决方案的架构。为了清晰地传达DRL的创新方面,我们在3.1.1节提供了基于IR的方案的简要概述,然后在3.1.2节深入探讨了DRL的独特特性。

    所提出的UL14数据集

    表1总结了代表性地理定位数据集的训练数据规模、采集平台、数据分布、定位目标和评估指标。UL14数据集具有以下特点:(1)双重视角:图像来自无人机和卫星视角。(2)成对训练数据:无人机和卫星图像被组织成对,在训练期间应用数据增强以增加多样性。(3)多种飞行高度:无人机图像

    实现细节

    在实验中,采用了AdamW优化器,权重衰减为5e-4。此外,我们采用了余弦退火的学习率衰减计划,最小学习率是初始学习率的1/100。在训练阶段,无人机视角的图像设置为128×128像素的分辨率,而卫星视角的图像默认设置为384×384像素。在推理阶段,汉宁窗口大小与WBL中的R设置相同。

    定位性能

    后融合

    我们评估了三种融合方法——GC、SAFCAF——如表5所示。在计算量和参数数量方面,SAFGC多0.2 GMacs和0.3M个参数,而CAF略低于SAF。在推理速度方面,SAF明显慢于GC,也略慢于CAF。令人惊讶的是,GC在所有精度指标上始终优于CAFSAF。这种违反直觉的结果是由于输入数据的性质。在SOT中,基于注意力的融合

    可视化

    应用Sigmoid函数后获得的输出热图表示响应强度的空间分布,较高的值表示较高的定位概率。我们对这些热图进行归一化和可视化,以分析模型行为,如图12所示,可以分为三种情况。在第1组和第2组中,Mix-Fusion结构产生了更明显和集中的热响应,歧义最小。这是由于其深度特征交互

    局限性

    仍有几个需要改进的领域:(1)高精度定位有限。每个输出热图像素代表的相对较大的空间距离限制了精细精度。未来的工作可以探索扩大输出热图或引入偏移学习模块来提高高精度定位。(2)对尺度和空间分布的敏感性。如图7和8(a)(b)所示,尺度和空间布局的变化会对性能产生负面影响。开发

    结论和未来工作

    本文介绍了一种高效的多源空间特征交互方法,即Drone Referring Localization(DRL),它不仅以可学习的方式与异构特征交互并克服了固有误差,还以端到端的方式简化了整个定位过程。同时,提出了两种模型结构Post-Fusion和Mix-Fusion,分别实现为双流和单流网络。实验表明

    CRediT作者贡献声明

    戴明:撰写——原始草稿、可视化、验证、方法论、调查、形式分析。郑恩辉:资源、项目管理。程文轩:可视化、方法论。陈家豪:调查、数据整理。冯振华:撰写——审阅与编辑、监督。杨万寇:项目管理、资金获取。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了国家自然科学基金(编号62276061和62436002)的支持。本工作还得到了东南大学先进海洋研究所研究基金(重大项目MP202404)的支持。本工作还得到了东南大学博士生创新能力提升计划(CXJH SEU 25125)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号