通过多样性和独立性协作实现的双视角滤波器剪枝

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Dual-perspective filter pruning via diversity and independence collaboration

【字体：大中小】 时间：2026年02月21日 来源：Pattern Recognition 7.6

编辑推荐：

　　无人机无GPS定位方法研究，提出DRL框架通过异构空间特征交互提升定位精度，设计Post-Fusion和Mix-Fusion两种Transformer架构实现端到端定位，构建UL14数据集并引入随机缩放裁剪和数据平衡损失优化，实验显示MA@20精度提升9.4%，计算成本降低7倍，存储减少3倍。

戴明|郑恩辉|程文轩|陈家豪|冯振华|杨万库

东南大学自动化学院，南京，210096，中国

摘要

图像检索（IR）已成为无人机（UAV）自主定位的一种有前景的方法。然而，现有的基于IR的方法面临两个主要挑战：（1）由于复杂的预处理和后处理操作，导致大量的计算和存储开销；（2）双源特征之间的交互不足，导致空间感知精度下降。为了解决这些问题，我们提出了一个高效的异构空间特征交互框架，称为无人机参考定位（DRL），旨在将无人机视角的图像定位到卫星图像中。与传统的将不同数据源单独处理后再进行余弦相似度计算的方法不同，DRL促进了异构特征的可学习交互。为了实现提出的DRL，我们设计了两种基于Transformer的架构：Post-Fusion和Mix-Fusion，支持端到端的训练和推理。此外，我们引入了随机尺度裁剪和权重平衡损失来增强数据多样性，并改善正负样本之间的权重优化。另外，我们构建了一个新的基准数据集UL14，专门为DRL框架设计。实验结果表明，DRL的性能优于传统的基于IR的方法，在MA@20指标上提高了9.4%，同时将计算成本降低了7倍，存储使用量降低了3倍。数据集和源代码可在https://github.com/Dmmm1997/DRL处获取。

引言

近年来，无人机被广泛应用于各种领域的视觉相关任务[1]，包括设施检查[2]、农业作业[3]和民用航空摄影[4]。通常，无人机依赖全球定位系统（GPS）信号进行自主定位。然而，GPS信号的可靠性在不同环境中可能会有很大波动，而且无人机经常在信号较弱或完全不可用的区域运行。在这种情况下，无人机可能会出现导航不稳定甚至完全失控的情况。为了解决这个问题，本文研究了一种仅依赖视觉信息的替代框架，为GPS缺失环境中的无人机自主定位提供了可靠的解决方案。

无人机自主定位任务面临几个重大挑战，包括领域差异巨大、尺度变化不确定、视角不一致以及由时间偏移引起的空间错位。为了解决这些问题，提出了多种深度学习方法来增强内容理解和特征集成。其中一种方法是DenseUAV[5]，它采用了图像检索方案，使用无人机视角的图像作为查询，从卫星图库中检索最相似的卫星视角图像。目前，已经出现了用于将地面全景图与卫星图像匹配的细粒度定位方法[6]、[7]，其中VIGOR类型[8]方法是突出的例子。这些方法通过将偏移预测纳入检索过程来提高定位精度。相比之下，本文关注通过端到端的、无需检索的范式来实现无人机自主定位。具体来说，所提出的方法通过利用无人机运动的空间连续性消除了粗略搜索阶段。一旦确定了初始位置，就可以裁剪出相应的粗略卫星图像块。通过在该定位区域内准确定位无人机，可以通过迭代更新连续跟踪无人机的轨迹，从而实现高效且稳健的定位，而无需依赖大规模的检索操作。

本文的主要目标是研究一种端到端的异构特征交互方法用于无人机自主定位。我们通过数据和模型方面的综合实验来评估所提出的框架。为了支持DRL训练，我们构建了一个成对属性数据集UL14，该数据集源自DenseUAV分类数据集，并具有更具挑战性的测试集配置。我们进一步设计了两种模型架构：Post-Fusion和Mix-Fusion，它们分别在主干网络的末端和中间阶段集成异构特征。为了全面评估定位性能，我们引入了两个指标：米级精度（MA），直接测量空间距离；相对距离得分（RDS），在模型层面评估定位效果。此外，我们采用了数据增强策略，包括随机缩放和随机偏移，以增加训练样本的多样性。在平衡的损失框架中加入了负样本权重因子，显著提高了训练过程中的优化和收敛性。最近，基于IR的范式[9]被广泛用于跨视图地理定位。尽管基于CNN和Transformer的方法提高了表示学习能力，但它们受到检索范式固有的两个根本限制。

（1）由于离散采样导致的固有定位误差。基于IR的方法缺乏中间特征交互，将相似性估计限制在孤立的表示上。此外，由于卫星图库是离散采样的，定位精度严格受到采样密度的限制。如图1(a)所示，稀疏采样（绿色点）不可避免地会导致较大的定位误差，而密集采样则会产生高昂的计算成本。

（2）高开销和缺乏端到端处理。基于IR的方法依赖于涉及昂贵预处理（图库生成）和后处理（相似性搜索）的多阶段流程，如图1(a)所示。这些瓶颈阻碍了实时推理。尽管像KNN这样的近似方法减少了计算量，但它们牺牲了精度，因此不适合高精度的无人机任务。

为了解决这些限制，我们提出了无人机参考定位（DRL），一种端到端的异构空间特征交互范式。如图1(b)的对比图所示，与解耦的IR方法不同，DRL在统一的框架内处理无人机查询和卫星搜索图。它预测一个空间概率热图，用于直接坐标推理。这种设计实现了完整的特征交互，消除了采样引起的误差，并通过去除复杂的预/后处理步骤简化了流程。

我们通过全面的实验评估了DRL。在数据方面，我们构建了具有挑战性测试配置的UL14数据集。在模型方面，我们设计了两种架构Post-Fusion和Mix-Fusion，以探索特征集成策略。性能使用米级精度（MA）和相对距离得分（RDS）进行评估。最后，为了确保稳健的收敛性，我们采用了随机尺度/偏移增强和带有负样本加权的平衡损失框架。

本工作的主要贡献总结如下：1.

我们提出了一种高效的异构特征交互方法，用于无人机自主定位任务，称为无人机参考定位（DRL），它以可学习的方式深度交互异构特征，并避免了复杂的预处理和后处理步骤。

2.

我们提出了两种架构Post-Fusion和Mix-Fusion

，并证明了深度特征交互比后期交互更有效。此外，我们引入了基于随机缩放和偏移的数据增强策略来增加训练多样性，并通过分析正负样本的数量和权重来增强平衡损失。

3.

我们构建了一个新的基准数据集UL14

，其中包括来自成对样本的数据集，以及两个评估指标：米级精度（MA）和相对距离得分（RDS）。

4.

所提出的DRL在定位精度（MA@20）上提高了9.4%，同时显著降低了时间和存储开销（分别为1/7和1/3）。最终，在一个3080Ti GPU上达到了100 FPS的运行速度。

部分摘录

地理定位数据集

地面到空中匹配：地理定位最初侧重于匹配地面和空中图像。早期研究[10]、[11]为使用公开资源构建成对数据集奠定了基础，将地面和空中视图链接起来。在此基础上，CVUSA[12]数据集将基于地面的全景图像与相应的卫星图像配对，而CAACT[13]通过引入空间信息（如方向图）进一步增强了CVUSA。最近，

定位方案

所提出的框架Drone Referring Localization（DRL）引入了一种新的无人机自主定位方法。据我们所知，这是第一个采用端到端解决方案的架构。为了清楚地说明DRL的创新之处，我们在3.1.1节提供了基于IR的方案的简要概述，然后在3.1.2节深入探讨了DRL的独特特征。

提出的UL14数据集

表1总结了代表性地理定位数据集的训练数据规模、采集平台、数据分布、定位目标和评估指标。UL14数据集具有以下特点：（1）双重视角：图像来自无人机和卫星视角。（2）成对训练数据：无人机和卫星图像被组织成对，在训练期间应用数据增强以增加多样性。（3）多种飞行高度：无人机图像

实施细节

在实验中，采用了AdamW优化器，权重衰减为5e-4。此外，我们采用了余弦退火学习率衰减计划，最小学习率为初始学习率的1/100。在训练阶段，无人机视角的图像分辨率设置为128×128像素，而卫星视角的图像默认格式为384×384像素。在推理阶段，汉宁窗口大小与WBL中的R设置相同。

定位性能

融合后处理

我们评估了三种融合方法——GC、SAF和CAF——如表5所示。在计算量和参数数量方面，SAF比GC多0.2 GMacs和0.3M个参数，而CAF略低于SAF。在推理速度方面，SAF明显慢于GC，也略慢于CAFGC在所有精度指标上始终优于CAF和SAF。这种反直觉的结果是由于输入数据的性质。在SOT中，基于注意力的融合

可视化

应用sigmoid函数后获得的输出热图表示响应强度的空间分布，较高的值表示较高的定位概率。我们对这些热图进行归一化和可视化，以分析模型行为，如图12所示，可以分为三种情况。在第1组和第2组中，Mix-Fusion结构产生了更明显和集中的热响应，歧义最小。这是由于其深度特征交互

局限性

仍有几个需要改进的领域：（1）高精度定位有限。每个输出热图像素表示的相对较大的空间距离限制了精细粒度的精度。未来的工作可以探索扩大输出热图或引入偏移学习模块来提高高精度定位。（2）对尺度和空间分布的敏感性。如图7和8(a)(b)所示，尺度和空间布局的变化会对性能产生负面影响。开发

结论和未来工作

本文介绍了一种高效的多源空间特征交互方法，即无人机参考定位（DRL），它不仅以可学习的方式与异构特征交互并克服了固有误差，还以端到端的方式简化了整个定位过程。同时，提出了两种模型结构Post-Fusion和Mix-Fusion，分别实现为双流和单流网络。实验表明

CRediT作者贡献声明

戴明：撰写——原始草稿，可视化，验证，方法论，调查，形式分析。郑恩辉：资源，项目管理。程文轩：可视化，方法论。陈家豪：调查，数据管理。冯振华：撰写——审阅与编辑，监督。杨万库：项目管理，资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（编号62276061和62436002）的支持。本工作还得到了东南大学先进海洋研究所研究基金（重大项目MP202404）的支持。本工作还得到了东南大学博士生创新能力提升计划（CXJH SEU 25125）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号