GeoRL：通过强化学习实现自适应分词，以提升遥感基础模型的性能

《Pattern Recognition》：GeoRL: Adaptive tokenization via reinforcement learning for remote sensing foundation models

【字体：大中小】 时间：2026年05月02日 来源：Pattern Recognition 7.6

编辑推荐：

　　衡阳何|乐张|策朱中国电子科技大学，清水河校区，西区西园大道2006号，高新区，成都，四川，611731，中国 **摘要** 视觉基础模型（VFMs）在将学习到的视觉表示从离散任务转移到其他任务方面取得了成功。然而，用于解释遥感图像的VFMs受到地球观测数据中异质

　　衡阳何|乐张|策朱
中国电子科技大学，清水河校区，西区西园大道2006号，高新区，成都，四川，611731，中国

**摘要**
视觉基础模型（VFMs）在将学习到的视觉表示从离散任务转移到其他任务方面取得了成功。然而，用于解释遥感图像的VFMs受到地球观测数据中异质属性的限制：空间尺度、语义复杂性和地理背景。为了解决这个问题，我们引入了GeoRL，这是一种自适应视觉分词框架，它将分词分配视为一个马尔可夫决策过程（MDP），并允许VFMs根据区域的信息密度动态决策分词分配。我们开发了一个轻量级的策略网络，该网络使用近端策略优化（PPO）进行训练，以学习最大化分词性能和计算效率的奖励函数组合。我们还提出了分层语义锚定（HSA）来解释学习到的分词策略。通过对四个成熟的基准数据集（DOTA、iSAID、LoveDA和xView）进行广泛实验，我们发现GeoRL在场景分类、语义分割和对象检测这三个任务上的表现优于所有其他竞争者，并且与统一分词技术相比，计算成本降低了47%–63%。GeoRL学到的策略可以直接用于其他类型的图像数据（例如SAR、多光谱图像），而无需重新训练，这表明GeoRL利用了所有遥感图像固有的空间推理模式，无论其模态如何。理论上，GeoRL在温和的假设下具有收敛性保证，并提供了关于在遥感领域学习策略时样本复杂性的见解。

**1. 引言**
地球观测（EO）卫星和无人驾驶航空系统（UAS）数量的增加导致了遥感图像（RSI）的大量增加，为自动化场景理解带来了新的机遇和挑战[1]。在大量自然图像数据集上训练的视觉基础模型（VFMs）被认为是视觉识别应用中的重大进展，特别是它们的零样本和少样本迁移能力[2]。不幸的是，由于遥感图像的独特特性（如极端的空间尺度变化、物体的任意方向以及领域特定的语义结构[3]、[4]），直接将现有的VFMs应用于RSI会引发重大问题。
与自然图像不同，RSI在图像内部的信息分布模式上存在根本差异[5]。例如，城市环境包含许多小型物体，如汽车、建筑物和各种基础设施，这需要高分辨率的分词来准确捕获各种类型的空间数据。相比之下，农业、水域和荒地具有相似的纹理类型，可以用较粗的分词来充分表示[6]，因此使用空间可变的分词策略可能会提供一种更高效的表示方式，而不会影响数据的准确解释能力。
视觉变换器（ViT）模型使用与大多数现有图像处理网络相同的固定大小块划分方法。这种“一刀切”的方法在与RSI领域相比时存在两个显著的低效率问题。首先，ViT模型在语义意义很小的区域浪费了大量处理能力。其次，分配给每个图像的块大小不一定与RSI领域内捕获的物体的异质大小相匹配，例如，航空图像中的目标从非常小的车辆（几个像素）到非常大的设施（数千像素）都有[7]。
关于自适应计算在视觉变换器有效设计方面的文献回顾揭示了多种选择动态分词的方法，这些方法可以提高视觉变换器的效率和效果。其中一些研究集中在学习停止和剪枝机制以减少计算开销上，但大多数现有研究仅限于自然图像分类，并未探讨遥感图像（RSI）的分词空间分布和多尺度语义与自然图像的差异。此外，由于自适应分词尚不能完全解释，因此在关键操作环境中使用这些方法需要所有决策都是完全透明的。为了实现基于自适应视觉分词过程的最优分词，引入了一个新的框架，称为GeoRL（地理空间强化学习），该框架将分词过程建模为马尔可夫决策过程（MDP）框架中的序列决策问题。基于这项研究的发现，以及与下游任务相关的目标和学习过程中开发的优化值之间的相互作用，可以创建出反映分词质量与其计算成本之间关系的适当分配策略。GeoRL框架包括三个相互关联的组件：（1）状态编码器，它使用多尺度特征集来表示输入数据的局部空间特征；（2）策略网络，它使用近端策略优化生成的随机策略来从状态表示中生成适当的动作（在此上下文中为分词动作）；（3）可解释性模块，称为分层语义锚定（HSA），它基于模型的层次结构产生人类可读的解释，说明为什么采取某个动作。

**2. 相关工作**
2.1. 遥感的视觉基础模型
在遥感领域，已经提出了多种基于VFMs的特定领域适应方法，利用了ViT[8]、DeiT[9]、Swin Transformer[10]和BEiT[11]架构的进步，例如RingMo[12]采用掩码图像建模进行基础模型预训练。最近的工作研究了针对特定任务的适应，包括语义分割[13]、变化检测[14]、对象检测[15]和显著对象检测[16]。这些特定任务的自适应表明VFMs在地球观测中取得了成功[17]；然而，它们都没有解决由于统一分词策略引起的效率低下问题。
2.2. 视觉变换器中的自适应分词
多尺度分词策略解决了图像中物体的不同尺度问题[18]、[19]。像A-ViT这样的方法使用累积置信分数进行自适应分词停止[20]，而TokenLearner从密集特征图中提取有价值的分词[21]。然而，大多数自适应分词方法都是针对常规数据集设计的，并未考虑遥感图像的独特属性，如极端的空间尺度变化、旋转不变性要求和异质土地覆盖分布[22]。在遥感应用领域，MSANet[19]、EMRT[23]和HRR[22]通过根据尺度变化对特征进行归一化来关注多尺度特征。然而，它们都没有提出使用序列决策来决定如何分配分词的挑战。最近，Cao等人[24]提出了他们在大型视觉语言模型中的视觉分词剪枝工作，作为可以使用PPO进行训练的MDP；然而，他们的重点是通用的语言模型（LVLM），而不是遥感图像的不同统计尺度。此外，现有方法缺乏可解释性机制[25]，这对于任务关键的地理空间应用至关重要。
2.3. 计算机视觉中的强化学习
在遥感领域，强化学习（RL）在复杂任务中实现了人类水平的控制[26]，并已应用于高光谱图像的波段选择[27]、变化检测[28]、多源分类[29]、视觉注意力和神经架构搜索[30]、[31]、[32]。最近的工作探索了用于高效视觉变换器的自适应分词减少。EViT[33]通过融合不关注的分词来重新组织分词，基于类别-分词注意力分数。ToMe[34]引入了一种结合相似分词的分词合并策略，无需重新训练，而DiffRate[35]提出了用于逐层分词剪枝和合并的可微压缩率。分词选择利用了强化学习技术，如策略梯度方法来开发空间自适应推理系统[26]；然而，这些方法都没有直接解决遥感应用带来的独特挑战（例如，不同的尺度或任意的物体方向）。Li等人[36]在2026年也发表了相关工作，应用群体相对策略优化来对齐遥感视觉语言模型中的推理。然而，他们的工作是在输出空间推理阶段，而不是像我们这样关注分词。尽管有这些工作，但没有研究将RL应用于遥感中视觉基础模型的自适应分词。本研究通过将自适应分词建模为马尔可夫决策过程（MDP），并采用针对地理空间数据特征定制的策略学习算法，填补了这一空白。

**3. 方法论**
3.1. 问题表述
设I（代表遥感图像）是一个H×W×C矩阵，其中H、W和C分别代表高度、宽度和光谱通道数。标准的ViT将I分割成N=HWP2个不重叠的P×P大小的块，创建块嵌入{zi}，对于i=1,…,N，其中zi是一个d维向量（zi∈Rd）。
传统的分词技术对所有块一视同仁，无论其内容如何，都分配相同的计算资源。这种方法不适合遥感图像处理，因为块之间的信息密度在空间上差异很大。设I(zi)表示第i个块中包含的信息。来自城市区域的信息通常很高，因为存在许多不同的小物体；相反，来自均匀区域（如水体）的块包含的信息很少。
自适应分词可以表述为一个马尔可夫决策过程（MDP），用以下元组表示：M=(S,A,P,R,γ)，其中S是状态空间，A是动作空间，P:S×A×S→[0,1]是转移概率函数，R:S×A→R是奖励函数，γ∈[0,1)是折扣因子。图1展示了所提出的GeoRL框架的总体架构，它整合了以下小节中描述的所有组件。

**下载：** 下载高分辨率图像（423KB）
**下载：** 下载全尺寸图像
图1. 所提出的GeoRL框架的总体架构（输入分辨率512×512，基础块大小P=16，N=1024个候选区域）。该流程包括：（1）输入处理阶段，分析异质和均匀区域的信息密度；（2）状态编码器?state，具有局部特征、全局上下文和进度分支；（3）策略网络πθ，使用变换器块进行动作分配；（4）动作空间A，具有分层分词动作（精细、中等、粗糙、跳过）；（5）奖励计算，平衡任务性能（α）、计算成本（β）和语义一致性（λ）；（6）HSA模块，通过分层语义锚定实现可解释性；（7）输出阶段，将自适应分词与视觉基础模型骨干集成以用于下游任务。

**3.2. 状态空间设计**
在决策时间戳t时编码在状态中的信息包括模型在分词时做出明智决策所需的所有空间上下文。为了实现这一目标，我们创建了一个多尺度的状态表示，它结合了局部纹理和全局语义信息：(1)st=?state(I,mt?1,t)，其中mt?1∈{0,1}N是一个二进制掩码，表示某个补丁是否在之前的任何时间被标记过，?state是负责编码状态的神经网络。我们的状态编码器结构为三个并行运行的分支：

**局部特征分支：**该分支基于候选补丁周围的小邻域生成关于纹理和边缘的统计数据：(2)flocal(i)=Conv3×3(I[i?k:i+k,j?k:j+k])，其中(r,c)表示候选补丁提议中心的行和列索引（r,c∈0,…,N?1），相对于补丁的坐标系，k表示补丁邻域的半大小单位，上标i表示使用光栅扫描顺序的补丁索引。

**全局上下文分支：**该分支通过使用全局平均池化和一个基本的注意力层将图像中的所有像素聚合到一个张量中来计算图像的全局上下文。(3)fglobal=Attention(GAP(Conv1×1(I)))。

**进度分支：**使用当前的标记状态来允许模型决定下一步该做什么：(4)fprogress=MLP([mt?1;t/T])，设T为最大决策步骤数。

为了计算状态的最终内部表示，我们将执行连接和投影：(5)st=LayerNorm(Linear([flocal;fglobal;fprogress]))。

3.3. 动作空间定义
在每个关于如何标记数据的决策点，我们使用动作空间A来描述我们可用的方法。我们将动作空间结构化为一个层次结构，以便在创建标记算法时实现多个级别的分辨率：(6)A={afine,amedium,acoarse,askip}。这四个函数代表不同级别的粒度标记。afine将区域划分为4×4的细粒度补丁，amedium划分为2×2的中等粒度补丁，acoarse用单个粗粒度补丁表示整个区域，askip表示不标记该区域，因为它具有非常均匀的性质。决策按光栅扫描顺序进行，每个基础区域不重叠，区域大小为P×P像素。ntokens由应用于不重叠基础区域的动作决定，每个基础区域的ntokens是确定的，对于细粒度（afine）、中等粒度（amedium）和粗粒度（acoarse），分别为ntokens∈{16,4,1,0}，对于无动作（askip）则没有动作。

选择每个动作的随机策略表示为πθ(a|st)，其中θ是神经网络中的权重向量，决定了我们的策略如何选择每个动作：(7)πθ(a|st)=Softmax(Wπst+bπ)。

3.4. 奖励函数设计
任务的奖励函数在性能质量和算法的计算效率之间提供了折中：(8)R(st,at)=α?rtask(st,at)?β?rcost(at)+λ?rconsistency(st,at)，其中α、β和λ分别代表任务性能、计算成本和决策一致性的相对重要性。
- **任务奖励。**任务奖励捕捉了标记决策对下游模型性能的贡献程度：(9)rtask(st,at)=ΔLtask(y,y?at)=Ltask(y,y?prev)?Ltask(y,y?at)，其中Ltask指的是与特定任务相关的损失（例如，分类的交叉熵损失和分割的交并比（IoU）损失）。在策略训练期间，VFM主干网络和任务头不会改变。状态估计y?at仅通过使用相应的标记化对冻结的任务头进行一次前向传播来生成；因此，不需要额外的计算来进行反向传播。因此，监督标签仅用于计算标量奖励信号，而不用于更新VFM主干网络。
- **成本奖励。**成本奖励根据采取该动作将生成的标记数量来惩罚：(10)rcost(at)=ntokens(at)Nmax，其中ntokens(at)表示由动作at生成的标记数量，而Nmax表示以这种方式可以产生的最大标记数量。如上所述，基于Transformer的注意力成本随n2的增加而增加，因此我们可以使用两者之比（ntokens(at)Nmax）作为一个近似的、可微分的度量来估计与完整Transformer相关的成本。表6中列出的端到端GFLOPs包括环境编码开销和与策略网络相关的开销。
- **一致性奖励。**一致性奖励激励选定的标记化在相邻补丁之间在语义上相似：(11)rconsistency(st,at)=∑j∈N(i)1[at(i)=at?1(j)]?sim(fi,fj)，其中N(i)定义为补丁i的空间邻居集。sim(?,?)表示两种类型特征之间的相似性。补丁i邻域中的所有邻居j（由邻域集N(i)定义），在光栅顺序中位于补丁i之前，将在它们的光栅扫描步骤(t-1)接收到它们的动作。这意味着对于所有位于补丁i之前的邻居，at?1(j)已经定义。对于尚未处理的邻居，我们将它们的at?1(j)设置为默认的中值动作。

3.5. 策略网络架构
策略网络被命名为πθ。这种类型的模型根据其状态表示输出动作分布，这意味着我们设计了策略网络以尽可能减少推理开销：(12)πθ(a|s)=SoftmaxMLPπTransformerBlock(s)。在我们的设计中，我们采用了模块化的TransformerBlock版本，允许网络使用自注意力机制根据Block包含的不同输入的空间分布来做出上下文感知的决策：(13)Q,K,V=WQs,WKs,WVs。(14)Attention(Q,K,V)=SoftmaxQK?dkV。有一个称为V?的价值网络。这个价值网络也使用了策略网络使用的相同TransformerBlock；然而，它有一个不同的输出头，用于支持模型生成的学习策略：(15)V?(s)=MLPVTransformerBlock(s)。

3.6. 通过PPO进行策略优化
选择用于创建我们策略最大性能的算法是Proximal Policy Optimization (PPO) [37]，它改进了基于价值的方法，它能够基于经验的积累而不是单个经验来稳定地更新我们的策略，结合了策略更新方程的泛化和一种用于形成更新稳定性的方法：(16)LPPO(θ)=E?t[min(rt(θ)A?t,clip(rt(θ),1??,1+?)A?t]，使用rt(θ)=πθ(at|st)πθold(at|st)表示在给定状态st下选择动作at的似然比，A?t表示使用广义优势估计（GAE）计算的估计优势函数：(17)A?t=∑l=0∞(γλ)lδt+l，其中δt=rt+γV?(st+1)?V?(st)用作时间差误差。完整的训练目标使用了来自策略更新的策略损失、价值函数估计的价值损失和策略的熵奖励，如(18)L(θ,?)=LPPO(θ)+c1Lvalue(?)?c2H[πθ]所示，其中Lvalue(?)=(V?(st)?Vttarget)2表示价值损失，H[πθ]表示策略熵，c1、c2是由用户设置的超参数（见图2）。

下载：下载高分辨率图像（444KB）
下载：下载全尺寸图像

图2. GeoRL框架的详细架构。(1) 输入处理阶段从遥感图像中提取信息密度图。(2) 状态编码器采用三分支架构：Conv块用于局部特征，带有注意力的GAP用于全局上下文，MLP块用于进度跟踪，通过LayerNorm连接。(3) 策略网络利用带有多头自注意力和残差连接的TransformerBlocks，通过策略头输出动作分布，通过价值头输出状态值。(4) 动作空间定义了四种计算成本逐渐降低的分层标记动作：afine（4×4补丁），amedium（2×2补丁），acoarse（1×1补丁）和askip（无动作）。(5) 奖励函数平衡任务性能（α）、计算成本（β）和空间一致性（λ）。(6) 自适应标记化产生的标记数量与均匀基线相比是可变的，输入到VFM主干网络用于下游任务。(7) HSA模块通过策略-语义对齐提供可解释性。

3.7. 分层语义锚定（HSA）
为了为标记化中做出的决策提供可解释的理由，我们提出了一种通过创建分层语义锚定（HSA）方法将标记化决策与语义类别锚定的方式。HSA将代理学习的策略映射到以下定义的三层语义类别层次结构：语义层次构建。三层语义类别层次H={C1,C2,C3}包括三个级别的遥感类别组织。第一层由称为超类（即自然、建筑、交通和水）的广泛组组成，由第1层表示。第二层（类别）包括更具体的类别，如森林、农业、住宅、商业、道路、港口等，具体取决于地区。第三层（子类）由高度具体的类别组成，如落叶林、稻田、单户住宅等。策略-语义对齐。给定一个动作a，我们推导出该标记动作的语义概况pa，它是一个向量，其中每个元素都是来自有限集合C的值。(19)pa=1|Da|∑(s,a′)∈Dac(s)?1[a′=a]，其中Da = 时间a的动作中的状态-动作对，c(s)是语义类别分布的向量，其中每个语义类别组件代表给定状态下可用的语义类别的总数。

解释生成。可以使用HSA通过识别哪个语义类别的分布c(s)最高来生成人类可读的解释：(20)Explain(a,s)=Templateargmaxcpa[c],a

3.8. 理论分析
基于我们框架中策略的收敛分析和样本复杂性，我们提出了GeoRL的理论框架。

**定理1 收敛保证**
更具体地说，我们对理论框架提出了以下假设：(A1) S的紧凑性；(A2) R的Lipschitz连续性，使得R具有常数LR的Lipschitz连续属性；(A3) Πθ中的策略具有有界的梯度；然后我们可以建立GeoRL的收敛属性：(21)‖?θJ(πθ)‖≤?，在最多OLR2?2(1?γ)4次迭代内。证明基于PPO的收敛分析和函数逼近。在假设(A3)下，策略梯度存在且有界。剪辑机制限制了连续策略之间的KL散度，即DKL(πθk+1∥πθk)≤?2。通过性能差异引理和Lipschitz假设(A2)，我们获得了期望的单调改进。收敛率来自对平滑非凸函数的标准随机梯度下降分析。□这三个假设A1–A3在GeoRL设置中是可验证的。(A1) S的紧凑性是设计保证的，因为所有状态特征都被限制为有界且?2规范化。(A2) R的Lipschitz连续性成立，因为Ltask对于交叉熵和IoU目标都是有界且平滑的。(A3) PPO剪辑机制确保了有界的策略梯度，它通过比率限制|?θlogπθ|在[1??,1+?]范围内。

**定理2 样本复杂性**
为了以至少1?δ的概率获得?最优策略，GeoRL需要的样本数量受到以下限制：(22)N≥O|S∥A|H3?2(1?γ)3log|S∥A|δ，其中H是有效范围。证明利用了Hoeffding不等式对经验奖励估计的均匀收敛性，结合了对策略类Πθ的覆盖论证。对于我们的表格MDP设置，由于dim(Πθ)=O(|S∥A|)，应用联合界限得出了所述的样本复杂性。□定理1在假设A1–A3下建立了神经PPO策略的收敛性，这些假设在实践中大致得到满足。定理2是在表格MDP设置中推导出来的，并提供了样本需求的说明性下限；它不是用于GeoRL中使用的神经函数近似的直接样本复杂性的严格界限。

3.9. 算法细节
GeoRL的完整训练和推理过程分别在算法1和算法2中呈现。下载：下载高分辨率图像（210KB）
下载：下载全尺寸图像
下载：下载高分辨率图像（931KB）
下载：下载全尺寸图像

图3. GeoRL框架的完整实验和测试流程。该流程的四个功能层如下：流程的第一层是数据集来源和特征（A1-A6），其中包含来自DOTA的定向对象检测信息、iSAID用于实例分割、LoveDA用于城市/农村环境中的语义分割、xView用于细粒度检测、包括光学、SAR和多光谱数据在内的跨模态数据，以及使用信息密度分析来表征空间异质性。流程的第二层是数据处理和自适应机制（B1-D4），包含数据分割策略、三分支状态编码器架构、使用PPO优化的MDP训练循环、复合奖励函数架构、双头网络架构和训练配置。第三层（E1-E4）通过推理流程解决推理评估和验证，多任务指标的评估标准、计算效率的评估，以及跨模态传输验证（通过比较使用任何模态数据创建的预测）。流程的最后一层（F1-H4）通过示例研究展示了定性可视化和分析；动作空间消融；可视化检测和分割结果的比较；标记分配的自适应可视化；以及策略和语义对齐之间关系的HSA解释。

4. 实验
4.1.实验设置
图3提供了我们实验设计和测试流程的全面概述，展示了从数据源到自适应分词机制，再到多任务评估和定性分析的完整工作流程。数据集：我们使用了四个广泛认可的遥感基准测试来评估GeoRL：
DOTA1：一个大规模的航空图像对象检测数据集，包含2806张图像，涵盖15个类别的188,282个实例。图像尺寸从800 × 800像素到20,000 × 20,000像素不等。
iSAID2：一个包含655,451个对象实例的实例分割数据集，涵盖15个类别，分布在2806张高分辨率图像中，提供像素级注释。
LoveDA3：一个土地覆盖语义分割数据集，包含5987张图像，地面分辨率为0.3米，包含7个类别（城市和农村）的166,768个标注对象。
xView4：一个大型对象检测数据集，包含超过100万个对象实例，属于60个类别，来自WorldView-3卫星图像，地面分辨率为0.3米。

基准方法：我们与以下最先进的方法进行了比较：
- 视觉基础模型，如ViT-L/14、DINOv2 [2]、SAM、RemoteCLIP [3] 和 SatMAE [38]；
- 自适应分词方法，包括A-ViT、AdaViT、DynamicViT 和 TokenLearner；
- 遥感模型，如FarSeg、SegFormer、Oriented R-CNN 和 ReDet。所有方法（包括基准自适应分词方法）都使用相同的输入分辨率（512 × 512）、数据增强流程、优化器和头部（仅针对检测任务）进行了重新训练；所有数据集的结果已在表1、表2、表3、表4、表5、表6中重现并列出。

评估指标：我们应用了特定于任务的指标：
- 对于对象检测，遵循DOTA官方评估协议，在IoU=0.50时使用mAP；
- 对于语义分割，遵循iSAID官方协议，在标准忽略背景的设置下使用mIoU；
- 对于场景分类，使用OA（总体准确性）；
- 对于计算性能，使用FLOPs/推理时间。
所有报告的结果都使用单尺度、单次运行推理，除非表注中另有说明，否则不进行多尺度测试、测试时增强或滑动窗口评估。

网络架构：Policy Network架构包括：
- 状态编码器：三个卷积层（64、128、256通道），带有ReLU激活函数、批量归一化和全局平均池化；
- Transformer块：四个Transformer块，隐藏维度为256，4个注意力头，前馈维度为1024，丢弃率为0.1；
- Policy头：一个线性层，输出4个动作的logits；
- Value头：两个线性层（256→128→1），带有ReLU激活函数。

训练配置：我们使用AdamW优化器（β1=0.9，β2=0.999），学习率为3×10?4，采用余弦退火，权重衰减为0.01，批量大小为32（每个GPU 8张图像×4个GPU），50个训练周期，每次迭代4个PPO周期，梯度裁剪为0.5，并使用FP16混合精度训练。

4.1.1. DOTA上的对象检测
DOTA-v1.0在表1中展示了对象检测结果，GeoRL实现了最高的mAP为79.84%，比表1中最强的先前方法ReDet（79.20%）高出0.64%，比Oriented R-CNN（75.87%）高出3.97%，并且显著优于其他定向检测方法，包括Gliding Vertex [39]、最近的边界感知方法[40]和渐进式实例增强方法[41]。除了实现最高准确性外，GeoRL还将ViT-L基线的计算成本降低了52.3%。对于小型和结构复杂的对象，GeoRL在AP（平均精度）方面有最显著的提升。例如，与ReDet相比，GeoRL在桥梁（BR）和直升机（HC）上的AP分别提高了1.62%和3.48%。这表明细粒度的自适应分词技术能够更好地表示小型对象，而这些对象使用统一分词技术通常表示效率较低。

表1. DOTA-v1.0测试集上的对象检测结果。↑表示更好。最佳结果以粗体显示。

方法
Backbone
PLBDBRGTFSVLVSHTCBCSTSBFRAHASPHC
mAP
↑
Faster R-CNN
ResNet-10
188.4
47
3.06
44.86
59.09
73.25
71.49
77.11
90.84
78.94
83.90
48.59
62.95
62.18
64.91
56.18
69.05
RetinaNet
ResNet-10
188.67
77.62
41.81
58.17
74.58
71.64
79.11
90.29
82.18
74.32
54.75
60.60
62.57
69.67
60.64
68.43
RoI Trans.
ResNet-10
188.64
78.52
43.44
75.92
68.81
73.68
83.59
90.74
77.27
81.46
58.39
53.54
62.83
58.93
47.67
69.56
Gliding Vertex
ResNet-10
189.64
85.00
52.26
77.34
73.01
73.14
86.82
90.74
79.02
86.81
59.55
70.91
72.94
70.86
57.32
75.02
O-RCNN
ResNet-10
189.46
82.12
54.78
70.86
78.93
83.00
88.20
90.90
87.50
84.68
63.97
67.69
74.94
68.84
52.28
75.87
ReDet
ReResNet-50
88.81
82.48
60.83
80.82
78.34
86.06
88.31
90.87
88.77
87.03
68.65
66.90
79.26
79.71
58.97
79.20
LSKNet
LSKNet-S8
9.64
85.20
57.45
79.63
80.12
85.78
88.75
90.88
86.94
86.23
66.18
69.45
78.12
76.54
59.82
78.71
Oriented DETR [42]
ResNet-50
89.52
84.67
58.34
80.12
79.89
85.23
88.45
90.85
87.12
86.45
67.23
69.89
78.56
77.12
60.23
79.10
ViT-L/14
ViT-L
88.91
80.15
51.23
72.45
77.34
82.18
87.45
90.56
85.23
83.45
61.34
65.78
73.12
67.23
49.56
74.40
DINOv2
ViT-L
89.12
81.34
53.67
74.56
78.45
83.56
88.23
90.67
86.45
84.67
63.45
67.23
74.89
69.34
52.45
75.87
RemoteCLIP
ViT-L
89.45
82.67
55.89
76.78
79.56
84.78
88.56
90.78
87.23
85.78
65.12
68.45
76.23
71.45
54.67
77.16
A-ViT
ViT-B
88.34
79.45
49.78
70.23
75.89
80.34
86.23
90.12
83.45
81.78
58.67
63.45
71.23
65.12
47.23
72.75
DynamicViT
ViT-B
88.56
79.89
50.34
71.45
76.45
81.23
86.78
90.23
84.12
82.34
59.45
64.23
72.12
66.23
48.34
73.45
GeoRL（我们的方法）
ViT-L
90.12
85.78
62.45
82.34
81.23
87.45
89.12
90.92
89.34
87.89
70.23
71.56
80.34
80.89
62.45
79.84

4.2. iSAID和LoveDA上的语义分割
GeoRL在分析的三个数据集中产生了最高质量的语义分割结果，优于最近的基于Transformer的方法，如UNetFormer [43]。表2显示了原始iSAID数据集和LoveDA数据集在语义分割准确性方面的比较。如表2所示，GeoRL为每个数据集产生了最佳结果。对于iSAID数据集，GeoRL产生的平均交并比（mIoU）为68.92%，比该数据集的FarSeg基线提高了5.24%。对于LoveDA数据集，GeoRL在城区获得了55.67%的mIoU，在农村地区获得了47.89%的mIoU，比以前的方法提高了大约3.8%到4.5%。

表2. iSAID（Val）和LoveDA（Test）上的语义分割结果。mIoU（%）以粗体显示。最佳结果。

方法
Backbone
Params
iSAID
Categories
mIoU
↑
空单元格
空单元格
空单元格
PLSHSTBDTCBCGTFBRLVSVHCSPRASBFHA
空单元格
FCN
ResNet-50
35
M
78.26
4.57
5.37
3.88
2.16
2.47
4.53
1.25
4.34
9.84
2.15
1.25
5.44
8.95
6.35
6.67
PSPNet
ResNet-50
48
M
80.56
6.77
7.47
5.68
4.36
4.87
6.23
3.85
6.75
2.14
4.65
3.85
7.95
1.35
8.75
8.96
DeepLabv3+
ResNet-10
16
2M
82.36
8.97
9.17
7.48
5.86
6.57
8.13
5.65
8.95
4.34
6.85
5.65
9.85
3.26
0.56
0.85
FarSeg
ResNet-50
31
M
84.17
0.58
0.87
8.98
7.26
8.17
9.63
7.46
0.75
6.24
8.55
7.36
1.55
4.96
2.36
3.68
SegFormer
MiT-B
22
M
83.86
9.88
0.27
8.38
6.56
7.47
9.13
6.85
9.85
5.44
7.65
6.56
0.85
4.16
1.66
2.91
UNetFormer
ResNet-18
12
M
85.27
1.38
1.57
9.68
7.86
8.98
0.33
8.26
1.45
7.14
9.35
8.16
2.35
5.76
3.16
4.65
DC-Swin
Swin-B
89
M
86.17
2.48
2.38
0.48
8.56
9.78
1.13
9.16
2.35
8.05
0.25
9.06
3.25
6.66
4.06
5.79
ViT-L/14
ViT-L
30
7M
84.57
0.18
0.57
8.68
6.86
7.87
9.43
6.56
0.25
5.84
7.95
6.86
1.15
4.46
1.96
3.22
DINOv2
ViT-L
30
7M
85.87
1.68
1.87
9.88
7.96
9.18
0.63
8.46
1.75
7.44
9.65
8.46
2.65
6.06
3.46
5.01
SAM
ViT-H
63
6M
86.37
2.18
2.18
0.18
8.26
9.48
0.93
8.86
2.05
7.74
9.95
8.76
2.95
6.36
3.76
5.41
A-ViT
ViT-B
86
M
83.26
8.57
9.27
7.18
5.66
6.27
8.03
4.65
8.55
4.04
6.25
5.25
9.55
2.86
0.26
1.25
TokenLearner
ViT-B
88
M
83.86
9.27
9.87
7.88
6.26
6.97
8.73
5.45
9.25
4.74
6.95
5.96
0.25
3.56
0.96
1.94
GeoRL（我们的方法）
ViT-L
31
M
87.97
4.58
4.28
2.38
9.67
1.88
3.14
2.66
4.86
0.55
3.46
1.66
5.85
9.26
6.96
8.92

表3. LoveDA测试集上的语义分割结果。

表4. xView上的对象检测
表4总结了我们在xView数据集上的结果。XView数据集中的60个对象类别各自具有独特的特征，为我们提供了对自然世界不同领域的洞察。我们的方法GeoRL

热点排行