SBG-DDN：一种基于语义边界引导的动态检测网络，用于遥感图像中小型输电塔的检测作者：程坤（Kun Cheng）、崔云鹤（Yunhe Cui）、刘一帆（Yifan Liu）、尹鹏宇（Pengyu Yin）、江宇（Yu Jiang）、刘宁哲（Ningzhe Liu）、尹哲（Zhe Yin）、吴家平（Jiaping Wu）、赵同刚（Tonggang Zhao）和谭峻祥（Junxiang Tan）

《Remote Sensing》：SBG-DDN: Semantic Boundary-Guided Dynamic Detection Network for Small Transmission Tower Detection in Remote Sensing Images Kun Cheng, Yunhe Cui, Yifan Liu, Pengyu Yin, Yu Jiang, Ningzhe Liu, Zhe Yin, Jiaping Wu, Tonggang Zhao and Junxiang Tan

【字体：大中小】 时间：2026年05月11日 来源：Remote Sensing 4.1

编辑推荐：

　　亮点主要研究发现是什么？我们提出了SBG-DDN，这是一种基于语义边界的动态检测网络，用于在遥感图像中检测小型输电塔。该网络结合了基于语义边界的特征表示、动态检测和结构感知的定位技术。通过集成双主干网络设计、语义边界融合模块（SBFM）、动态语义边界优化头（DSBOH）和

　　亮点

主要研究发现是什么？

我们提出了SBG-DDN，这是一种基于语义边界的动态检测网络，用于在遥感图像中检测小型输电塔。该网络结合了基于语义边界的特征表示、动态检测和结构感知的定位技术。通过集成双主干网络设计、语义边界融合模块（SBFM）、动态语义边界优化头（DSBOH）和自适应结构感知的输电塔IoU（ASTIoU）损失函数，SBG-DDN在SRSPTD数据集上实现了74.3%的mAP@0.5和35.1%的mAP@0.5:0.95的准确率，并在PTTOD数据集上也展现了良好的性能。

主要研究发现的意义是什么？

这项研究验证了在遥感图像中同时建模全局语义先验和局部边界敏感细节对于检测小型输电塔的有效性。所提出的框架和PTTOD数据集为在多样化地理环境中检测小型、稀疏且结构独特的目标提供了有用的参考。

摘要

在遥感图像中准确检测小型输电塔对于低空飞行安全和电网监控至关重要，但由于复杂的背景、弱目标响应和严重的特征淹没现象，这仍然是一个挑战。为了解决这些问题，我们提出了一个基于语义边界的动态检测网络（SBG-DDN），它将基于语义边界的表示框架与动态检测和定位优化方案相结合。具体来说，该方法结合了一个冻结的DINOv3主干网络来提供全局语义先验，以及一个CSPDarknet主干网络来捕获局部边界敏感的细节，并通过语义边界融合模块（SBFM）进一步增强了它们之间的交互。此外，引入了动态语义边界优化头（DSBOH）和自适应结构感知的输电塔IoU（ASTIoU）损失函数，以提高对稀疏和细长输电塔的多尺度特征适应性和几何感知定位能力。为了支持这一领域的更广泛评估，我们构建了电力传输塔对象检测（PTTOD）数据集，该数据集涵盖了多个国家和多样的地理环境。在公开的SRSPTD数据集和提出的PTTOD数据集上的实验结果证明了所提方法的有效性。在SRSPTD数据集上，SBG-DDN达到了74.3%的mAP@0.5和35.1%的mAP@0.5:0.95，性能超过了现有的最先进检测器。

1. 引言

人工智能（AI）、5G通信和高质量定位技术的迅速发展加速了无人机（UAV）系统的发展。这种融合也促进了低空经济的出现[1,2]。然而，向三维低空操作的转变对空域安全和管理带来了重大挑战。在这种情况下，增强的空间感知和动态风险意识对于安全操作至关重要。因此，准确检测低空障碍物和实时避障能力成为了关键技术问题，因为障碍物检测性能直接影响到低空运输及相关操作的安全性和可靠性[3,4]。

遥感技术由于其广泛的空间覆盖范围和多维感知能力，为低空障碍物检测提供了一种有前景的方法[5]。通过利用来自卫星、飞机或UAV平台的高分辨率图像，遥感能够对潜在的低空障碍物进行大面积观察。与传统方法相比，遥感数据同时捕捉了障碍物的物理属性和空间关系，从而为UAV航线规划和风险评估提供了定量输入[6,7]。这些优势使得遥感图像成为在复杂环境中进行大规模低空障碍物检测的合适数据源。

精确检测电力设施，特别是高压输电塔，已成为确保低空飞行安全的重要任务[8,9]。虽然传统的现场调查成本高昂且动态覆盖范围有限，但从遥感图像中自动化检测输电塔面临着巨大挑战，因为这些目标具有中空的格子结构和高纵横比。与车辆或储罐等密集物体不同，输电塔由稀疏且不连续的金属框架组成。因此，标准的目标检测算法往往失败，因为塔结构只占据了边界框的一小部分，而周围的植被、地面和其他背景元素主导了视觉响应，导致特征淹没。此外，塔的细长几何形状使它们对错位非常敏感。传统的交并（IoU）指标难以有效惩罚这种细目标的形状偏差，经常将它们与树木或杆子等垂直背景 clutter 混淆。这些结构特性需要更合适的定位策略来改善几何对齐。

电力线路复杂的部署环境进一步加剧了检测问题。如图1所示，输电塔通常位于地形崎岖、高程变化明显的地方，森林覆盖率高的地区，或者靠近背景杂乱的城市和农村地区。多变的地形限制了观察条件并引入了几何畸变，而阴影和遮挡则产生不完整或模糊的塔图像。此外，季节性植被生长、天气变化以及由于环境侵蚀造成的长期结构变化随着时间的推移改变了塔的外观，进一步增加了学习稳定和具有辨别力的特征的难度。因此，可靠的输电塔检测需要对背景干扰、外观变化和部分遮挡具有更强的鲁棒性。

近年来，基于深度学习的计算机视觉在电力设施检测方面取得了实质性进展，特别是在输电塔的自动识别和地理定位方面[10,11]。然而，现有研究仍然主要依赖于近距离无人机图像[12,13,14]，而在大规模遥感图像中小型输电塔的检测仍然相对较少被探索。此外，许多现有方法主要依赖于局部外观线索，并没有充分利用遥感图像中可用的场景级语义上下文和全局结构信息。

尽管取得了这些进展，但在遥感图像中检测小型输电塔仍然面临明显的性能瓶颈。主要难点在于语义上下文和局部边界细节之间的多尺度协调不足。在复杂的遥感场景中，可靠检测需要语义线索来抑制背景干扰，并利用边界敏感的细节来支持精确定位，特别是对于小型和细长的目标。然而，现有方法通常采用静态的特征分配策略[10,15,16]，这些策略并没有明确地在不同尺度之间平衡这些互补线索。结果，检测器往往无法学习出足够具有辨别力和尺度适应性的小型输电塔表示。

这一限制与目标特性和当前模型设计都有关。小型输电塔在图像中只占非常小的部分；包含稀疏的辨别线索；并且容易受到地形阴影、植被和建筑物杂乱的影响。在模型层面，有两个问题尚未解决。首先，不同尺度之间语义特征和边界特征的交互仍然不足。特征金字塔设计提供了基本的尺度适应性，但它们往往缺乏明确指导来协调局部边界细节与全局上下文，这使得精确定位变得困难。其次，优化过程缺乏有效的监督，以鼓励语义和边界信息的一致使用。仅在特定任务数据上训练的模型因此倾向于过度依赖局部像素级线索，并难以学习目标结构与场景上下文之间的稳健关联。

最近在视觉预训练方面的进展为解决这些限制提供了有希望的方向。特别是，DINO家族中的自监督模型利用视觉变换器和注意力机制来学习稳健的全局语义表示。这样的表示可以补充传统CNN主干网络提取的细粒度局部特征。然而，当前预训练模型在输电塔检测中的应用通常仅限于简单的主干网络初始化或直接的特征重用，它们并不明确支持小型目标检测的语义和边界协作。这激发了我们引入一个框架的动机，该框架结合了预训练的语义先验和自适应特征融合及定位优化，用于遥感图像中的小型输电塔检测。

另一个实际限制是现有的输电塔数据集主要面向航空图像，这限制了在大规模遥感条件下的地理多样性和其他更广泛的评估。尽管航空图像提供了高空间分辨率，但其获取成本通常较高且空间覆盖范围有限。相比之下，卫星图像可以提供更广泛的覆盖范围和更丰富的场景多样性，这对于评估模型在不同地理环境中的鲁棒性很有价值。这也激发了构建一个专门的基于卫星的输电塔数据集以进行更广泛基准测试的必要性。

为了解决上述限制，我们提出了SBG-DDN，这是一种用于在遥感图像中检测小型输电塔的基于语义边界的动态检测网络。具体来说，我们引入了一个基于语义边界的表示框架，该框架结合了冻结的DINOv3特征来提供全局语义先验，以及CSPDarknet特征来捕获局部边界敏感的细节，并通过语义边界融合模块（SBFM）进一步增强了它们之间的交互。此外，我们设计了一个动态语义边界优化头（DSBOH）和自适应结构感知的输电塔IoU（ASTIoU）损失函数，以提高对稀疏和细长输电塔的多尺度特征适应性和定位精度。最后，我们构建了PTTOD数据集，这是一个基于卫星的基准数据集，具有更广泛的地理多样性，以支持对遥感图像中输电塔检测的更全面评估。

2. 相关工作

2.1. 基于深度学习的检测

基于深度学习的对象检测已经从早期的两阶段框架发展到单阶段和基于Transformer的检测器。两阶段方法，如Fast R-CNN和Faster R-CNN[17,18]，建立了提案生成和精细定位的基本范式。单阶段检测器，如SSD[19]和YOLO系列[20,21,22,23,24,25,26,27,28,29,30,31]，进一步提高了推理效率，并在实时检测场景中得到了广泛应用。最近，基于Transformer的检测器，包括Deformable DETR[32]、RT-DETR[33]、RT-DETRv2[34]、DEIM[35]和Position-DETR[36]，在特征交互和定位精细化方面表现出了强大的能力。这些发展为对象检测提供了通用技术基础。然而，在遥感图像中检测小型对象仍然具有挑战性，因为目标响应弱、尺度变化大且背景干扰复杂。

2.2. 遥感图像中的电力基础设施检测

遥感图像中的电力基础设施检测已经从传统的视觉解释和粗略的统计估计发展到基于深度学习的数据驱动分析。随着遥感图像理解能力的发展，自动检测已成为定位与电力相关的结构和支持大规模基础设施监控的有效方法。早期的通用检测器为这项任务奠定了基础，但由于输电塔通常较小、稀疏且在复杂场景中结构独特，因此检测它们仍然具有挑战性。

最近的研究越来越多地关注针对输电塔和电力基础设施检测的任务导向改进。代表性例子包括SCAResNet[15]（专为微型输电和配电塔设计）；LSKF-YOLO[16]（引入了适用于高分辨率卫星图像的大选择性内核）；YOLOv9-GDV[37]；EP-YOLOv8[38]；YOLO-Remote[39]；以及基于RetinaNet的输电走廊检测[40]。GridTracer[11]进一步结合了检测和分割，以支持图级电力网络表示，而PGRID[10]则探索了在具有挑战性环境中的高分辨率航空图像的电网重建。这些研究表明，输电塔检测受益于特定于任务的架构调整，超出了通用对象检测器的范围。

同时，这个问题与遥感中小型对象检测密切相关。这一领域的最新工作强调了轻量级设计、浅层特征增强、多尺度自适应融合和面向小型对象的优化。例如，SCM-YOLO[41]通过空间局部信息增强、自适应多尺度特征融合和全局特征感知来改进小型对象检测。SEMA-YOLO[42]加强了遥感图像中轻型小型对象的浅层表示和跨尺度交互。DCEDet[43]通过结合双重对比度特征增强和动态距离测量来增强小型对象检测，而[44]中提出的多尺度特征提取和信息融合网络进一步强调了将全局语义信息分布到不同预测分支的重要性。这些研究表明，有效的特征融合和尺度感知表示学习对于改进遥感中小型对象检测至关重要。

尽管取得了这些进展，大多数现有研究仍然专注于通用特征增强、主干网络修改或解码器精细化。相对较少关注在遥感图像中协调使用场景级语义上下文和局部边界敏感细节来检测小型输电塔。此外，当前检测流程中对稀疏和细长塔结构的精确定位仍然不够充分。

2.3. 视觉基础模型和基于DINO的特征

最近的视觉基础模型通过提供比传统CNN主干网络更强的语义先验，为遥感检测创造了新的机会。与仅在特定任务标记数据上训练的检测器相比，大规模的自监督模型可以学习更多可移植的视觉表示，并在复杂场景中提高鲁棒性。这在小型传输塔检测中尤为重要，因为目标线索稀少且容易被杂乱的背景所掩盖。在这些模型中，DINOv3因其强大的语义表示能力和在有限监督下生成密集视觉特征的能力而受到越来越多的关注[45]。最近的研究开始探索其在下游任务中的应用。在遥感领域，PeftCD[46]使用DINOv3进行参数高效的微调来进行变化检测，而DEIMv2[47]则结合了基于DINOv3的骨干网络和特征适应模块用于实时目标检测。其他工作，如SegDINO[48]和MedDINOv3[49]进一步表明，DINOv3特征支持密集预测任务中的多尺度表示和细粒度结构理解。这些研究表明，DINOv3是下游视觉识别的有前途的全局语义先验来源。一些研究工作采用了CLIP风格的视觉-语言模型（VLMs）用于遥感任务。例如，Liu等人[50]利用CLIP的语义先验来改进遥感变化标注，展示了视觉-语言预训练在遥感理解中的潜力。最近，Chen等人[51]将CLIP集成到一个基于扩散的框架中用于小型目标检测，表明语义指导在数据量较少的情况下能够提升检测效果。同时，还开发了特定于遥感的CLIP变体，如RemoteCLIP和Git-RSCLIP，以增强领域特定的视觉-语言对齐。这些模型通过图像级别的对比学习进行预训练，在跨模态检索和零样本分类等任务中展示了强大的语义对齐能力。尽管CLIP风格的视觉-语言模型在遥感任务中显示出很强的潜力，特别是在图像-文本语义对齐、检索、标注和零样本识别以及低数据泛化方面，但它们的预训练目标主要集中在全局图像级别的语义对应上。这一特性对于语义层面的理解很有价值，但并不完全符合小型传输塔检测的需求，因为在小型传输塔检测中需要密集的、空间精确的、对边界敏感的特征表示。在这种任务中，传输塔通常较小、稀疏且结构不连续，它们的视觉线索容易被植被、建筑物立面和其他背景结构所掩盖。因此，直接使用CLIP风格的ViT模型作为固定骨干可能需要额外的任务特定微调或特征适应来恢复细粒度的局部细节，这会增加额外的数据和计算成本。相比之下，DINOv3提供了密集且空间一致的自我监督视觉表示，使其更适合作为我们框架中的固定语义先验分支。因此，我们采用DINOv3来提供全局语义指导，同时使用可训练的CSPDarknet分支来捕捉局部对边界敏感的结构细节。这种设计更好地满足了小型传输塔检测的密集定位需求。

然而，目前对DINOv3的使用仍然主要限于特征重用、轻量级适应或多尺度特征转换。对于遥感图像中的小型传输塔检测，如何将预训练的语义先验与局部对边界敏感的特征明确定协调以实现复杂背景下的精确定位，这方面的探索仍然有限。这一限制直接促使我们使用固定的DINOv3骨干作为语义先验分支，并在提出的框架中将其与局部结构特征和自适应定位模块结合。

3. 材料与方法
3.1. 骨干网络架构
为了有效地在复杂的遥感环境中检测小型传输塔，我们提出了一个双骨干网络架构，该架构结合了CSPDarknet来提取局部对边界敏感的细节，以及DINOv3来提供全局语义先验。CSPDarknet高效地提取细粒度的结构特征，而固定的DINOv3骨干网络利用其视觉Transformer（ViT）架构来捕捉长距离的语义依赖性，这有助于减轻小型目标检测中的特征淹没问题。CSPDarknet分支作为边界信息的主要提取器，采用分层结构并利用跨阶段部分（CSP）连接来优化梯度流并最小化计算冗余。这种设计确保网络保留了精确定位小型目标（如传输塔）所需的高分辨率空间细节。与CNN分支并行，DINOv3骨干网络提供全局语义指导。DINOv3通过采用多损失目标和Gram锚定来推进自我监督学习，以在大规模未标记数据集上稳定训练，生成通用的视觉表示。至关重要的是，我们将DINOv3骨干网络保持在一个固定的状态。虽然直接将自然图像预训练模型应用于遥感可能会出现领域差异问题，但冻结权重可以保留从大量数据中学到的语义先验，防止在有限的具体数据集上微调大型模型时经常发生的过拟合或灾难性遗忘。此外，由冻结的编码器可能导致的任何领域特定高频细节的潜在损失可以通过平行的、完全可训练的CSPDarknet分支得到补偿。这种设计允许DINOv3专注于全局上下文线索，而CSPDarknet捕捉局部几何变化，从而为后续的融合和检测提供互补特征。

3.2. SBG-DDN模型架构
语义边界引导动态检测网络（SBG-DDN）是一个单阶段的、无锚点的目标检测器，专门用于检测遥感图像中的小型传输塔。该架构结合了DINOv3用于语义特征提取和CSPDarknet用于边界特征提取的双骨干系统，以捕获互补的特征信息，并结合了语义边界融合模块用于位置指导、双向特征金字塔网络（BiFPN）用于多尺度特征增强，以及动态优化头用于自适应感受野调整。这种设计旨在结合全局语义先验和局部结构细节，以便在复杂的遥感场景中进行鲁棒检测。在此框架中，DINOv3提供语义先验，帮助在复杂背景干扰下识别候选塔区域，而CSPDarknet保留对精确定位重要的局部边界敏感细节。它们的互补特征随后通过SBFM和BiFPN融合，并传递到检测头。网络通过并行骨干处理给定的输入图像，以提取语义特征和边界特征；实际上，只有更深层次的多尺度特征被保留下来进行后续的融合和检测，因为排除浅层的特征不会影响检测性能，同时提高计算效率。SBFM中语义特征和边界特征的融合公式如下：
(1)
其中表示第i个尺度特征图的自适应融合权重，表示SBFM中的位置指导函数，用于模拟语义特征和边界特征之间的空间相关性。具体来说，该过程分为两个连续阶段。在第一阶段，从DINOv3特征中提取的注意力图乘以一个可学习的位置嵌入矩阵，并通过Softmax激活以生成一个语义引导的空间掩码。然后将此掩码通过逐元素乘法应用于CSPDarknet边界特征，选择性放大与目标相关的边界响应，同时抑制背景杂乱。在第二阶段，调整后的边界特征经过层归一化，并通过并行卷积分支生成查询（Query）、键（Key）和值（Value）向量。多头自注意力机制通过计算注意力加权的聚合来细化这些特征，随后通过残差连接和卷积投影生成最终融合输出。通过这种两阶段设计，将语义特征的空间响应模式显式编码到边界流中，加强传输塔区域的激活信号，同时减弱来自复杂背景的干扰。融合后，引导的融合特征通过双向特征金字塔网络（BiFPN）进行细化，以获得增强的多尺度特征。第i个尺度的BiFPN特征融合定义为：
(2)
其中和是可学习的内注意力权重，用于跨尺度特征融合；和分别表示上采样和下采样操作；是一个小常数，以避免除以零。最后，增强后的特征被输入到DSBOH中进行定位和分类。DSBOH中的自适应感受野调整由以下公式确定：
(3)
其中是第i个尺度特征图的感受野大小，在我们的实现中设置为15，表示第i个尺度特征图的梯度（反映特征复杂性），表示L2范数。在训练期间，CSPDarknet骨干网络端到端进行优化，而DINOv3保持冻结状态以提供语义先验。整个流程如图2所示，详细机制在底部子图中展示。

图2. 提出的语义边界引导动态检测网络（SBG-DDN）的架构概述。该框架采用双骨干结构，结合了固定的DINOv3用于全局语义先验和CSPDarknet用于局部边界细节。这些互补特征通过语义边界融合模块（SBFM）合成，该模块应用注意力引导的位置加权来减轻特征淹没问题。多尺度特征随后通过BiFPN颈部得到增强，并由动态语义边界优化头（DSBOH）处理，采用自适应感受野进行精确的小型目标定位。底部面板详细说明了位置指导（SBFM）和动态感知（DSBOH）模块的内部机制。总体而言，双骨干设计提供了互补的语义和结构特征，SBFM增强了语义边界交互，BiFPN改善了多尺度表示，DSBOH对细化的融合特征进行自适应检测。

3.3. 语义边界融合模块（SBFM）
语义边界融合模块（SBFM）通过两个顺序的、视觉对齐的组件将DINOv3的语义特征和CSPDarknet的边界特征结合在一起：注意力引导的位置重量和跨模态特征融合（图3）。该模块建立了语义特征和边界特征之间的位置相关性，有效防止小型传输塔目标在复杂的遥感背景中被掩盖，同时增强了多尺度特征的区分能力。

3.3.1. 注意力引导的位置加权
如图3a所示，该组件使用DINOv3的全局语义注意力将位置意识注入CSPDarknet的局部边界特征中，引导模型关注潜在的目标位置。首先，我们从DINOv3提取注意力图（A），该图编码了输入特征表示上的全局语义响应。然后将该注意力图乘以一个可学习的位置嵌入矩阵，通过Softmax激活生成一个引导掩码（M）：
(4)
该掩码（图中标记为Guided_M）突出显示了小型对象的相对位置，同时抑制背景区域。然后将此引导掩码通过逐元素乘法应用于CSPDarknet边界特征：
(5)
该操作用语义位置线索调节边界特征，保留细粒度的局部细节，同时强调可能包含传输塔的区域。

3.3.2. 跨模态特征融合
如图3b所示，该组件通过基于注意力的细化过程将引导的边界特征与DINOv3的语义投影结合起来。引导的特征图首先经过层归一化（图中的Norm）以稳定训练。然后将其输入三个并行分支，生成查询（Q）、键（K）和值（V）向量，每个分支包括一个用于通道维度调整的卷积、一个用于局部特征提取的深度卷积，以及一个将特征映射到注意力空间的线性投影。注意力矩阵通过规范化Q和K的点积来计算：
(6)
其中d表示键（K）向量的维度，确保数值稳定性。通过将注意力矩阵与值（V）向量相乘得到注意力细化后的特征图：
(7)
然后通过卷积将此注意力细化后的特征投影回原始通道维度，并通过残差连接与归一化的输入特征结合，生成最终的SBFM融合特征。这种融合策略结合了DINOv3的全局上下文线索和CSPDarknet的局部结构细节，以生成用于下游检测任务的强大多尺度特征，并隐式促进语义特征和边界表示之间的特征一致性。

3.4. 动态 semantic-boundary 优化头（DSBOH）
如图2底部中间子图所示，动态 semantic-boundary 优化头（DSBOH）动态构建和细化来自多尺度特征图的特征，实现自适应调整感受野和层次化特征利用，以增强复杂遥感场景中的小型传输塔检测。DSBOH的核心工作流程可以分为三个连续阶段：关键位置挖掘、响应区域适应和平面/堆叠式特征构建。首先，通过计算每个输入特征图的统计特性（均值和方差）来进行动态特征构建；这些统计特性随后被输入到一个全连接层中，生成自适应的门控系数（）。这些系数对多尺度特征进行加权，以构建一个与分辨率对齐的动态特征图，其公式如下：(8) 这一操作能够自适应地聚合多尺度信息，从而突出显示对于小型传输塔检测最具信息量的响应。在构建动态特征之后，通过可变形卷积（DCNv2 [52]）对结果进行处理，以实现自适应的感受野调整。具体来说，DCNv2中的卷积偏移量和膨胀率是根据前述的特征统计信息得出的，这使得可以根据局部特征的复杂性动态调整感受野的大小。该过程表示如下：(9) 这种自适应的感受野调整使检测器能够更好地匹配传输塔的空间尺度，从而减少对小目标细节的过度模糊，同时保留关键的语义背景。随后，将调整后的特征图输入到并行的卷积分支中，以产生最终的检测输出。双分支设计通过一个分支生成定位输出，而另一个分支通过Sigmoid激活函数输出类别得分，如下方程所示：(10) (11) 这里，定位分支预测传输塔的边界框输出，而挖掘出的关键位置被内部用于指导响应区域的调整和特征构建。类别得分分支量化每个检测目标为传输塔的概率。与图2中所示的动态感知机制一致，DSBOH进一步通过平面式/堆叠式特征构建来组织调整后的响应。堆叠式形式提供了一种紧凑的特征重组方法，而平面式形式则更好地保留了响应区域的原始空间分布。这种设计有助于DSBOH在提高特征利用效率的同时，保持对小型传输塔检测的区分能力。

3.5. 自适应结构感知传输塔IoU（ASTIoU）损失
在遥感图像中，小型传输塔具有小尺寸和细长结构的显著特征，这给边界框回归带来了相当大的挑战。具体来说，在模型训练过程中经常会出现尺度敏感性（小目标接收到的监督信号不足）和结构不对齐（难以保持塔的固有细长形状）问题。传统的基于IoU的损失函数，如IoU、DIoU [53] 和 CIoU [54]，虽然广泛用于一般物体检测，但缺乏针对传输塔独特结构特性的针对性监督机制。为了解决这些问题，我们提出了自适应结构感知传输塔IoU（ASTIoU），这是一种专门为传输塔检测量身定制的紧凑损失函数。该损失函数整合了三个核心设计原则来解决上述瓶颈：自适应尺度归一化以提高模型对小目标的敏感性，多点空间监督以实现精确的边界对齐，以及明确的纵横比约束以保留传输塔的细长结构特征（图4）。图4展示了ASTIoU在传输塔检测中的应用。绿色实线框是预测的边界框，红色虚线框是真实边界框。关键组成部分包括角点/边缘中点距离监督和纵横比惩罚，自适应归一化确保小目标接收到更强的优化信号。给定一个预测框（）和一个真实边界框（），ASTIoU损失通过三个互补的设计组件构建，其公式和核心机制如下。首先，自适应尺度归一化根据目标相对于输入图像的相对大小动态调整归一化策略。数学表达式如下：(12) 这里，和分别表示真实边界框的宽度和高度，和表示输入图像的尺寸。对于小型传输塔（其中或很小），指数项放大了边界框不对齐的惩罚，确保即使对于微小的目标也有足够的监督信号。对于较大的目标，归一化保持稳定，以避免过度惩罚。其次，多点空间监督通过引入对边界框的角点和边缘中点的距离惩罚，实现精细的空间约束。这确保了预测框和真实框之间的精确对齐，约束公式如下：(13) 在这个方程中，和分别是预测框和真实框的角点，和分别代表四条边的中点。由于平方距离误差的归一化，监督信号是尺度感知的，并根据目标的实际大小进行调整。第三，结构纵横比约束明确惩罚预测框和真实框之间纵横比的偏差，保留传输塔的固有细长结构。该约束定义如下：(14) 这里，和分别是预测框的宽度和高度，是一个小常数（在本工作中设置为0），以避免除以零的情况。指数函数确保轻微的纵横比偏差只受到适度的惩罚，而严重的偏差会受到强烈抑制。结合上述三个组件，最终的ASTIoU指标和相应的损失函数定义如下：(15) 通过在对SRSPTD数据集的大量实验中，经验性地确定了0.5、0.3和0.2的权重，平衡了角点对齐、边缘精细化和结构保留的贡献。与传统基于IoU的损失函数（例如IoU、DIoU和CIoU）相比，ASTIoU针对遥感图像中传输塔检测的独特挑战提供了有针对性的改进。首先，自适应尺度归一化通过放大对小目标的监督信号来解决特征淹没问题，确保不同大小的目标都能有一致的性能。其次，多点空间监督提供了比DIoU和CIoU中使用的单中心距离度量更精细的约束，减少了定位偏差并提高了对齐精度。第三，明确的纵横比约束保留了传输塔的细长结构特征，减轻了由于忽略目标特定结构特性而引起的回归错误。

在我们的SBG-DDN检测器中，ASTIoU替换了边界框回归分支中的传统CIoU损失。这种替代为小型、细长的传输塔的定位提供了有针对性和有效的监督，使模型能够更好地处理遥感图像中固有的尺度变化和结构复杂性。

4. 实验
4.1. 数据集
4.1.1. 电力传输塔对象检测数据集（PTTOD数据集）
我们开发了一个基于卫星的数据融合流程，并构建了一个专门用于自动检测电力传输塔的数据集。我们的数据集整合了来自Google Earth的高分辨率卫星图像和来自Open Infrastructure Map（OIM）的电力基础设施矢量坐标。如图5所示，它覆盖了八个具有不同地理特征的国家，包括英国、爱尔兰、美国、日本、柬埔寨、马来西亚、挪威和瑞典，包括农村和城市地区、山脉、农田、沙漠和森林等典型的土地覆盖类型。该数据集包含567张高分辨率图像，对应于Google Earth的18级缩放，分辨率约为1.07米/像素，覆盖面积约为3445平方公里。在图像分块和去重之后，我们手动标注了2500个塔实例；这些瓦片保留了塔及其周围环境的结构细节。对于标注，我们使用地理空间缓冲区将图像瓦片与WGS84参考系统中的OIM坐标进行匹配，以确保准确对应并减少遗漏的匹配。这种地理空间约束机制提高了标注质量并简化了手动标注过程。与现有的公共数据集相比，PTTOD提供了更广泛的地理覆盖范围、场景多样性和标注可靠性。图5显示了PTTOD数据集的地理分布。从对象规模的角度来看，如图6所示，PTTOD数据集中标注的传输塔主要是小型目标。当图像被调整为640 × 640像素的训练分辨率时，大多数塔实例的尺寸小于100 × 100像素，其中相当一部分小于64 × 64像素。对象的标准化宽度和高度主要集中在0.05–0.15的范围内。
4.1.2. SRSPTD数据集
SRSPTD（卫星遥感电力传输塔数据集）是从ETDII（电力传输和分配基础设施图像数据集）中派生出来的一个特定任务子集，也被称为GridTracer数据集。ETDII由杜克大学研究团队于2018年8月3日发布，包含494张高分辨率遥感图像瓦片，覆盖了五个大陆上的七个城市，总面积约为264平方公里，这些城市位于六个国家，包括美国、苏丹、新西兰、墨西哥、中国和巴西。该数据集的空间分辨率为0.3米，整合了来自多个权威来源的图像，包括CT ECO、USGS、LINZ和SpaceNet。它涵盖了多种地形类型，如平原、山区、沙漠和城市地区，并包含各种电力基础设施组件，包括传输塔、分配塔和电力线路。ETDII最初旨在支持自动电力设施识别、领域适应和电网规划的研究。基于ETDII，SRSPTD进一步针对高分辨率卫星遥感图像中的电力塔检测进行了构建。从ETDII中选择了具有不同背景特征（包括城市、农村和山区）和不同人口密度的图像，然后进行图像裁剪和系统重新标注。SRSPTD专门关注两个目标类别——传输塔和分配塔，并提供精确的边界框标注和类别标签。该数据集明确设计用于缓解电力塔检测中的关键挑战，包括复杂的背景干扰、目标规模的显著变化以及提取小尺度分配塔特征的难度。因此，SRSPTD为多尺度电力塔检测模型的训练和评估提供了有针对性的实验支持。从对象规模的角度来看，如图7所示，SRSPTD数据集中标注的电力塔主要是小型目标，其整体规模分布甚至比PTTOD数据集中的还要小。当图像被调整为640 × 640像素的训练分辨率时，绝大多数塔实例的尺寸小于64 × 64像素，其中相当一部分小于32 × 32像素。对象的标准化宽度和高度主要集中在0.02–0.10的范围内，表明SRSPTD中的目标相比其他数据集更为紧凑和小型。
4.2. 实验设置
所有实验都在一个NVIDIA RTX 4090图形处理单元（GPU）上进行。模型训练过程基于PyTorch 2.1 [55]和CUDA 12.2实现，整个代码库建立在开源的Ultralytics框架之上。所有主干网络都在ImageNet数据集上预训练以初始化参数。对于模型优化，采用了AdamW优化器，权重衰减系数为，训练期间的批量大小设置为32。SRSPTD数据集的总训练周期固定为200个周期，并使用随机种子2025来保证实验结果的可重复性。初始学习率为0.005，从第100个训练周期开始衰减，每个周期后保存模型检查点。SRSPTD数据集的原始图像尺寸为512 × 512，训练期间输入图像分辨率调整为640 × 640。除非另有说明，否则所有其他超参数都遵循Ultralytics框架的默认设置。除非另有说明，所有比较实验都使用相同的实验协议。
4.3. 评估指标
为了严格评估对象检测性能，我们采用了基于真正例（TP）、假正例（FP）和假负例（FN）的标准指标。这里，TP表示正确检测到的目标，FP表示分配给非目标区域的检测结果，FN表示遗漏的目标对象。
精确度衡量正确预测的正例检测比例；
召回率衡量成功检测到的真实目标的比例；
这两个指标都是在预定义的交并比（IoU）阈值下计算的。
平均精确度（AP）定义为精确度-召回率曲线下的面积：
其中r表示召回率，是相应的精确度。我们报告了在0.5到0.95之间的IoU阈值范围内平均的和AP，步长为0.05。
平均平均精确度（mAP）定义为所有类别的平均AP：
其中C是类别的数量，表示类别c的AP。
4.4. 消融实验
表1中的网格搜索实验系统地评估了ASTIoU损失中三个权重系数对SRSPTD数据集中传输塔目标检测性能的影响，所有权重组合严格满足并限制在内，以确保监督的平衡。表1显示了SRSPTD数据集中ASTIoU权重系数的网格搜索消融结果。所有权重组合都满足，每个权重限制在[0.1, 0.7]范围内。最佳性能配置以粗体显示。结果一致表明，角点距离监督项（）是主导检测性能的核心组成部分。当从0.2增加到0.5时，mAP@0.5从0.727持续上升到最佳值0.738，提高了1.1个百分点。一旦超过0.5，过度依赖的角点监督会压缩边缘拟合和纵横比约束的贡献，导致检测性能持续下降。这一结论与单项消融结果完全一致，进一步验证了角点对齐项在检测细长小目标时的主导作用。边缘中点监督项作为辅助优化组件，在角点对齐的基础上细化了传输塔格子结构的边界拟合。对于固定的参数值，mAP@0.5随着参数值的增加先上升后下降，最佳性能出现在参数值约为0.3时。纵横比约束项对性能的影响最小，主要起到结构规整的作用，以避免边界框变形，在参数值合理变化时性能波动在0.5个百分点以内。最佳权重组合确定为（, ,），这与传输塔检测中各监督项的功能优先级相符。同时，当权重系数在合理范围内波动时，模型保持稳定性能（当参数值在0.4到0.6之间时，mAP@0.5保持在0.733以上），证明了ASTIoU损失对超参数设置的强大鲁棒性。因此，在后续实验中使用了该配置，以确保结果的一致性和可复现性。

为了定量评估每个提出的组件（SBFM、DSBOH和ASTIoU）对小型传输塔检测的贡献，我们在SRSPTD数据集上进行了消融实验，以CSPDarknet作为基准模型。结果总结在表2中，清晰地显示了性能增益和模块特定的效果。基准模型达到了0.733的精确度（P）、0.624的召回率（R）、0.657的mAP@0.5和0.306的mAP@0.5:0.95，表明仅依赖边界敏感特征不足以完全解决复杂遥感场景中的语义背景干扰和精确定位问题。表2显示了提出的SBFM、DSBOH和ASTIoU模块的消融结果，最佳性能以粗体突出显示。

（1）语义边界融合模块（SBFM）的贡献：单独使用时，SBFM将mAP@0.5提高了0.011（从0.657提高到0.668），mAP@0.5:0.95提高了0.011（从0.306提高到0.317），精确度和召回率分别增加到0.746和0.630（表2）。其核心价值在于在DINOv3的全局语义特征和CSPDarknet的局部边界特征之间建立位置指导，抑制了复杂的背景干扰，防止小目标特征被掩盖。这一效果通过图8进一步得到视觉支持：基准模型的热图显示出分散的特征响应，其中小型传输塔容易被背景杂乱（如植被纹理和建筑立面）遮挡，导致目标信号弱且不清晰；相比之下，集成SBFM的模型的热图显示出更集中且与目标对齐的特征响应。SBFM生成语义引导的位置掩模来调节边界特征，使小型传输塔的特征信号更加突出，同时抑制了不相关的背景，这与表2中观察到的定量增益一致。还应注意的是，在以植被为主的背景中仍可能出现一些分散或与纹理相关的激活，因为这些纹理可能与传输塔的稀疏格子结构具有相似的边缘或线性图案。然而，与基准模型相比，SBFM增强后的热图在真实塔区域显示出更高的激活，在背景区域显示出更低的激活。这表明DINOv3引导的语义位置掩模通过增强与目标相关的响应和减弱不相关的背景干扰，有效改善了语义边界特征融合。尽管这些热图代表的是SBFM相关的中间特征响应而非最终检测输出，但它们证明了SBFM为后续预测头提供了更具辨别力和鲁棒性的特征表示。

（2）动态语义边界优化头部（DSBOH）的贡献：单独使用DSBOH时，mAP@0.5为0.662，mAP@0.5:0.95为0.310（P = 0.741，R = 0.628；表2）。DSBOH通过实现自适应感受野调整和动态特征聚合，解决了传统检测头部固定感受野的限制。它计算多尺度特征的统计特性（均值和方差）来生成自适应的门控系数，根据局部特征复杂性动态聚合不同尺度的信息，并调整感受野大小。这使得模型能够更精确地关注小型传输塔的空间尺度，减少了由于感受野不匹配引起的定位偏差，如表2中所示的一致性能提升。

（3）自适应结构感知传输塔IoU（ASTIoU）损失的贡献：单独使用ASTIoU时，它将mAP@0.5提高到0.665，mAP@0.5:0.95提高到0.313（P = 0.743，R = 0.629；表2），优于传统的CIoU损失。其关键创新包括三个方面：自适应尺度归一化通过根据目标大小相对于输入图像动态调整惩罚权重来放大小目标的优化信号；多点空间监督（覆盖角点和边缘中点）提供了比DIoU/CIoU中的单中心距离监督更细粒度的空间约束；显式的纵横比约束保持了传输塔的细长结构特征。这些设计解决了小而细长目标边界框回归中的尺度敏感性和结构不对齐问题，与表2中的性能提升一致。表2进一步揭示了集成所有三个组件的显著协同效应：SBFM、DSBOH和ASTIoU的组合获得了最佳性能（以粗体突出显示）（P = 0.766，R = 0.726，mAP@0.5 = 0.743，mAP@0.5:0.95 = 0.351），mAP@0.5比基准模型提高了0.086。这些结果表明这三个组件是互补的：SBFM通过融合语义和边界特征为有效的特征表示奠定了基础，DSBOH通过动态调整优化特征利用，ASTIoU提供了有针对性的几何监督，共同解决了复杂遥感背景下小目标检测的核心挑战。

为了进一步研究SBFM内每个子模块的贡献，我们将其分解为注意力引导的位置加权（AGPW）和跨模态特征融合（CMFF）。如表3所示，仅AGPW就将mAP@0.5提高了0.9%，证明了其在通过DINOv3的语义注意力进行空间注意力分配时的主导作用。单独使用CMFF仅贡献了0.4%，在细化跨模态特征整合方面起辅助作用。它们的组合获得了最佳性能（以粗体突出显示），精确度为0.740，召回率为0.628，mAP@0.5为0.664，mAP@0.5:0.95为0.313。这一结果证实了两阶段设计的互补效应，其中AGPW是主要的性能驱动者。

为了评估所提出的SBG-DDN框架的性能，我们在两个不同的数据集上进行了与最新先进对象检测方法的全面比较：公开的SRSPTD数据集和构建的PTTOD数据集。定量结果分别列在表4和表5中。表4显示了与SRSPTD数据集上先进对象检测方法的比较。所有方法都在相同的条件下进行训练和评估，输入分辨率为。表5显示了在PTTOD数据集上的性能比较（输入分辨率为）。如表4所示，所有模型都在相同的条件下进行评估（输入分辨率为），以确保公平比较。SBG-DDN在关键指标上显示出优越的性能：它实现了74.3%的mAP@0.5，比第二名的YOLOv11-S提高了3.1个百分点，比经典的YOLOv5s提高了9.5个百分点。对于更严格的mAP@0.5:0.95指标，它达到了35.1%，分别比YOLOv12-S和RT-DETR提高了2.9和4.1个百分点，表明其在小目标边界对齐方面的强大能力。在精确度-召回率权衡方面，SBG-DDN保持了高精确度（76.6%）和召回率（72.6%）。与Position-DETR相比，后者虽然获得了更高的召回率，但精确度较低，我们的框架将精确度提高了7.2个百分点，并提供了更平衡的精确度-召回率权衡，从而减少了遥感图像中由于背景干扰引起的误报。这些结果表明，所提出的语义边界协作设计在复杂场景条件下有效提高了小型传输塔的检测效果。

图9显示了五个典型城市（哈特福德、图森、陶朗加、科尔威奇和但尼丁）的传输塔遥感图像，涵盖了城乡混合区域、密集植被区域和丘陵地形。在城乡混合场景（哈特福德和科尔威奇）中，传统模型如YOLOv5s和YOLO-Remote经常将传输塔与高楼混淆，这反映在它们的整体精确度低于72%上；而SBG-DDN的语义边界融合模块（SBFM）利用DINOv3的全局语义线索抑制了与建筑相关的背景噪声，确保了清晰的目标定位。在植被遮挡的场景（图森和陶朗加）中，传输塔部分被树冠覆盖，导致特征模糊；SBG-DDN中的动态语义边界优化头部（DSBOH）根据局部特征复杂性自适应调整感受野，捕捉到了塔和电线之间的弱关联（辅助上下文）。这一定性观察与总体定量结果一致，其中SBG-DDN的召回率比YOLO-Remote提高了7.8个百分点（64.8%）。在丘陵地形（但尼丁）中，地形起伏导致塔的几何变形；所提出的ASTIoU损失通过显式的纵横比约束和多点（角点+边缘中点）监督，保持了塔的细长结构。这一观察也与mAP@0.5相比YOLOv9s提高了5.7个百分点的整体结果一致。图9显示了五个城市的传输塔遥感图像。总之，在SRSPTD数据集上的比较实验表明，SBG-DDN在小型传输塔检测方面达到了先进性能，具有出色的精确度和跨场景性能。它为实际任务（如低空飞行安全预警和电力基础设施监测）提供了可靠的技术解决方案，其核心设计思想为其他遥感小目标检测任务（例如小型车辆检测和基础设施缺陷检查）提供了有价值的参考。

此外，为了验证所提出方法在复杂全局场景中的泛化能力，我们在构建的PTTOD数据集上进行了广泛的评估实验。与SRSPTD不同，该数据集涵盖了八个国家（包括英国、美国和挪威）的多样化景观，对模型的鲁棒性以及对域变换和背景异质性的要求更高。定量比较结果列在表5中。数据显示，SBG-DDN在所有竞争模型中取得了最佳性能，mAP@0.5达到了87.2%，mAP@0.5:0.95达到了57.6%。与最新的YOLOv12-S相比，我们的模型在这两个关键指标上分别提高了0.4%和1.4%。更重要的是，在精确度方面，SBG-DDN达到了87.9%，显著高于Position-DETR（77.3%）。尽管Position-DETR的召回率较高（91.2%），但其精确度较低，这意味着它倾向于将道路灯或垂直结构等背景元素误分类为传输塔。相比之下，SBG-DDN在精确度和召回率之间取得了更好的平衡，有效减少了误报。

图10展示了在PTTOD数据集上的定性检测结果。样本表明，SBG-DDN在从干旱沙漠到密集城市区域的各种环境中准确定位了不同大小的传输塔。这种跨数据集的持续优越性证实了所提出的语义边界协同机制和结构感知监督具有强大的泛化能力，使该框架非常适合大规模、跨区域的基础设施监控任务。图10显示了在自构建的PTTOD数据集上的定性检测结果。SBG-DDN的改进性能与四个核心创新的协同效应一致：（1）双骨干结构融合了DINOv3的全局语义特征和CSPDarknet的局部边界细节，解决了单骨干模型在特征表示方面的局限性；（2）SBFM在语义特征和边界特征之间建立了位置指导，缓解了小目标的特征淹没问题；（3）DSBOH动态调整感受野以适应塔和场景复杂性的变化；（4）ASTIoU为细长目标提供了有针对性的几何监督，提高了边界框回归的准确性。这些创新共同解决了小目标遥感检测的关键瓶颈，得到了定量结果和定性观察的支持。尽管SBG-DDN提高了小型传输塔的检测精度，但其计算效率并非本研究的主要优化目标。冻结的DINOv3分支提供了全局语义先验，但它也参与了前向推理，因此与轻量级单骨干检测器相比增加了参数体积和计算成本。此外，SBFM引入了额外的特征融合操作。因此，SBG-DDN应被视为一个以准确性为导向的框架，适用于服务器端或离线遥感图像分析，而不是一个轻量级的实时检测器。还需要注意的是，像YOLOv12L和YOLOv13L这样的更大版本主要反映了模型容量的扩展。这样的比较对于全面的准确性-复杂性研究是有价值的，但它们与本研究的主要目的不同，本研究的主要目的是验证用于小型输电塔检测的语义边界协作方法。这项任务的主要挑战在于小型目标的弱响应、特征淹没和背景干扰，而不仅仅是模型容量本身。因此，与大规模YOLO L版本的公平比较需要系统性的重新训练、超参数调整以及在相同环境下对FLOPs（浮点运算次数）、参数数量、推理速度和内存消耗的评估。我们认为这是当前工作的一个重要局限性，并将全面的模型规模比较、效率分析以及可能的模型压缩或特征提取策略留待未来的工作来完成。

5. 结论

在本文中，我们提出了语义边界引导动态检测网络（SBG-DDN），以解决在复杂遥感环境中检测小型输电塔时存在的持续挑战，特别是特征淹没、背景干扰和结构不对齐问题。通过将一个固定的DINOv3主干网络用于全局语义先验与CSPDarknet主干网络用于局部边界细节进行协同整合，我们的框架有效地弥合了语义理解和精细定位之间的差距。引入的语义边界融合模块（SBFM）提供了稳健的位置指导，确保小型目标不会被背景噪声所掩盖。此外，动态语义边界优化头（DSBOH）允许自适应调整感受野以适应极端的比例变化，而自适应结构感知输电塔IoU（ASTIoU）损失则明确施加了几何约束，以保持输电塔独特的细长结构。在公共的SRSPTD数据集和自构建的PTTOD数据集上的实验证明了所提出方法的有效性。结果显示，与本研究中考虑的竞争检测器相比，SBG-DDN在检测准确性和定位质量上均有所提高。此外，该模型在地理多样性场景中保持了稳健的性能，表明其在不同背景条件下具有良好的泛化能力。这些发现表明，所提出的框架是低空飞行安全预警和电力基础设施监测等实际应用中的一个有前景的解决方案。

未来的工作将主要集中在两个方向：（1）验证该框架在更广泛的小型遥感目标（如车辆、船只和漂浮物体）上的泛化能力，以进一步探索其在更广泛的地球观测任务中的潜力；（2）探索轻量级模型压缩和部署策略，以进一步降低资源受限的无人机平台上实时处理的计算成本。

热点排行