光谱和空间变化对基于注意力的耕地提取网络的影响分析林成（Lin Cheng）邓蔡龙（Deng Cailong）周 ? ??（Zhou Chaohu）张永（Zhang Yong）陆洪健（Lu Haojian）李珍（Li Zhen）陈怀宇（Chen Shiyu）

《Remote Sensing》：Effect Analysis of Spectral and Spatial Variations on Attention-Based Cropland Extraction Networks Lin Cheng, Cailong Deng, Chaohu Zhou, Yong Zhang, Haojian Lu, Zhen Li and Shiyu Chen

【字体：大中小】 时间：2026年05月11日 来源：Remote Sensing 4.1

编辑推荐：

　　### 文章亮点 - **主要发现是什么？** - 在基于注意力机制的模型中，光谱和空间分辨率与农田分割精度之间存在明确的线性关系。 - 基于Iso-IoU的光谱-空间耦合模型有效量化了波段数量与空间分辨率之间的权衡。 - **这些发现的意义是什么？** - 光谱

　　### 文章亮点

- **主要发现是什么？**
- 在基于注意力机制的模型中，光谱和空间分辨率与农田分割精度之间存在明确的线性关系。
- 基于Iso-IoU的光谱-空间耦合模型有效量化了波段数量与空间分辨率之间的权衡。

- **这些发现的意义是什么？**
- 光谱信息可以在一定程度上补偿空间分辨率的损失，尤其是在那些具有更强光谱利用能力的模型中。
- 提出的框架为优化农业遥感应用中的输入配置和模型选择提供了实际指导。

### 摘要

准确提取农田对于优化区域土地利用结构和确保粮食安全至关重要。尽管基于注意力的深度学习在农田提取方面取得了进步，但缺乏一个定量框架来评估光谱波段数量与空间分辨率之间的权衡，这阻碍了最佳传感器配置的确定。为了解决这一差距，我们使用两个代表性的基于注意力的分割网络BsiNet和REAUnet进行了受控的光谱-空间变化实验，并提出了一个等效的IoU（Iso-IoU）模型来量化它们之间的互补关系。通过多波段组合和多尺度空间分辨率的实验，我们定量评估了光谱和空间信息对模型性能的贡献，并进一步分析了它们的耦合关系。结果表明：
- 模型性能与光谱丰富度（即波段数量）呈正相关，四波段配置的IoU相比单波段输入提高了大约1.5-4%；尽管包含近红外（NIR）波段在每个波段数量组中始终能获得最高的精度，但可用光谱波段的总数仍然是分割性能的主要驱动因素；
- 模型性能对空间分辨率更为敏感，当空间分辨率降低到原始分辨率的四分之一时，IoU平均下降约5-7%；
- 光谱波段组合与空间分辨率之间存在可量化的互补关系，这可以通过提出的Iso-IoU模型来描述；
- 本研究中考察的两种基于注意力的网络在农田提取中表现出稳定的误差趋势，具有持续的假阳性和假阴性模式。这些发现为使用遥感图像进行农田提取提供了实际指导。优先考虑NIR信息并保持足够的空间分辨率对于保持分割精度至关重要，而Iso-IoU模型则使得在传感器约束下能够对光谱-空间配置进行定量优化。

### 1. 引言

农田是农业生产的基本资源，其可持续使用与国家粮食安全和生态系统平衡密切相关。因此，准确绘制农田分布图对于粮食安全评估、农业管理优化以及宏观决策具有重要意义。随着高分辨率遥感图像的快速发展，基于深度学习的语义分割已成为农田提取的主流方法之一。典型的深度神经网络（DNN）模型，如U-Net、DeepLabv3+和SegNet，在提取土地覆盖对象方面表现出强大的性能。这些方法可以从图像像素端到端学习语义标签，从而减少了对人工设计特征的依赖。传统的手工方法严重依赖于人工设计的特征和分割参数来获取农业地块的空间信息，而基于DNN的方法可以自动学习层次化的空间纹理和光谱特征，因此在复杂背景和碎片化地块场景中表现出更强的泛化能力。最近，嵌入在分割网络中的注意力机制通过自适应地强调信息特征，进一步改善了农田边界和内部结构的表示，并已广泛应用于各种遥感任务。从技术上讲，这些机制通过建模遥感数据的两个关键维度（光谱和空间数据）来增强判别特征的提取。这些机制通常分为两类：通道注意力（CA）和空间注意力（SA），前者重新调整沿着通道维度的特征响应，后者为不同空间位置赋予不同的权重。CA通常通过全局统计来估计特征通道的重要性，从而强调更具信息性的光谱和语义响应；相比之下，SA通过建模空间相关性或位置间的局部响应差异来突出目标相关区域。这两种类型的注意力分别对应于建模光谱（或特征）响应和空间结构（或边界线索）。这些特性使得它们特别适合农田提取任务，因为这些任务既依赖于光谱分离性也依赖于地块形态。然而，尽管注意力机制具有潜力，但其实际应用仍受到遥感图像固有复杂性的限制。高分辨率图像中常见的“相同对象具有不同光谱”和“不同对象具有相同光谱”的现象，以及不规则农田形态、复杂地形和高程度地块碎片化等问题，对准确分割农田构成了重大挑战。尽管基于注意力的网络在农田提取方面取得了显著进展，但遥感图像的空间分辨率和光谱波段对模型性能的影响仍不够清楚。首先，光谱波段决定了模型可用的光谱信息维度，不同的波段组合在区分农田与类似土地覆盖类型（如裸土和道路）方面起着不同的作用；此外，空间分辨率直接影响纹理表示和边界清晰度，从而为准确划分农田地块提供了重要基础。在实际遥感系统中，光谱波段数量和空间分辨率通常需要权衡。高空间分辨率的图像可以更好地保留地块边界，但通常包含有限的光谱信息；而具有更多光谱波段的图像提供更丰富的光谱信息，有助于区分土地覆盖类型，但往往与较低的空间分辨率相关，这可能导致边界模糊。现有研究大多集中在网络架构设计或单一数据源条件下的性能改进上。然而，很少有研究从模型导向的角度系统地探讨光谱波段组合和空间分辨率的变化如何影响农田提取的性能。特别是当基于注意力的网络应用于农田提取时，关于这两个因素是否表现出互补或权衡关系的定量研究仍然有限。此外，目前尚不清楚注意力机制在不同分辨率组合下的误差趋势是否稳定，如果稳定，那么是什么因素驱动了这种趋势。当前的农田提取研究通常遵循两条不同的路径：一种是模型中心路径，专注于通过注意力机制和多尺度特征融合等架构改进来提高性能；尽管这些方法实现了高精度，但内在数据属性（特别是光谱和空间分辨率之间的相互作用）对模型行为的影响往往未被明确分析。另一种是数据中心路径，侧重于整合非常高分辨率（VHR）图像、多时相序列或辅助数据（如数字高程模型（DEM）和合成孔径雷达（SAR）。然而，这些研究主要强调附加数据带来的性能改进，而对不同数据特征之间的耦合关系探讨较少。一个关键的研究空白在于缺乏对光谱和空间变化如何共同影响基于注意力的模型的统一理解。通过提出一个等效的交并比（Iso-IoU）模型，我们弥合了这一空白，并提供了一个定量框架来评估光谱和空间变化的联合效应。通过评估Jilin-1和GF-2卫星数据集上的两个代表性基于注意力的网络BsiNet和REAUnet，我们系统地研究了光谱波段组合和空间分辨率对农田分割性能的影响。选择这两个模型是为了代表不同的注意力设计范式：BsiNet采用多任务学习策略，并结合了边界和距离监督，而REAUnet融合了空间和通道注意力机制。这些代表性的基于注意力的网络使我们能够比较分析它们对光谱和空间变化的响应。具体而言，我们的目标是：
- 使用受控实验框架量化光谱和空间变化对农田分割精度的独立和耦合效应；
- 基于Iso-IoU模型提出一种光谱-空间耦合分析方法，从而为表征光谱和空间信息之间的线性互补关系提供定量视角，并为需要可比性能时提供实际指导；
- 引入一种误差趋势分析方法，揭示农田提取中假阳性（FP）和假阴性（FN）错误的稳定模式和结构一致性。

本文的其余部分组织如下：第2节介绍研究区域和数据集；第3节介绍深度学习模型和实验方法；第4节介绍实验设计；第5节报告实验结果；第6节全面讨论发现和局限性；第7节总结本文并提出未来工作方向。

### 2. 研究区域和数据集

为了系统分析光谱波段组合和空间分辨率变化对农田提取性能的影响，我们使用了两种具有不同成像特性和场景复杂度的高分辨率遥感图像：iFLYTEK公共农田数据集和由Jilin-1和GF-2卫星获取的Shanglin数据集。这两个数据集在空间分辨率、场景复杂性和农田形态上存在显著差异，从而为比较分析光谱和空间变化效应提供了合适的基础。

iFLYTEK农田数据集来源于2021年的iFLYTEK挑战赛。该数据集包含四个波段：蓝色（B）、绿色（G）、红色（R）和近红外（NIR），空间分辨率（即地面采样距离，GSD）介于0.75至1.1米之间。iFLYTEK数据集覆盖了中国多个典型的农业区域，尤其是在中高纬度地区，具有跨区域和气候区的良好多样性。如图1所示，该数据集包括31个大型遥感场景，每个场景的大小至少为3000×3000像素，并附有相应的农田地块标签（Shapefile格式）。该数据集中的大多数农田地块相对规则且较大，而碎片化且较小的地块较少见；然而，相邻地块之间的边界往往较为模糊。

Shanglin数据集来源于GF-2图像，研究区域位于中国广西的Shanglin县。该地区以明显的地形起伏为特征，主要由低山和中山构成（如图2所示）。农田与其他土地覆盖类型（如森林、裸地和道路）交错分布，导致强烈的纹理异质性和高度碎片化的结构。这些特点使得该数据集特别适合分析空间分辨率变化对模型性能的影响。GF-2全色和多光谱波段的GSD分别为0.8米和3.2米。在本研究中，我们使用了提供的0.8米标准化多光谱图像，这些图像经过了包括辐射校准、大气校正和空间融合在内的标准预处理步骤。所有图像随后被重新采样到统一的空间分辨率，以确保实验间的一致性。为了确保标签的可靠性，农田边界通过ArcMap 10.8中的多层次手动视觉解释工作流程进行了细致标注。最初，由受过培训的研究人员在国家地理条件调查数据的帮助下进行独立解释，然后通过共识讨论解决任何模糊区域，最终由资深专家严格审查以确保空间合理性。这一全面的质量控制过程产生了包含159,273个农业地块的高可靠性像素级数据集。

### 3. 实验设计

为了系统分析光谱波段组合和空间分辨率变化对农田提取性能的影响，我们使用了两种具有不同成像特性和场景复杂度的高分辨率遥感图像：iFLYTEK公共农田数据集和由Jilin-1和GF-2卫星获取的Shanglin数据集。这两种数据集在空间分辨率、场景复杂性和农田形态上存在显著差异，从而为比较分析光谱和空间变化效应提供了合适的基础。

iFLYTEK农田数据集来源于2021年的iFLYTEK挑战赛。该数据集包含四个波段：蓝色（B）、绿色（G）、红色（R）和近红外（NIR），空间分辨率（即地面采样距离，GSD）介于0.75至1.1米之间。iFLYTEK数据集覆盖了中国多个典型的农业区域，尤其是在中高纬度地区，具有良好的区域和气候区多样性。如图1所示，该数据集包括31个大型遥感场景，每个场景的大小至少为3000×3000像素，并附有相应的农田地块标签（Shapefile格式）。该数据集中的大多数农田地块相对规则且较大，而碎片化且较小的地块较少见；然而，相邻地块之间的边界往往较为模糊。

Shanglin数据集来源于GF-2图像，研究区域位于中国广西的Shanglin县。该地区以明显的高低起伏地形为特征，主要由低山和中山构成（如图2所示）。农田与其他土地覆盖类型（如森林、裸地和道路）交织在一起，导致强烈的纹理异质性和高度碎片化的结构。这些特点使得该数据集特别适合分析空间分辨率变化对模型性能的影响。GF-2全色和多光谱波段的GSD分别为0.8米和3.2米。在本研究中，我们使用了提供的0.8米标准化多光谱图像，这些图像经过了包括辐射校准、大气校正和空间融合在内的标准预处理步骤。所有图像随后被重新采样到统一的空间分辨率，以确保实验间的一致性。为了确保标签的可靠性，农田边界通过ArcMap 10.8中的多层次手动视觉解释工作流程进行了细致标注。最初，由受过培训的研究人员在国家地理条件调查数据的帮助下进行独立解释，然后通过共识讨论解决任何模糊区域，最终由资深专家严格审查以确保空间合理性。这一全面的质量控制过程产生了一个高度可靠的数据集，其中包含159,273个农业地块。

### 4. 实验结果

本文的其余部分组织如下：第2节介绍研究区域和数据集；第3节介绍深度学习模型和实验方法；第4节介绍实验设计；第5节报告实验结果；第6节全面讨论发现和局限性；第7节总结本文并提出未来工作方向。虽然在训练集和验证集中的相邻补丁之间存在不可避免的10%滑动窗口重叠所导致的轻微共享边界，但最终的性能评估是严格在空间独立的测试集上进行的。这种策略有助于减少由空间自相关性引起的性能高估，并确保实验结果更可靠地反映模型在未见区域的表现。数据集的关键参数和统计信息在表1中进行了总结。表1. Shanglin和iFLYTEK数据集的详细参数。

3. 模型
为了系统地研究光谱和空间变化对农田分割的影响，我们采用了两种代表性的基于注意力机制的分割网络：BsiNet和REAUnet。这两种模型都基于U-Net的编码器-解码器架构，但它们的注意力设计不同[54]。具体来说，BsiNet主要通过组间特征重加权来改进特征表示，而REAUnet则明确结合了通道注意力（CA）和空间注意力（SA）进行联合特征细化。因此，这两种模型可以被视为两种典型注意力策略的代表：前者强调基于分组特征的特征通道的轻度重新校准，而后者强调显式的光谱-空间联合建模。比较它们在不同光谱和空间条件下的性能可以帮助揭示不同的注意力设计如何影响模型响应和误差模式。

3.1. BsiNet
BsiNet是一个多任务分割网络，它通过共享的编码器和多个解码器分支共同预测农田掩膜、地块边界和距离图。这种设计增强了地块轮廓和空间结构的表示，特别适用于地块破碎且边界模糊的农田场景。BsiNet作为组间特征重加权的代表性模型。其核心增强组件是空间组间增强（SGE）模块[55]。该模块通过将通道分成多个组来进行特征调制，然后为每个组生成共享的空间响应以细化特征。通常，CA模块的特征细化过程可以表示为：
(1)
其中表示输入特征图，表示从中推断出的注意力权重，表示逐元素乘法。
与通常为每个通道分配一个标量权重的传统CA不同，SGE采用了组间空间重加权策略。具体来说，输入特征图首先沿着通道维度划分为g组：
(2)
对于第i个特征组，SGE计算一个共享的空间注意力图：
(3)
其中表示组间映射函数，是Sigmoid激活函数。然后使用注意力图来重新校准分组特征：
(4)
其中表示沿着通道维度广播，并由组内的所有通道共享。最后，所有增强后的组被连接起来形成输出特征图：
(5)
图3展示了SGE模块的结构。该模块使用分组策略沿着通道维度重新校准特征。这种方法使BsiNet能够在抑制每个通道组内的噪声和不相关激活的同时，增强局部一致的响应。尽管BsiNet没有明确耦合通道注意力和水空间注意力，但它仍然通过组机制调制CA和SA：每个分组特征沿着通道维度使用共享权重进行CA校准，而权重则来自组内的SA。

3.2. REAUnet
与通过组间重加权增强特征的BsiNet不同，REAUnet是一个代表性的模型，它通过在同一注意力块内结合通道注意力和水空间注意力来集成这两种机制。这种设计使模型能够同时利用通道级别的光谱响应和空间结构线索[56]。这种设计特别适合农田提取，因为准确的分割不仅依赖于土地覆盖类型之间的光谱可分性，还依赖于地块边界和形状等空间纹理。区分地块与其他土地覆盖类型主要依赖于光谱带，而地块布局则由图像纹理决定，这与空间分辨率密切相关。REAUnet也基于U-Net的编码器-解码器架构构建。在编码过程中，依次引入了残差卷积块、边缘增强模块和通道-空间注意力块（AttBLK）。REAUnet的核心注意力模块如图4所示。给定一个输入特征图，通道注意力分支首先通过全局平均池化和全局最大池化沿空间维度计算两个通道描述符。这两个描述符随后被输入到一个共享的多层感知器中并融合以生成通道注意力图：
(6)
其中表示通道注意力图，是Sigmoid激活函数。CA分支突出显示具有更强语义响应的通道，并抑制信息量较少的特征（例如噪声）维度。

3.3. 实施细节
为了确保在不同光谱和空间配置之间进行公平比较，两种数据集采用了统一的数据预处理和数据集分割策略。所有实验都在PyTorch 2.4环境中实现，并在NVIDIA GeForce RTX 4070 GPU上运行。
在数据准备方面，所有输入光谱带都被归一化到[0, 1]范围内。在训练过程中，REAUnet使用了基本的几何增强方法，包括随机水平/垂直翻转和90°旋转，而BsiNet没有应用额外的光谱扰动以保持输入带的物理完整性。为了确保在不同光谱配置（1-4个波段）之间进行公平比较，两种模型都从零开始使用Kaiming初始化[57]进行训练，而不使用预训练权重。使用固定的随机种子（seed = 42）进行数据集分割和训练初始化以保证可重复性。
对于BsiNet，使用Adam优化器[58]，初始学习率为1 × 10^-4，没有权重衰减。应用了与原始实现一致的余弦退火学习率调度器。损失函数是一个多任务目标，它是分割、边界检测和距离变换分支的等权重总和。
对于REAUnet，采用AdamW优化器[59]，初始学习率为3 × 10^-4，权重衰减为1 × 10^-4。如果验证损失连续30个周期没有改善，则采用ReduceLROnPlateau调度器，将学习率降低0.1倍。损失函数结合了二元交叉熵损失和Dice损失，并通过对中间输出应用加权损失策略实现深度监督。
BsiNet的批量大小设置为12，REAUnet的批量大小设置为6，分别最大的训练周期为150和200。为了防止过拟合，应用了50个周期的提前停止策略。对于最终预测，使用0.5的阈值将概率图转换为二值掩膜。

4. 实验
两种DNN模型的性能主要使用IoU来评估，其定义如下：
(9)
其中 (true positive)、和分别表示正确分割的农田像素数、错误分割的农田像素数和遗漏的农田像素数。此外，精度、召回率、F1分数和准确性也被用作次要评估指标。为了确保严格的敏感性分析，“光谱和空间变化”被定义为受控模拟。具体来说，光谱变化是通过系统地选择四个原始多光谱带（例如蓝色、绿色、红色和NIR）的子集来形成的15种不同波段组合来实现的，没有任何人工光谱合成、跨季节混合或噪声添加。另一方面，空间变化是通过将原始高分辨率图像下采样到三个预定义的水平（基线L = 0，半分辨率L = 1，四分之一分辨率L = 2）来生成的，形成一个受控网格，没有应用任何额外的模糊处理或噪声注入。
所有光谱带组合实验都在固定的空间分辨率下进行。对于辐射度预处理，所有光谱带都使用一致的线性缩放方法进行归一化。8位卫星图像的原始灰度级别通过应用常数除数255.0重新缩放到[0, 1]范围内。这种策略确保了光谱带之间固有的相对辐射度差异得到保留，使模型（BsiNet和REAUnet）能够利用原始的光谱对比度和物理信息内容。这种协议消除了由于独立波段标准化可能引起的人工分布偏移的风险，从而确保报告的光谱敏感性反映了额外波段的实际信息增益。构建了从单波段到四波段输入的不同波段组合，以检查光谱带组合的变化如何影响农田分割性能。所有波段组合都应用相同的数据集分割、预处理流程和训练超参数，以确保任何性能差异都可以归因于波段组合的变化。
此外，所有空间分辨率实验都使用原始的高分辨率图像作为基准。在我们的实验框架中，输入补丁大小固定在256 × 256像素，适用于所有空间分辨率级别。虽然这会导致不同的地理视野（FOV），其中较粗的分辨率覆盖更大的地面面积，但这种设计是为了保持模型架构和参数数量的恒定。为了消除空间偏见，所有补丁在空间上对齐到相同的地理中心坐标，确保性能变化主要归因于高频空间细节的丢失而不是底层土地覆盖对象的差异。数据集通过多尺度重采样在不同空间分辨率下生成。多光谱图像使用双三次插值进行下采样，而标签图使用最近邻插值进行重采样以保持语义一致性。对于每个空间分辨率设置，采用在光谱实验中识别出的最佳波段组合来保证结果主要反映空间分辨率变化的影响。
基于上述单因素实验，我们进一步进行了光谱-空间耦合实验。以波段数量（）和空间分辨率退化级别（）作为自变量，作为响应变量，我们拟合了一个线性模型：
(10)
其中表示当前分辨率相对于原始空间分辨率（表示为）的退化级别。为了在整个iFLYTEK数据集（原生地面采样距离GSD：0.75–1.1米）中保持一致性，被定义为每个单独图像的基准分辨率。因此，被定义为一个无量纲的相对缩放因子，其中表示均匀的下采样因子。这确保了量化空间信息的比例损失，使得分析不受不同场景下绝对GSD微妙变化的影响。例如， = 1对应于2倍的空间分辨率退化，= 2对应于4倍的退化。在这个模型中，是一个常数项，表示通过添加一个光谱带获得的精度增益（光谱增益系数），表示由于空间分辨率降低两倍而导致的精度损失，通常是负值。根据拟合的模型，绘制了Iso-IoU等高线来表征在给定精度水平下光谱带数量与空间分辨率之间的补偿关系。为了便于理解模型构建过程，这里我们以BsiNet在iFLYTEK数据集上的表现为例，提供逐步推导过程。在原始空间分辨率（L = 0）时，一到四个光谱带输入的平均精度分别为77.33%、78.52%、79.73%和80.36%。然后对这些数据进行最小二乘线性拟合，得到以下关系：(11) 由此可得光谱增益系数，表明每增加一个光谱带，精度大约提高1.03个百分点。该拟合的决定系数表明精度与光谱带数量之间存在强烈的线性关系。类似地，当固定为四个光谱带输入时，在L = 0、L = 1和L = 2时的精度分别为80.36%、79.50%和74.97%。对IoU和L进行最小二乘线性拟合得到：(12) 从而得到空间灵敏度系数，意味着空间分辨率每降低两倍，精度大约降低2.70个百分点。该拟合的决定系数表明线性近似仍然能够捕捉到随着空间分辨率增加而导致的性能下降的总体趋势。为了确保等效模型基于观测到的基线配置，使用参考点（= 4, L = 0, IoU = 80.36）来确定。将这个参考点代入方程(10)，我们得到：(13) 因此，BsiNet在iFLYTEK数据集上的最终等效方程为：(14) 基于拟合参数，可以从方程(10)推导出维持目标精度水平所需的光谱带数量：(15) 在（,）坐标系中绘制的Iso-IoU等高线的斜率代表了光谱信息与空间细节之间的替代率，这为在传感器资源受限的情况下选择合适的光谱-空间配置提供了定量依据。此外，还设计了误差倾向实验来进一步研究不同光谱组合和空间分辨率设置下模型的误差倾向特征。具体来说，我们为假 positives（FPs）和假 negatives（FNs）构建了二值误差掩模，并分析了它们在不同实验条件下的空间重叠情况。参考重叠率（ROR）定义为：(16) 其中表示在分辨率条件下的FP或FN掩模，表示在基线分辨率条件下的相应掩模，表示像素数量。为了确保统计稳定性，整个测试集的基线误差像素计数（）是全局计算的。这种大规模的分母有效避免了小样本量引起的方差不稳定。本质上，ROR衡量了在不同实验设置下基线条件下的错误区域是否一致被重新观察到的程度。较高的ROR表明易出错的区域在空间上是稳定的，并且倾向于在不同的光谱或空间配置中重复出现，反映了恒定的误差倾向模式。

5. 结果
5.1. 光谱变化实验结果
光谱带组合实验的结果如图5所示。总体而言，输入光谱带的数量对两种模型的农田分割性能都有显著影响，REAUnet的表现略优于BsiNet。主要发现可以从三个方面总结。图5显示了在不同光谱带组合下，各种模型和数据集的农田提取性能的定量评估。(a,b) 展示了BsiNet在iFLYTEK和Shanglin数据集上的表现；(c,d) 展示了REAUnet在这两个数据集上的表现。首先，随着输入光谱带数量的增加，整体性能有所提高，而特定光谱带组合的影响相对有限。如表2和表3中的统计摘要所示，BsiNet和REAUnet的IoU值在从单光谱带到四个光谱带的设置中普遍呈现上升趋势。例如，在iFLYTEK数据集上，BsiNet的平均IoU从77.33%（= 1）增加到80.36%（= 4）。相比之下，在相同设置下REAUnet的平均IoU从84.70%增加到86.17%。在Shanglin数据集上也观察到了类似的趋势。值得注意的是，相同光谱带数量内不同光谱带组合之间的性能变化通常很小，范围在0.28%到2.27%之间。这些结果表明，模型性能主要受到可用光谱信息量（即光谱带数量）的影响，而不是特定光谱带的身份。在某些情况下，较高光谱带数量组的最低IoU超过了较低光谱带数量组的最高IoU（例如，在iFLYTEK数据集上，= 3时的最低IoU为85.60%，高于= 2时的最高IoU 85.22%），进一步支持了这一观察结果。

表2. 不同光谱带数量下BsiNet IoU性能的统计总结。
表3. 不同光谱带数量下REAUnet IoU性能的统计总结。
其次，包含近红外（NIR）带的光谱带组合通常具有稍微更好的分割性能。在相同的光谱带数量下，包含NIR的输入产生的IoU总体更高，这一趋势在BsiNet上尤为明显。例如，在iFLYTEK数据集上，三个光谱带的组合（即B3 + B2 + B1）的IoU为78.36%，而包含NIR的组合B4 + B3 + B2、B4 + B3 + B1和B4 + B2 + B1的IoU分别为80.05%、80.21%和80.31%。在Shanglin数据集上也观察到了类似的模式，尽管提升幅度因不同的光谱带组合而异。这一结果与农田的光谱特性一致，因为植被在NIR波段通常有强烈的响应[36,41]。因此，只要可能，应在模型输入中包含NIR信息以用于农田分割任务。

总之，光谱带数量实验表明：（1）增加光谱带数量通常是有益的；（2）NIR波段是有帮助的；（3）明确地将空间结构（SA）与颜色适应（CA）结合起来可以提高模型的鲁棒性。

5.2. 空间变化实验结果
空间分辨率实验的结果总结在表4和表5中。总体而言，与光谱输入的变化相比，空间分辨率的变化导致性能变化更为明显。表4显示了BsiNet和REAUnet在iFLYTEK数据集上不同空间分辨率下的指标。表5显示了BsiNet和REAUnet在Shanglin数据集上不同空间分辨率下的指标。首先，空间分辨率的降低会导致明显的精度下降。随着空间分辨率逐渐降低，两种模型在两个数据集上的性能指标呈现稳定的下降趋势。当分辨率从原始的高分辨率（iFLYTEK数据集为0.75–1.1米或Shanglin数据集为0.8米）降低到中等分辨率（1.5–2.2米或1.6米，即原始分辨率的一半）时，IoU平均降低了约2–3%。当分辨率进一步降低到低分辨率（3.0–4.4米或3.2米，即原始分辨率的四分之一）时，累计下降幅度扩大到约5–7%。值得注意的是，空间分辨率的降低通过不同于减少光谱带的物理机制影响模型性能。虽然光谱实验主要是通过减少光谱带数量来降低光谱区分度，但空间降级直接影响图像的几何结构和纹理完整性[38,43]。我们的结果显示，由于空间分辨率降低导致的性能下降（5–7%）通常大于从四个光谱带到一个光谱带的性能变化（1.5–4%）。这些结果表明，在破碎的景观中进行基于注意力的农田提取时，保持空间结构信息尤为重要，而在当前实验设置下，光谱信息提供了补充但相对不那么主导的贡献。

总之，从空间实验中可以得出两个有益的结论：（1）更高的空间分辨率始终能带来更好的性能；（2）将空间结构（SA）与颜色适应（CA）结合起来通常是有益的，但其有效性取决于是否有足够的空间细节，在严重的空间降级情况下可能会减弱。

5.3. 光谱-空间耦合实验结果
除了单因素实验外，我们还定量建模了这两种不同信息通道之间的耦合关系：空间结构通道和光谱区分通道。使用方程（10）中开发的联合光谱-空间回归模型，我们根据两个网络和两个数据集获得的实验结果拟合了八个模型（四个用于和，四个用于）。这些拟合模型在图6中展示。这八个模型显示了与光谱带数量（）和空间分辨率降低程度（）之间的线性关系，所有决定系数（）均超过0.87。这表明空间分辨率提供的几何线索与光谱带提供的主题线索之间的互补关系可以通过线性模型来量化。由于处于连续实数空间中，我们为不同模型和数据集生成了Iso-IoU等高线图。图6显示了不同网络和数据集之间图像分辨率与IoU之间的关系。(a) 空间分辨率降低程度L和IoU的回归线性模型；(b) 光谱分辨率和的回归线性模型。如图7所示，每条等高线代表一个恒定的性能水平（即Iso-IoU）。沿着给定的等高线移动表明不同的光谱-空间配置可以实现相同的性能水平（即IoU）。例如，在图7c中，点A（= 1，= 1）和点B（= 3）位于同一条78%的Iso-IoU等高线上，表明点A的配置（即单个光谱带在降低2倍的空间分辨率下）和点B的配置（即三个光谱带在降低4倍的空间分辨率下）实现了相当的78% IoU。为了验证Iso-IoU等效模型的预测能力，使用了跨数据集的验证方案进行了样本外验证。首先使用iFLYTEK（Jilin-1）数据集校准空间灵敏度参数，然后用它们来预测Shanglin（GF-2）数据集在未见配置下的性能。结果显示出高预测准确性；例如，模型预测的Shanglin 1.6米配置的IoU为81.43%，与实际值（81.42%）仅相差0.01%。

图7. 从光谱-空间回归模型导出的Iso-IoU等高线图。图表显示了空间分辨率降低L和光谱带数量对模型性能的耦合效应：(a) BsiNet + iFLYTEK；(b) REAUnet + iFLYTEK；(c) BsiNet + Shanglin；(d) REAUnet + Shanglin。颜色渐变表示IoU（%），黑色等高线表示性能相同的配置（即Iso-IoU）。点A和B代表位于同一条78% Iso-IoU等高线上的两种配置。此外，等高线的斜率反映了光谱信息和空间信息之间的相对敏感性。为了进一步表征这种趋势，图8总结了光谱敏感性（）和空间敏感性（）的拟合系数。如图8a所示，BsiNet的光谱敏感性（1.0–1.2）高于REAUnet（0.5），这表明BsiNet更依赖光谱信息。相反，所有模型在图8b中都显示出负的空间敏感性，其中REAUnet在Shanglin数据集上对空间降级的敏感性更强（-4.2），与其在图6中更陡峭的等高线模式一致。我们强调Iso-IoU模型是在有限的离散实验网格上的描述性近似，不应被解释为全球通用的一般功能形式。

图8. 不同模型对光谱和空间变化的定量敏感性。(a) 光谱敏感性；(b) 空间敏感性。总之，可以得出两个结论：（1）在研究的范围内，光谱和空间信息表现出大约的线性互补性；（2）当空间分辨率受限时，增加光谱信息可以在一定程度上补偿性能损失。

5.4. 错误倾向实验结果
为了进一步研究农田提取中的误差来源，我们使用ROR分析了假 negatives（FNs）和假 positives（FPs）的空间和光谱布局（即图像纹理和土地类型）。不同光谱带组合的ROR结果（注意以B4 + B3 + B2 + B1组合作为基准）展示在图9中。从图9中可以得出三个主要结论。首先，BsiNet和REAUnet在iFLYTEK和Shanglin数据集中都表现出错误倾向（几乎所有的ROR值都超过了50%）。其次，Shanglin数据集中的错误倾向通常更为严重。第三，REAUnet的错误倾向比BsiNet更为明显。图9展示了基于ROR指标的错误倾向热图。(a,c)分别显示了BsiNet的FN和FP ROR结果。(b,d)分别显示了REAUnet的FN和FP ROR结果。每个热图都说明了相对于基线（B4 + B3 + B2 + B1）不同波段组合下错误分布的一致性。较高的ROR值表明存在持续的错误倾向，即使在不同光谱组合下，错误分割仍然保持一致。图9a,c分别展示了BsiNet的FN和FP ROR结果。实验表明，Shanglin数据集中的大多数FN ROR值超过了70%，这表明BsiNet容易无法检测到某些特定的真实农田。图9b,d显示了REAUnet的ROR结果，可以清楚地看到，在Shanglin数据集中FP ROR值显著更高（见图9d的第一行），而在iFLYTEK数据集中FN ROR值则相对接近。当保留了NIR波段时，这种倾向变得更加明显。例如，如图10b的第二行所示，iFLYTEK数据集中B4 + B1、B4 + B3 + B1和B4 + B3 + B2的FN ROR值分别达到了83.1%、82.6%和80.3%。这意味着，无论REAUnet使用何种波段组合，只要输入中包含NIR波段，网络就无法正确识别某些土地类型为农田。

图10展示了不同波段组合下农田提取结果的定性比较。样本(a,b)来自BsiNet在Shanglin数据集上的结果，而(c,d)分别来自REAUnet在iFLYTEK和Shanglin数据集上的结果。可以清楚地看到，无论采用何种波段组合，FP和FN的错误倾向都是一致的。注意：“TP”和“TN”分别代表真阳性和真阴性。

总结来说，从波段组合的角度来看，错误倾向实验可以得出两个有益的结论：（1）基于注意力的网络通常没有充分利用光谱信息；（2）即使提供了更多的波段，错误倾向仍然存在。我们还从空间分辨率下降的角度研究了这两个网络的错误倾向，结果见表6（注意在这些实验中使用了所有四个光谱波段）。可以清楚地看到，尽管空间分辨率提高了，错误倾向仍然存在，但倾向的程度远低于增加光谱波段数量时的情况。表6显示了BsiNet和REAUnet在不同空间分辨率下的FP和FN的ROR值。正如表6中的结果所示，对于BsiNet，在中等分辨率下降水平（L = 1，即半分辨率）下，两个数据集中的ROR值都呈现出随空间分辨率下降而减少的趋势。这表明较低的空间分辨率破坏了错误的空间一致性，导致ROR值低于高分辨率基线。BsiNet的错误倾向模式也在REAUnet的实验结果中观察到（结果见表6）：ROR值随空间分辨率的下降而降低。相比之下，REAUnet的错误倾向较为温和。例如，在Shanglin数据集中，当分辨率降低到基线分辨率的一半（即分辨率下降水平L = 1）时，BsiNet的FN和FP ROR值分别为72.07%和67.67%，而在相同的空间分辨率设置下，REAUnet的相应ROR值分别降低到了55.40%和66.00%。此外，在其他空间分辨率设置中，比较显示REAUnet的ROR值大多较低，表明REAUnet的错误倾向更为温和。图11中的例子进一步表明，BsiNet容易产生FN分割，而REAUnet则容易产生FP分割（这种现象在图9a中也得到了定量验证）。对于REAUnet，如图11c,d所示，它容易产生FP分割（这种现象在图9d中也得到了定量验证）。

图11展示了随着空间分辨率的降低，FP和FN的变化情况。(a,b)分别是BsiNet在iFLYTEK和Shanglin数据集上的结果；(c,d)分别是REAUnet在iFLYTEK和Shanglin数据集上的结果。参数L = 0、L = 1和L = 2分别对应于基线、半分辨率和四分之一分辨率。红色方框和蓝色方框中的预测分别突出显示了FP和FN的变化。注意：为了更好地比较，预测结果被重新采样到了与基线相同的分辨率。

为了进一步研究混合像素条件下的边界划分性能，我们在图12中提供了放大后的视觉对比。如图所示，BsiNet和REAUnet都能够在具有挑战性的边界场景下保持农田地块的整体结构，包括线性道路、不规则的地块形状以及树木/阴影遮挡。然而，它们的行为表现出明显差异。BsiNet倾向于产生更加规则和保守的边界，这往往导致在受光谱歧义影响的区域出现欠分割或漏检（FN）。相比之下，REAUnet对局部细节的敏感性有所提高，能够更好地保持复杂地块的结构连续性，尽管在纹理相似的区域更容易产生轻微的假阳性（FP）。这些观察结果与定量ROR分析一致，并进一步表明不同的注意力机制通过增强光谱-空间特征交互作用对边界建模有不同的贡献。尽管如此，混合像素效应在地块边界处仍然是主要的误差来源，特别是在破碎的景观和低空间分辨率条件下。此外，使用形态学边界缓冲的空间解耦分析显示，假阳性主要集中在边界区域，而假阴性主要分布在地块内部。这证实了边界歧义和地块内部的光谱变异性驱动了不同的误差机制。

图12展示了REAUnet和BsiNet在农田边界划分方面的放大视觉对比，说明了模型处理混合像素的能力。(a)展示了iFLYTEK和Shanglin数据集中的研究区域概述，黄色方框表示选定的挑战性边界区域。(b)详细比较了三种典型的边界干扰场景：线性道路（A）、不规则形状（B）和树木/阴影遮挡（C）。真实的边界用黑线标出。REAUnet和BsiNet预测的边界分别用红色和蓝色线条表示。虚线方框突出显示了边界错误较大的（黄色）和较大的（青色）区域。

总结来说，从空间分辨率的角度来看，错误倾向实验可以得出两个有益的结论：（1）空间信息通常是缓解错误倾向问题的主导因素；（2）即使提供了更高空间分辨率的图像，错误倾向仍然存在。

6. 讨论
6.1. 光谱-空间权衡与全局上下文的作用
为了充分理解结果中观察到的性能变化，分析驱动这些变化的根本机制至关重要，特别是全局上下文与空间细节之间的权衡。正如我们在实验框架中详细描述的那样，我们将输入补丁的大小固定在256 × 256像素，适用于所有空间分辨率层次。因此，当空间分辨率下降（例如，从0.8米降至3.2米）时，256 × 256补丁实际覆盖的地理视野显著增加。结果，注意力机制可用的全局上下文得到扩展，包含了更广阔的景观宏观结构。通常，扩展的全局上下文提供了更丰富的语义信息，这通常通过帮助注意力机制更好地理解场景的全局结构来提升其性能。然而，在我们的实验中，我们观察到随着空间分辨率的降低，分割性能一致性地下降。由于扩展的全局上下文理论上应该对模型有利，但观察到的性能下降强烈表明，丢失高频空间细节（如边界清晰度和细粒度纹理）的负面影响是主导因素。这种效应在Shanglin数据集上更为明显，那里地形起伏更强烈，农田破碎度更高。正如结果所示，REAUnet在iFLYTEK数据集上的IoU从86.17%下降到80.89%，在Shanglin数据集上从85.78%下降到77.47%。根本原因是高空间分辨率图像提供了相对低歧义的详细纹理，而CA主要抑制噪声，从而限制了其利用精细空间细节的能力。相比之下，SA关注空间结构，并可以利用详细纹理来提升分割性能。

此外，我们的分析揭示了为什么两个模型对空间分辨率变化的敏感性不同。尽管随着空间分辨率的降低，两个模型的性能都会下降，但BsiNet在不同分辨率下的稳定性更好，而REAUnet的下降更为明显，尤其是在Shanglin数据集上。BsiNet主要依赖于从光谱信息中提取的通道级特征表示，因此对空间分辨率变化的敏感性较低。相比之下，REAUnet在一个双分支架构中整合了CA和SA，使其能够同时利用空间和光谱信息。SA分支明确地对空间结构进行建模，并且可以从细粒度纹理细节中受益，特别是在像Shanglin数据集中的破碎农田区域[11,30]。然而，当空间分辨率降低时，纹理细节逐渐消失，农田边界变得模糊。因此，SA机制无法从退化的输入中有效生成有意义的空间权重，导致分割性能的下降比BsiNet更为明显。这表明，尽管SA和CA的整合提供了高峰性能，但也引入了对空间结构清晰度的更大依赖性。

6.2. 错误倾向与注意力机制
这些观察结果有助于解释第5节中观察到的性能差异背后的根本原因。除了宏观的光谱-空间权衡之外，BsiNet和REAUnet中注意力机制的具体架构设计本质上决定了它们不同的错误倾向。关于光谱利用，我们在某些条件下观察到饱和效应。例如，在Shanglin数据集上，尽管BsiNet的平均IoU从82.00%（L = 3）增加到83.05%（L = 4），但与之前的增量相比，改进效果相对较小，这表明可能存在收益递减效应。一个可能的解释是，BsiNet中的分组通道增强机制在抑制不太有信息的通道时可能更为有效，而不是在充分利用额外的光谱细节时。在高度破碎的农田场景中，引入额外的波段可能会引入模型无法充分利用的额外变异性，这可能导致了观察到的饱和效应。相反，REAUnet中CA和SA的联合使用可以在一定程度上缓冲光谱变化的影响。当光谱信息受限时，SA分支仍然可以利用纹理和结构线索来补偿通道级光谱响应的区分能力下降[24,56]。因此，REAUnet对波段组合变化的鲁棒性比BsiNet更强。

在特定错误类型方面，两个模型的差异显著。BsiNet具有较高FN倾向的主要原因是BsiNet使用分组CA来聚合光谱信息，这强调了结构化的通道级特征选择和噪声抑制。相比之下，Shanglin数据集中常见的较小地块存在光谱混合像素问题[60,61]。这些混合像素通常被视为噪声，这可能导致了BsiNet在Shanglin数据集中更高的错误倾向（示例见图10a,b）。由于BsiNet抑制了与光谱信息相关的通道特征，如果农田具有异常的颜色特征，它无法区分农田与其他土地类型。如果提供更高空间分辨率的图像，FN区域的主要部分会缩小，因为更高的空间分辨率补偿了分割中的光谱信息。另一方面，REAUnet较高的FP倾向可能与SA和CA的耦合策略有关。尽管引入了更多的波段，但新引入的波段并不能显著提升REAUnet在分割破碎地块时的能力（如图10c,d所示）。由于这些地块的边界与图像纹理高度相关，尽管已经充分利用了光谱信息，但如果没有更高分辨率的图像，由碎片化地块引起的误差倾向问题可能无法得到完全缓解。有趣的是，假阳性（FP）区域对空间分辨率变化的响应更为复杂。在基线分辨率（即分辨率降解级别L=0）下，假阳性分割在颜色（对应于光谱信息）和纹理（对应于空间信息）上与农田相似。随着空间分辨率的降低，纹理细节丢失，空间信息也减弱。因此，光谱信息开始主导分割过程，假阳性区域随之减少。

6.3. 限制
本研究提供了关于基于注意力的农田提取中光谱-空间权衡的定量见解。然而，在解释结果时应当考虑几个限制因素。就地理覆盖范围而言，数据集仅限于中国的两个代表性区域（即上林和iFLYTEK），这可能会限制研究结果在多样化的生态和农业环境中的普适性。此外，尽管地面真实标签是仔细生成的，但人工视觉解释不可避免地会引入主观偏差和边界模糊性，特别是在碎片化的景观中。

从方法论角度来看，空间和光谱退化过程是通过基于重采样的策略来模拟的。虽然这种方法可以隔离变量以进行敏感性分析，但它并没有完全捕捉到物理传感器效应，如点扩散函数的变化和辐射度失真。此外，受控的实验设计并不是完全正交的，这可能限制了我们捕捉光谱和空间特征之间复杂的高阶交互的能力。另外，关于评估指标，虽然本研究依赖于广泛使用的基于区域的指标（如IoU和F1分数）来系统地评估光谱和空间的权衡，但我们意识到这些指标并不能完全捕捉到拓扑一致性。未来的工作应结合边界敏感性和对象级别的指标（如边界F分数或全局过分类、全局欠分类和全局总分类指标），以更深入地了解地块划分的几何质量，特别是对于那些明确使用边界监督的模型。

7. 结论与未来工作
本研究系统地探讨了光谱带组合和空间分辨率对农田提取的联合影响，使用了两种基于注意力的分割网络BsiNet和REAUnet。重要的是，这项研究在这些交互作用方面得出了几项新的发现。在受控的实验条件下，我们定量证明了空间分辨率对模型性能的影响比光谱丰富度更为显著。除了评估它们的独立效应外，我们还揭示了光谱信息和空间信息之间的一种可量化的互补关系。为了描述这种交互作用，我们提出了可解释的Iso-IoU框架，该框架提供了一种明确的数学方法来描述光谱信息的改进如何部分补偿空间退化。

此外，通过空间解耦和ROR分析，我们识别出不同注意力机制固有的结构稳定误差倾向。具体来说，我们的研究发现，通道级注意力系统地倾向于由于地块内部的光谱异质性而产生假阴性（FN）；而空间-通道耦合则由于几何线索丢失时混合像素效应而在边界处产生假阳性（FP）。未来的工作将通过加入额外的光谱带（例如红边带）和多源卫星数据融合来扩展这项研究。此外，还将进行基于集成的多轮评估，以提高所提出框架的鲁棒性和普适性。

热点排行