结合YOLO与SAM的检测-分割协同框架YOLOSc-SAM：实现遥感影像农田地块高精度、弱监督提取

《Artificial Intelligence in Agriculture》：YOLOSc-SAM: An acceptable extraction method for farmland regions in remote sensing images using SAM

【字体：大中小】 时间：2026年02月26日 来源：Artificial Intelligence in Agriculture 12.4

编辑推荐：

　　本研究针对高分辨率遥感影像农田提取中存在的语义模糊、边界破碎及标注成本高等挑战，提出一种结合YOLO目标检测与Segment Anything Model（SAM）的协同框架YOLOSc-SAM。该研究利用YOLOSc网络进行农田目标检测与语义定位，并将检测框作为提示引导SAM在指定区域内完成高质量分割。实验表明，该方法在1米、2米、3米分辨率数据集上均表现出优异的性能，有效解决了农田内部非耕地目标（如温室）的误分问题，并显著降低了训练数据的标注工作量，为构建轻量化高效的农田提取框架提供了新思路。

农田，作为农业生产与管理的核心空间单元，其边界的精确划定对于农业资源调查、耕地监测乃至国家粮食安全都具有至关重要的意义。随着遥感技术的飞速发展，高分辨率卫星与无人机影像为大规模、高效率的农田信息获取提供了可能。然而，从这些海量影像中自动、精准地“勾勒”出每一块农田的轮廓，却并非易事。传统的基于光谱信息的方法，在面对高分辨率影像丰富的空间和纹理特征时，往往力不从心，导致提取的农田边界粗糙、模糊。近年来，基于深度学习的语义分割模型（如U-Net、DeepLabV3+等）在该领域展现出巨大潜力，但它们通常严重依赖大量精确到像素级的标注数据来进行训练，这类数据的人工标注耗时耗力、成本高昂。更棘手的是，真实的农田场景复杂多样：田块内部可能包含温室、建筑、防护林等非耕地目标；田块形状不规则、边界与道路、沟渠等交错模糊；山区地块更是破碎零散。这些挑战使得传统模型难以精确识别语义轮廓，并有效解译农田的语义信息，最终影响耕地检测统计的准确性。

近年来，一个名为“Segment Anything Model (SAM)”的通用分割模型横空出世，它能够根据点、框等简单提示，对未见过的图像进行高质量的零样本分割，展现出了强大的分割能力。但SAM本身也存在局限：它产生的分割掩码是“无类别”的，即它知道“那里有个东西”，但不知道“那是什么东西”。在农田提取任务中，我们不仅需要知道地块的边界，还需要明确其语义类别（是农田，还是温室、道路？）。那么，能否将SAM强大的分割能力与一个能提供语义信息的检测模型结合起来，取长补短，实现高精度、低标注成本的农田提取呢？这正是发表在《Artificial Intelligence in Agriculture》上的一项研究试图解答的问题。

为了回答上述问题，研究人员开展了一项主题为“YOLOSc-SAM: An acceptable extraction method for farmland regions in remote sensing images using SAM”的研究。他们巧妙地设计了一个两阶段的检测-分割协同框架。该框架的核心思想是：首先，利用一个改进的YOLO（You Only Look Once）目标检测网络（被称为YOLOSc）在遥感影像中快速检测出潜在的农田区域，并输出带有类别语义信息的检测框；然后，将这些检测框作为“提示”（Prompts），输入到预先训练好的SAM模型中，引导SAM在检测框划定的区域内进行精细化的分割。通过这种方式，YOLO负责提供“这是什么”（语义）和“大概在哪里”（位置），而SAM则负责解答“精确的边界是什么样”（分割）。实验结果表明，这种结合策略不仅在1米（无人机影像）、2米（山地数据集）、3米（Planet卫星影像）多种分辨率数据上取得了优异的分割精度（mIoU分别达到0.9240, 0.9449, 0.8211），更重要的是，它只需要相对容易获取的检测框标注（而非精细的像素级标注）来训练YOLO部分，SAM部分则无需微调，从而大幅降低了整体方法的标注工作量。这项研究为在农业遥感领域构建轻量、高效且准确的农田提取框架提供了新的可行路径。

研究者为开展此项研究，主要应用了以下几项关键技术方法：首先，构建了多分辨率、多场景的遥感影像数据集，包括1米分辨率无人机影像（中国双河农场）、2米分辨率公开山地农田数据集（中国重庆地区）和3米分辨率Planet卫星影像，并进行了裁剪、数据增强等预处理。其次，提出了YOLOSc-SAM框架，其核心是改进的YOLOv8检测网络与SAM分割模型的集成。在YOLOSc网络中，研究者用ScConv（Spatial and Channel Reconstruction Convolution）模块替换了原YOLOv8 C2f结构中的标准3x3卷积，以增强特征表示、减少冗余并提升对细小边界的敏感性。最后，利用YOLOSc产生的检测框作为提示，输入到冻结权重的SAM ViT-H编码器中，由SAM完成区域内的精细分割，并将分割掩码赋予检测框对应的语义类别。

研究结果

3.1. 不同方法的效果比较

研究人员在1米、3米分辨率数据集上，将YOLOSc-SAM与U-Net、DeepLab V3+、HRNet、PSPNet、SegFormer、Mask2Former、UNetFormer等主流语义分割模型进行了全面对比。

•
在1米分辨率图像上的预测效果比较：定量结果显示，YOLOSc-SAM在1米数据上取得了最高的mIoU（0.9240）和IoU（0.9691），显著优于其他对比方法。可视化分析进一步揭示，在包含建筑、温室、防护林等复杂场景中，传统CNN（卷积神经网络）方法和部分Transformer方法容易将非农田目标误分为农田，或产生噪声。而YOLOSc-SAM得益于SAM的零样本分割能力，即使训练标签未单独标注温室，也能在检测框的引导下将温室从农田中有效分离出来，展现了更强的场景适应性和语义区分能力。
•
在3米分辨率图像上的预测效果比较：在分辨率较低、地物差异减小的3米卫星影像上，所有方法的性能均有所下降，但YOLOSc-SAM仍保持了竞争力（mIoU为0.8211）。在包含绿色植被干扰的场景中，YOLOSc-SAM表现出更好的稳定性，减少了误分类。
•
模型参数量与运行时效率评估：分析表明，YOLOSc-SAM中可训练参数量（主要来自YOLOSc）相对较少（约3.07 M），但因其集成了参数量庞大的SAM模型（约2.4G），导致整体预测时间显著长于其他对比方法。然而，其优势在于极大地降低了对标注数据的要求。
•
标注工作量对比：研究特别对比了传统像素级标注与YOLOSc-SAM所需的框标注的耗时。对于不规则农田、边界模糊地块等复杂目标，传统标注平均需要40-65个点，而YOLOSc-SAM仅需4个角点（一个检测框），标注工作量平均降低约93.6%，优势极其明显。

3.2. 消融实验的效果比较

为验证各模块贡献，研究者进行了系统的消融实验。

•
卷积模块的影响：用ScConv替换YOLOv8中的标准卷积形成YOLOv8-ScConv，在仅使用检测框的任务上，mIoU从0.7123提升至0.7795，参数量减少，预测时间缩短，PR（精确率-召回率）曲线下面积增加，证明了ScConv在提升特征表示效率和边界敏感性方面的有效性。与GhostConv、RepConv等其他轻量化卷积相比，ScConv取得了最佳的精度-效率平衡。
•
与SAM结合的影响：在YOLOv8-ScConv基础上引入SAM后，mIoU大幅跃升至0.9240，显著提升了分割精度。同时，改进后的YOLOSc-SAM相比原始YOLOv8与SAM的组合，在保持高精度的同时，推理时间略有缩短。实验还表明，YOLOSc检测框的质量和位置直接影响SAM的分割效果，优化检测器有助于提升最终性能。

3.3. 与SAM结合时不同提示方式的效果

研究比较了使用点（Anchor）提示和框（Box）提示对SAM分割的影响。

•
点提示的局限性：当点提示落在温室等非农田目标上时，SAM会错误地将该目标作为分割主体，导致严重误判。
•
框提示的优势：使用检测框作为提示，能为SAM提供更明确的空间范围，使其专注于框内的农田区域进行分割，有效避免了点提示的歧义性问题，从而实现了高精度的语义一致性分割。定量结果显示，使用框提示的mIoU（0.9240）远超点提示（0.3576）。

3.4. YOLOSc-SAM在山地农田数据集（2米分辨率）上的预测效果

为检验模型的跨区域泛化能力，研究在具有复杂地形、破碎田块、模糊边界的2米分辨率山地数据集上进行了测试。

•
性能对比：YOLOSc-SAM取得了所有方法中最高的mIoU（0.9449），在“非农田”类别上表现尤其突出，说明其在区分背景地物（如道路、森林）方面能力更强。
•
场景分析：在包含不同海拔山地、森林与农田交错等复杂场景中，传统方法难以准确识别边缘小地块和农田内部非作物实体，而YOLOSc-SAM结合了YOLO的快速定位和SAM的精细分割优势，表现更为稳健和准确。

3.5. YOLOSc-SAM对高分辨率图像的影响

研究评估了该方法在大范围遥感影像上的提取性能。可视化结果表明，YOLOSc-SAM能够有效地对整区影像完成农田分割任务，准确识别出非农田实体，证明了其处理高分辨率、大尺度场景的实际应用潜力。

研究结论与讨论

本研究的核心结论是，所提出的YOLOSc-SAM框架成功地将目标检测的语义感知能力与通用分割模型的强大零样本分割能力相结合，为高分辨率遥感影像中的农田提取问题提供了一种高效、准确的解决方案。该框架的主要贡献和创新点包括：1) 提出了一种新颖的检测-分割协同范式，将SAM模型引入农业遥感领域，用于精准的农田提取；2) 在1米分辨率影像上展示了更高的精度和更精细的识别能力；3) 通过在网络中集成ScConv模块，同时提升了模型的效率和精度；4) 该方法利用检测标签进行训练，显著减少了人工数据标注的工作量。

在讨论中，作者将YOLOSc-SAM与近年来基于深度学习的农田提取方法（如BSNet、U²Net++等）进行了对比，指出传统方法严重依赖像素级标注的准确性，在标签不完备或存在错误（如未区分温室）时性能会受损。而YOLOSc-SAM对标签粒度的依赖性较低，仅需基本的检测框信息，通过SAM的零样本能力能在推理时纠正标签中的部分错误，具有更强的实用性。此外，研究还探讨了不同卷积操作（如深度可分离卷积、空洞卷积）对网络性能的影响，阐明了ScConv通过同时抑制空间和通道维度的特征冗余，在提升特征表达效率方面的机制。

然而，研究也客观指出了该方法的局限性：由于集成了参数量巨大的SAM模型，其推理速度目前慢于传统的轻量级分割网络，这可能会在一定程度上限制其对实时性要求极高场景的适用性。未来的工作可以着眼于优化SAM的推理效率，或探索更轻量化的提示生成器与分割器的组合。

总而言之，这项研究不仅证实了结合前沿视觉基础模型（如SAM）与特定领域检测器来解决农业遥感挑战的有效性，更重要的是，它通过创新的弱监督范式，为在标注数据稀缺的大规模应用场景中实现高精度农田信息自动化提取开辟了一条切实可行的新途径，对推动智慧农业和精准农业管理具有重要的理论与实践意义。

热点排行

新闻专题