基于GAN的去模糊技术和目标检测的协同融合网络，用于高速马铃薯播种监控

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月09日 来源：Computers and Electronics in Agriculture 8.9

编辑推荐：

　　针对高速土豆播种中严重非均匀运动模糊导致的目标检测精度下降问题，提出端到端GAN融合的GDTD框架，通过联合优化图像恢复与目标检测，在保持实时处理（27.3 FPS）的同时显著提升检测精度（mAP@0.5:0.95达0.6843），较传统两阶段方法提升19.7%。研究证明语义特征恢复比像素级精度更重要，为智能农业设备提供新方案。

王达|毛旭|王三水|吕继东|李阳|谭宇|福兹洛夫·戈利布琼

中国农业大学工程学院，北京100083，中国

摘要

实时、准确地监测马铃薯的漏种和多粒播种情况对于精准播种至关重要，但高速播种过程中产生的运动模糊现象给这一过程带来了挑战。严重的非均匀、多尺度模糊会显著降低语义区分度特征，使得传统的“去模糊-检测”流程失效。为了解决这个问题，我们提出了一种基于生成对抗网络（GAN）的端到端去模糊-目标检测（GDTD）框架，该框架通过协同训练机制同时优化图像恢复和目标检测。在具有动态非均匀模糊的高速马铃薯播种条件下进行评估时，GDTD的mAP@0.5:0.95（平均精度）达到了0.6843，精度达到了0.9115，分别比基于最先进去模糊技术（TSF-DeblurGAN）和检测技术（基于YOLO的LGCSA-Detector）的两阶段融合框架高出19.7%和5.73%。此外，它还能以27.3 FPS的处理速度实现实时推理，并且功耗低，适用于嵌入式农业设备。通过将优化目标从像素级保真度转变为任务导向的语义恢复，本研究为精准播种及其他智能农业动态场景提供了重要的理论和实践支持，证明了在极端运动模糊条件下，任务驱动的语义恢复比追求像素级完美的去模糊更为关键。

引言

精准农业是应对资源稀缺和环境压力这一全球性挑战的关键方法。其中，精准播种决定了种子的放置和间距，直接关系到播种质量和最终作物产量（Bwambale等人，2025年）。因此，有效的播种需要可靠地监测漏种和多粒播种现象（Cay等人，2018年；Nie等人，2024b年）。对于马铃薯这种全球最重要的粮食和经济作物而言，这一点尤为重要，因为其产量高度依赖于播种的均匀性以及漏种和多粒播种的发生率（Lv Yining等人，2025年；McDonald等人，2024年）。因此，实现实时、准确的播种质量监测具有重要的实际意义（Li等人，2025a年；Nie等人，2024a年）。现代高速精准播种技术进一步加剧了这一挑战，因为大规模种植需要在日益缩短的农时窗口内完成（Qi等人，2025年）。

现有的马铃薯播种质量监测方法主要分为两类：基于物理传感器的方法和基于机器视觉的方法。物理传感器（如光电传感器、电容传感器和红外传感器）可以检测种子通过播种通道或铲子时产生的信号（Ruixiang等人，2014年；Tianhua等人，2022年；Zhu Liang等人，2021年）。基于传感器的系统通常具有结构简单、成本低廉以及易于工程部署的优点（Guanping等人，2024年；Wang等人，2020年）。然而，它们存在一些显著的局限性：在种子严重遮挡的情况下无法检测到重叠的多粒播种现象。此外，它们容易受到振动和灰尘等环境因素的影响，从而导致监测误差增加（Qi等人，2025年）。

随着深度学习和目标检测技术的进步，基于机器视觉的方法越来越多地被用于低速条件下的马铃薯漏种和多粒播种监测。Qiu等人（2023年）设计了一种集成PLC和机器视觉的现场重新播种系统，在0.3–0.7 m/s的行进速度下实现了超过98.5%的漏种检测精度。Zhang等人（2024年）在工业PC上使用了基于YOLOv7的检测系统，实现了96.07%的漏种检测精度，比传统的基于传感器的方法高出5%。然而，这些系统缺乏多粒播种的监测功能。Xiao等人（2025年）引入了一个轻量级的YOLOv5n模型，并通过C3 Faster、RepConv和LAMP剪枝技术进行了优化，实现了98.0%的mAP@0.5精度，同时显著减少了参数数量、GFLOPs和模型大小。然而，这些研究主要在低速（0.2–0.7 m/s）条件下进行了验证，因为它们的性能很大程度上依赖于图像清晰度。据我们所知，目前还没有系统专门针对高速播种条件下产生的运动模糊图像进行设计。随着播种机的速度增加，种子铲的快速运动和振动不可避免地会导致严重的运动模糊，从而产生拉长的物体轮廓、模糊的边缘和种子粘连现象。这种模糊会大幅降低现有检测模型的召回率和精度，影响高速条件下的实时漏种和多粒播种监测的可靠性和准确性。

基于深度学习的图像去模糊方法在改善模糊条件下的视觉监测质量方面具有巨大潜力。虽然卷积神经网络（CNN）在标准静态模糊情况下表现优异，但它们在处理复杂的动态模糊模式时往往泛化能力较弱（Nah等人，2017年）。基于变换器和注意力机制的网络（如Uformer（Wang等人，2022年）和Restormer（Zamir等人，2022年）在捕捉全局图像依赖性和恢复细节方面表现出色，非常适合更复杂的去模糊任务。然而，它们的高计算复杂性和慢速推理速度限制了实时应用。迭代扩散模型（如ID-Blau（Wu等人，2024年）虽然能够高效去噪并恢复细节，但计算开销较大。此外，动态条件下重叠区域中的严重多尺度非均匀模糊和模糊边缘问题尚未得到充分研究，仍是一个巨大的去模糊挑战。相比之下，生成对抗网络（GAN）在恢复质量和推理效率之间提供了良好的平衡，这一点通过DeblurGAN（Kupyn等人，2018年）、DeblurGAN-v2（Kupyn等人，2019年）和SRN网络（Tao等人，2018年）等先进模型得到了证明。这些工作为开发适用于高速马铃薯成像的高效去模糊解决方案奠定了基础。

在图像恢复和检测的融合方面，现有研究通常采用两阶段流程，即“去模糊-检测”架构。例如，Zhou等人（2020年）将Filter-DeblurGAN与VL-YOLO结合使用，提高了运动模糊条件下的车辆标志检测精度。同样，Li等人（2025b年）和Zheng等人（2025年）分别将两阶段融合方案应用于隧道缺陷和接缝缺陷检测，取得了显著改进。在农业应用中，Xing等人（2023年）表明，在进行枸杞枝条分割之前应用他们提出的MFENet去模糊网络，将平均精度从35.36%提高到了36.72%，并将推理速度从25.42 FPS提高到了31.86 FPS。Huang等人（2025年）报告称，经过他们的AGG-DeblurGAN恢复后，柑橘检测的mAP@0.5:0.95提高了86.4%，召回率提高了76.9%，F1分数提高了40.1%，而使用模糊图像时的假阴性率降低了63.9%。总体而言，这些工作展示了GAN驱动的去模糊技术在复杂农业场景中提升视觉识别的潜力。

总之，尽管将图像去模糊与目标检测相结合取得了显著进展，但在应用于高速马铃薯播种这一特定任务时仍存在明显瓶颈。首先，现有模型缺乏针对高速农业操作的定制设计。通用去模糊方法难以处理非均匀、大尺度的运动模糊，而通用检测器对种子目标的多尺度变化、相互粘连和背景杂乱的鲁棒性有限。其次，“去模糊-检测”序列架构存在优化目标之间的内在冲突：上游的去模糊过程基于像素级保真度指标（如PSNR/SSIM），而下游的检测器依赖于高级语义特征（mAP）。这种不一致性往往导致恢复的图像在视觉上清晰，但在语义上不足以满足检测需求。为了解决这一冲突，我们明确将优化目标从像素级保真度重新定义为任务导向的性能，其中“任务导向的性能”是通过目标检测指标（即平均精度mAP和精度）来衡量的，而不是像素级图像质量指标（如PSNR和SSIM）。这种范式转变有两个关键优势：首先，它直接将图像恢复目标与最终任务需求对齐，避免了视觉上清晰但语义上不足以进行准确检测的次优解决方案；其次，它指导去模糊网络优先恢复与任务相关的结构（如种子边缘、轮廓和边界），即使在一定程度上牺牲了传统的像素保真度指标。因此，本研究的目标是开发一个协同的去模糊-检测框架，能够在高速播种引起的严重运动模糊条件下实现准确、实时的马铃薯漏种和多粒播种监测。

本文介绍了一种新的训练机制，该机制在高速播种引起的严重运动模糊条件下同时优化图像恢复和目标检测，从而形成了一个集成的DeblurGAN检测框架。该框架通过将种子分为三类——“单粒种子”、“多粒种子”和“漏种种子”来实现实时、高精度的种子检测。本研究的主要贡献包括：（1）构建了一个包含成对模糊-清晰图像的高速播种数据集，为去模糊和检测研究提供了坚实的基础；（2）设计了一个轻量级的基于GAN的去模糊模型和一个改进的基于YOLO的检测模型，两者都在有限的计算资源下实现了高恢复质量和检测精度；（3）提出了一个端到端的“基于GAN的去模糊-目标检测”（GDTD）混合框架，通过高级语义反馈将优化目标从像素级保真度转变为任务导向的性能。

部分片段

高速马铃薯播种数据集构建

高速马铃薯播种的需求使得本研究中的数据集之间需要精确的时间对应关系。这种对应关系为开发能够在此类条件下运行的图像去模糊和漏种/多粒播种检测模型奠定了基础。遵循统一的采集协议，构建了一个包含运动模糊图像数据集和一个漏种/多粒播种检测数据集，两者之间存在内在联系：清晰的、带有注释的

部署环境和模型配置

所提出的GDTD框架包括两个专门的任务：上游任务包含用于图像去模糊的TSF-DeblurGAN模型，下游任务包含用于目标检测的LGCSA-Detector。本研究提出的所有模型都在相同的实验条件下进行了训练和评估，以确保公平和全面的性能比较。训练是在配备NVIDIA GeForce RTX 4090（24 GB）GPU的工作站上使用PyTorch 2.4.1和CUDA进行的

高速运动模糊下目标检测的退化

本研究设计了一个受控实验，以展示和评估高速运动模糊对目标检测的影响。几种广泛研究的目标检测模型，包括YOLOV5s（Jocher，2020年）、YOLOV8n（Yaseen，2024年）、RT-DETR-r18（Zhao等人，2024年）和YOLOv11n（Khanam和Hussain，2024年），都在第2.1.1节描述的清晰图像数据集上进行了训练。然后，这些训练好的模型在清晰测试集和相应的运动模糊测试集上进行了测试

结论

本研究揭示了在极端运动模糊条件下基于视觉的监测的一个基本见解：准确的目标检测并不需要完美的图像恢复。相反，在检测损失的指导下恢复语义区分度特征（如种子边缘、轮廓和结构边界）对于下游任务来说既足够又更有效。这一发现挑战了传统的观点，即更高的PSNR/SSIM必然带来更好的检测效果

CRediT作者贡献声明

王达：撰写——原始草稿、方法论、形式分析、数据整理、概念化。毛旭：验证、监督、调查、资金获取。王三水：数据整理。吕继东：形式分析。李阳：监督、调查。谭宇：监督。福兹洛夫·戈利布琼：监督。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本研究得到了中国国家重点研发计划（项目编号：2023YFD2000902）的资助。

联系信箱：

粤ICP备09063491号

摘要

引言