YOLO-EHS：面向果园复杂环境新梅成熟度轻量化检测与多尺度特征融合的深度学习框架

《Smart Agricultural Technology》：YOLO-EHS:A lightweight deep learning framework for Xinmei detection and Multi-scale integration in orchard

【字体：大中小】 时间：2026年03月09日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　针对果园环境下新梅果实的重叠、枝叶遮蔽导致的成熟度识别难题，本文提出了一种基于改进YOLOv8s的轻量级新梅成熟度检测算法YOLO-EHS。该研究设计了PSEFR、MSETFPN-Neck和LSGED等模块，实现了多尺度特征提取与增强融合，在提升检测精度的同时显著降低了模型复杂度。实验表明，优化后的模型平均精度达93.3%，为智能采摘技术提供了有力支持。

随着市场对新梅需求的增长，新梅已成为新疆地区特别是伊犁、喀什等地经济发展的重要支柱。新疆干燥的气候、充足的日照和昼夜温差大，为新梅的优质生长提供了理想条件，使得其果实香甜且营养丰富。然而，新梅的成熟期较短，果实往往在短时间内集中成熟，这给传统的人工采摘带来了巨大压力。人工采摘不仅面临果实识别的困难，还存在效率低下的问题，尤其是当果园环境复杂、果实被枝叶遮挡和相互重叠时。果实的生长阶段受到枝条、树叶等自然环境因素的影响，进一步增加了采摘的难度。在这种背景下，智能采摘技术变得尤为必要，而视觉识别技术在水果检测中的重要性也日益凸显。与视觉识别技术结合的采摘机器人，能够高效、准确地识别不同成熟度的果实，解决人工采摘存在的问题，提高采摘效率，降低劳动强度，成为现代化农业生产的重要工具。

但尽管近年来采摘机器人发展迅速，早期模型受传感器性能和结构设计限制，难以适应复杂的农田环境。随着计算机视觉、深度学习等技术的进步，现代采摘机器人已能够准确识别不同成熟度的果实，显著提高了识别准确率和操作灵活性，成为发展智慧农业的核心技术。传统机器视觉技术主要利用果实的表面特征将其与背景区分开来，实现果实识别。国内外在水果检测研究方面都取得了显著进展。例如，BAI等人提出了一种机器学习辅助的图像分析方法，用于检测聚集的番茄并精确定位采摘点。该方法结合了卷积神经网络（CNN）和支持向量机（SVM）进行番茄识别，确保了在复杂果园环境中的可靠性和实用性。MO等人提出了一种结合遗传算法（GA）和SVM模型来确定香蕉成熟度的方法，以提高果实成熟度检测的准确性。此外，XU等人使用梯度方向直方图（HOG）描述符进行特征提取，提出了一种检测轻微重叠草莓的方法，有效解决了果实重叠的问题。

YU等人提出了一种基于RGB-D图像的荔枝果实识别方法，将RGB图像和深度信息与卷积神经网络和深度图像处理技术相结合。该方法有效克服了复杂光照、果实遮挡等问题，表现出较强的环境适应性和较高的识别准确率。FAN等人提出了一种基于改进YOLOv5模型的检测算法，专门用于检测粗、细品种的水果。该方法通过多尺度特征融合和数据增强技术，增强了模型准确识别不同类型水果的能力，提高了鲁棒性和检测准确率。TANG等人提出了一种基于改进YOLOv4-tiny模型和双目立体视觉的油茶果检测与定位技术。该技术结合双目立体视觉获取深度信息，优化了果实定位，提高了系统的鲁棒性和准确性。NAN等人基于YOLOv3开发了WGB-YOLO网络，解决了光照变化、枝条阴影等因素对火龙果检测精度的影响，达到了86.0%的检测精度，在植物园中表现优异。HUYNH等人提出了一种基于深度迁移学习的图像识别方法来解决樱桃番茄成熟度分类难的问题。VGG19模型在检测樱桃番茄成熟度方面达到了94.14%的准确率。MACEACHERN等人将YOLOv4应用于蓝莓成熟度检测，在蓝莓成熟度检测方面取得了优异的结果。CHEN等人提出了一种结合视觉显著图与卷积神经网络的方法，以解决自然环境中柑橘果实成熟度检测的难题。他们使用四通道ResNet34网络对果实成熟度进行分类，准确率达到95.07%，分别超过了基于RGB的VGG16模型和KNN模型3.14%和18.24%。

尽管在水果检测方面取得了实质性进展，但现有方法在应对复杂果园环境中检测新梅果实的独特挑战方面仍有不足。例如，果实尺寸小、分布密集、枝叶和其他果实的相互遮挡以及遮蔽效应等问题仍未解决。此外，现有技术通常存在检测精度低、模型复杂度高的问题，这限制了其在现实环境中的实际应用。为了应对这些挑战，本研究提出了一种基于增强型YOLOv8s模型的轻量级检测算法YOLO-EHS。YOLO-EHS有效解决了果实重叠和遮挡问题，优化了计算效率，并减小了模型体积。YOLO-EHS的一个关键创新是引入了多尺度加权融合（MSWF），这是一种通过融合不同尺度的特征并施加适当的权重来增强模型识别不同大小果实能力的策略。这种方法不仅提高了识别精度，还优化了计算效率，为新梅采摘机器人视觉识别系统提供了必要的理论和技术支持。相关论文发表在《Smart Agricultural Technology》期刊上。

为了开展这项研究，作者运用了几个关键技术方法。首先，在新疆伊犁哈萨克自治州察布查尔县的新梅种植园，于2023年和2024年的8月和9月进行了数据采集，分别使用iPhone 13和Intel-D455F立体深度相机获取图像，构建了包含3,435张带有像素级标注的新梅图像数据集，并根据新疆地方标准将果实分为成熟、未成熟和病害三类。随后，通过调整角度、降低亮度、强直射光、高斯模糊、椒盐噪声、添加遮挡和雾化等多种数据增强方法将数据集扩增至5,557张图像。在模型改进方面，作者对YOLOv8s模型进行了三项核心改进：用自研的PSEFR（金字塔尺度增强特征表示）模块替换主干网络（Backbone）中的C2F部分，以实现高效的多尺度特征提取；用自研的MSETFPN-Neck（多尺度增强高效特征金字塔网络）模块替换原颈部（Neck）网络，集成了多尺度特征加权融合、分段高效卷积、全局异构核选择机制和高效上采样模块；并提出了一种轻量级检测头LSGED（轻量级共享组增强检测头），集成了共享卷积、组卷积和细节增强卷积，以提升特征表示和检测精度。最后，使用准确率（P）、召回率（R）、平均精度均值（mAP）、参数量（Param）、模型文件大小和浮点运算数（FLOPs）六个指标对模型性能进行了综合评估。

1. 改进的网络建模

研究提出了基于改进YOLOv8s模型的轻量级新梅成熟度检测算法YOLO-EHS。其核心改进和优化包括：

•
PSEFR模块改进主干网络：针对YOLOv8s在特定新梅果实识别检测任务中的局限性（如计算负荷大、多尺度目标检测精度相对较低、缺乏有效的多层次特征融合机制），作者提出了自研的PSEFR模块替换原C2F模块。PSEFR采用部分卷积（PConv）方法和部分多尺度特征提取策略，选择性处理部分输入通道，有效减少了计算冗余和内存访问。该模块结合了残差连接，通过3×3、5×5、7×7等多尺度卷积操作捕获局部细节、中尺度上下文和全局尺度特征，增强了特征表示能力，优化了计算效率，并增强了模型检测不同大小物体（尤其是小物体）的能力。
•
MSETFPN-Neck模块改进颈部网络：为在保持检测精度的同时有效降低模型复杂度，开发了创新的轻量级MSETFPN-Neck模块以替换原Neck模块。该模块通过引入多尺度特征加权融合（采用BiFPN）、分段多尺度高效卷积块（CSP-MSCB）、全局异构核选择机制（MSDC）和高效上采样模块（EUCB），高效处理多尺度特征提取和融合任务。BiFPN通过双向跨尺度连接和快速归一化融合，自适应分配权重，强调关键特征并抑制噪声。CSP-MSCB基于特征图大小动态选择合适卷积核，并利用倒残差块和通道混洗，优化计算效率并增强多尺度特征表示。MSDC通过并行多个不同核大小的深度卷积块，增强模型对不同尺度目标和复杂背景的适应性。EUCB在上采样阶段结合卷积和上采样操作，有效恢复和增强细节信息。这些子模块共同作用，克服了现有方法在多尺度检测中的局限性。
•
LSGED改进检测头：针对原YOLOv8s检测头在特征细节表达、计算效率和归一化策略方面的不足，提出了改进的轻量级检测头LSGED。该检测头集成了共享卷积（Share_Conv）、组卷积（Conv_GN）和细节增强卷积（DEConv）。DEConv通过整合普通卷积、中心差分卷积、角度差分卷积、水平差分卷积和垂直差分卷积五种先验信息，并使用重参数化技术将其等价转换为普通卷积，在不增加额外参数和计算成本的情况下，增强了表征和泛化能力。组卷积（Conv_GN）则采用分组归一化策略，有效提取和重建复杂场景中的细粒度特征。这种组合在保持计算效率的同时，显著增强了详细特征信息，提高了检测精度和稳定性。

2. 材料与方法

本研究以新梅为研究对象。数据集构建如前述，包含不同光照、姿态和遮挡场景下的单目标和多目标新梅果实图像。数据增强后，5,557张图像按7:1:2的比例随机划分为训练集、验证集和测试集。模型评估采用准确率、召回率、mAP、参数量、模型文件大小和FLOPs六项指标。实验在Windows 11操作系统上进行，基于PyTorch 2.2.2、Python 3.10和CUDA 11.8深度学习框架，使用NVIDIA GeForce RTX 4080 GPU进行训练和测试。初始学习率为0.001，输入图像尺寸为640×640像素，训练迭代次数为200轮。

3. 结论与讨论

实验结果表明，优化后的YOLO-EHS模型在复杂果园环境的新梅果实检测任务中表现出色。与原始YOLOv8s模型相比，优化模型的平均检测精度达到93.3%，mAP提高了1.0%，精确率提高了1.8%，召回率提高了2.2%。同时，计算量降低了40.5%，参数量减少了45.1%，模型大小减小了40%。该方法有效解决了复杂果园环境中新梅果实的检测挑战，显著提升了性能。

本研究的核心结论是，所提出的YOLO-EHS算法通过集成PSEFR、MSETFPN-Neck和LSGED等创新模块，成功构建了一个轻量、高效且准确的新梅成熟度检测模型。PSEFR模块增强了主干网络的多尺度特征提取能力；MSETFPN-Neck通过多尺度加权融合、动态卷积核选择等机制，优化了特征融合的效率和尺度适应性；LSGED检测头则强化了对细节特征的捕获和利用。这些改进共同使模型能够在果实重叠、枝叶遮挡、光照变化等复杂果园环境下，实现对不同成熟度新梅果实的鲁棒、精准识别。

其重要意义在于，YOLO-EHS不仅显著提升了新梅成熟度检测的精度和效率，还通过大幅降低模型复杂度和计算资源需求，增强了算法的实用性和部署可行性。这为开发低成本、高效率的新梅智能采摘机器人视觉系统提供了可靠的技术方案和坚实的理论支持，对推动新疆特色林果产业的智能化升级、提高农业生产效率和经济效益具有重要的应用价值。该研究也为其他类似的小尺度、高密度、易遮挡的果蔬目标检测任务提供了有益的借鉴。

热点排行

新闻专题