《Frontiers in Plant Science》:Machine vision-based detection method for key phenotypic information of shiitake mushroom stipes
1 引言
香菇菌柄作为香菇生产与加工过程中的副产物,富含蛋白质、氨基酸和碳水化合物等营养成分。值得注意的是,菌柄中的纤维素含量显著高于菌盖,这使得菌柄在营养和药用应用方面具有潜在价值。2024年,中国香菇产量达到约13,152,000吨,占全球总产量的90%以上。作为香菇的重要组成部分,菌柄与关键表型性状及重量特征密切相关,这些特征是衡量香菇整体质量的重要指标,在香菇育种中扮演着关键角色。因此,对香菇菌柄关键表型性状的检测与分析具有重要的研究和应用价值。
传统的表型获取方法依赖于人工测量,存在主观性强、效率低下的问题。面对大规模群体时,工作量大且结果不可靠,制约了育种技术的发展。随着传感器技术、现代成像技术、计算机科学与工程的快速发展,基于三维重建的作物表型系统研究得到了有力支持。这些系统通常利用深度相机和激光雷达(LiDAR)传感器捕获点云数据,并通过分割和分析从中提取表型信息。然而,当三维技术应用于蘑菇表型检测时,暴露出成本高、对环境敏感、数据处理复杂、精度有限和操作复杂等局限性,阻碍了其广泛应用。相比之下,基于机器视觉的图像分析方法利用相机捕获蘑菇菌柄的二维图像进行表型测量,具有定量分析、可重复性高、易于与其他技术集成以及成本较低等优势。
基于机器视觉的表型检测方法主要分为两类:基于传统图像处理算法的方法和基于深度学习算法的方法。表型检测的基础是边缘轮廓信息。在传统方法中,边缘检测方法已被广泛研究。然而,传统边缘检测算法在应对形态多样的蘑菇菌柄以及需要强泛化能力的算法来检测关键表型指标时,存在一定的局限性。
近年来,随着深度学习技术的进步,基于深度学习的边缘检测方法也得到了发展。为了在香菇育种表型分析中实现全面的菌柄表型分析,本研究提出了一种集成图像处理技术和高精度重量传感技术的香菇菌柄关键表型性状检测方法。具体研究目标包括:开发基于改进YOLOv11的目标检测算法,并将检测结果通过边界框提示输入EfficientSAM进行图像分割,从而精确提取香菇菌柄的边缘轮廓信息;基于边缘轮廓数据,设计基于OpenCV的表型特征提取算法,计算关键表型参数,并评估其在红色和绿色背景下的性能;创新性地基于YOLOv11增强姿态估计算法,通过标记菌柄中心线进行训练,从而实现不规则形状菌柄的精确中心线检测。
2 材料与方法
2.1 图像采集设备
实验场地设在北京昌平区国家精准农业示范基-地。香菇菌柄表型设备的外观和框架结构如图1所示。图像采集设备由接口、外壳、相机、镜头、红色和绿色背景板、补光灯、USB扩展端口、联想品牌工控机、显示器、压力传感器、高精度重量传感器、冷却风扇等组件构成。镜头与背景板的距离为270毫米,相机视场为150毫米×150毫米。图像采集时,相机设置为JPEG格式,曝光时间50毫秒,ISO 100,能够更清晰地获取香菇菌柄图像。
2.2 数据采集
2.2.1 图像数据采集
图2显示了2024年7月至11月采集的红色和绿色背景下的香菇菌柄图片。数据样本由上海市农业科学院食用菌研究所提供,品种为申香1504;共8个批次985个样本。图像采集过程在采集设备中进行,通过设置感兴趣区域(ROI)进行图像采集,并使用13毫米定焦镜头分别在红色和绿色背景下拍摄香菇菌柄图片。相机镜头视场在设置ROI后为150毫米×150毫米和130毫米×130毫米;镜头距目标距离大于200毫米,图像分辨率为5488×3672。分别采集了985张红色和绿色背景的菌柄图片,总计1970张。这些图像按7:2:1的比例划分为训练集、测试集和验证集。
2.2.2 香菇菌柄关键性状数据
参考香菇DUS测量标准,本研究对收集的香菇菌柄样本的种类和关键表型性状进行了详细测量和分析。根据菌柄长度对样本进行分级,分为极短、短、中、长和极长五类。极短类别有77个样本,长度范围0-11.56毫米;短类别样本数量最多(731个),长度在11.57-27.69毫米之间;中类别包括141个样本,长度范围27.7-43.83毫米;长类别有36个样本,长度从43.84-59.96毫米;未发现极长类别样本。此分类为后续菌柄表型特征分析提供了参考。
表2列出了本研究中使用的关键性状指标、测量方法、单位和标准,全面涵盖了香菇菌柄的所有基本表型性状。测量过程严格遵循表中的规范。考虑到实际操作可行性,选择外接矩形长度、外接矩形宽度、最大厚度、最小厚度、平均厚度和重量作为可测量指标。其中,尺寸相关指标以毫米(mm)为单位测量,重量以克(g)为单位测量。为确保数据准确性和可重复性,每个测量值均为三次独立试验的平均值。菌柄的颜色参数,包括红色(R)、绿色(G)、蓝色(B)颜色通道的平均值以及平均灰度强度,使用MindVision图像分析软件从高分辨率图像中提取。重量作为反映产量和生长条件的关键指标,用于在5克至100克范围内校准压力传感器,确保测量可靠性。其他参数,如菌柄中心线曲率、面积和周长,使用基于机器视觉的图像分析算法提取。
2.3 方法
本研究旨在获取香菇菌柄的关键表型信息,主要由两个部分组成,如图3所示。第一部分是算法开发,首先构建基于目标检测网络的模型,以快速获取检测框和图像分割后的边缘信息;随后提取菌柄的关键表型性状;最后开发中心线识别网络以捕获菌柄的中心特征。第二部分重点是将表型算法部署到表型设备上,评估其性能并进行误差分析验证。具体包括:(1)针对香菇菌柄的关键性状,使用表型设备采集图像,并采用改进的ACmix-ADown-YOLOv11检测算法生成准确的菌柄检测框;(2)基于精确且轻量化的EfficientSAM模型和选定的检测网络获取边缘信息,以框提示为核心建立检测算法与EfficientSAM模型之间的关联;(3)基于精确的边缘信息分析香菇菌柄性状,利用OpenCV库中的算法构建关键性状估计模型,并验证预测值与真实值之间的误差;(4)以CoTAttention-YOLOV11n-Ghost-pose为基础,精确提取香菇菌柄的中心线;(5)评估表型检测算法和中心线算法的性能,并验证其准确性。
2.3.1 ACmix-ADown-YOLOV11n算法
本研究的目标是识别蘑菇菌柄的关键表型特征。由于勾勒菌柄轮廓的检测框仅作为参考,足够精确的检测结果即可满足要求,无需过高的精度。因此,本研究采用轻量化的YOLOv11n作为基线模型,训练参数设置为训练轮数(epochs)=100,批次大小(batch size)=32,学习率(learning rate)=1e-4,使用PyCharm作为编译器,Flask进行算法封装。为了进一步提升模型效率,使用ADown替换原始卷积层。该方法有效减少了模型参数量,从而降低了计算复杂度,同时保留了蘑菇菌柄的关键边缘特征信息,以提高目标识别精度。此外,模型中集成了ACmix注意力机制(Attention and Convolution Mixed)。该机制结合了自注意力(self-attention)的全局感知能力和卷积的局部特征提取能力,能够在保持模型性能的同时减少参数量。改进后的算法架构如图4所示。最终,将得到的检测框作为EfficientSAM中框引导模块的输入。
ACmix模型通过有效集成卷积操作和自注意力机制,显著提升了模型性能和计算效率。ACmix的结构设计如图5所示。其核心创新在于利用1×1卷积将输入特征图转换为中间表示,然后进行特征分解和融合。该策略使得卷积和自注意力组件能够共享相同的1×1卷积操作,从而显著减少了冗余计算。双路径架构不仅利用了自注意力提供的全局轮廓感知能力,还通过卷积捕获了详细的局部菌柄轮廓特征,同时保持了较低的计算开销。ACmix的模块化架构支持无缝集成到各种网络框架中,从而增强了网络的特征表示能力。此外,ACmix通过将传统的卷积和自注意力操作分解并重构为更精简的形式,提高了计算效率并降低了模型复杂度。这种混合模块设计优化了特征通道上的计算复杂度,通过共享计算资源以及两种互补聚合机制的协同组合,实现了高效的特征提取和改善的模型性能。
ADown模块是一种创新的轻量化下采样卷积块,旨在提升YOLOv11n的运行效率。其核心优势在于紧凑的架构,通过最小化参数数量来降低模型复杂度,从而即使在轻量化模型中也能保持高计算效率。虽然ADown的主要功能是降低香菇菌柄特征图的空间分辨率,但它也专门设计用于保留关键图像信息,支持更精确的轮廓检测。此外,该模块融入了自适应学习能力,使其能够调整以适应数据集中的背景变化,从而增强模型的泛化性能。
在本研究中,ADown模块被灵活集成到YOLOv11n的主干网络(backbone)和检测头(detection head)中,以替代传统的下采样操作。在主干网络中,ADown有效地对特征图的多个层进行下采样,而在检测头中,它进一步细化香菇菌柄特征图的分辨率。这种双重集成策略提高了目标检测精度,同时减少了计算负载。
2.3.2 EfficientSAM分割模块
EfficientSAM是Segment Anything Model(SAM)的轻量化变体,它通过掩码图像建模(masked image modeling)学习重建SAM图像编码器的特征,实现了高效的视觉表示学习。该方法不仅降低了模型复杂度,还在多个视觉任务中表现出卓越的性能,包括图像分类、目标检测、实例分割和语义分割。EfficientSAM框架分两个阶段运行:首先在ImageNet数据集上对SAMI进行预训练,然后在SA-1B数据集上对SAM进行微调。这种两阶段策略使EfficientSAM能够达到与原始SAM模型相当的性能,同时保持较低的计算成本。EfficientSAM在实例分割任务中引入了框提示(box cueing)机制。该机制允许模型在推理过程中接受边界框作为输入,引导其在指定区域内执行详细分割。这一特性对于我们的香菇菌柄轮廓分割任务特别有益,因为它显著缩小了处理区域,从而提高了分割效率和准确性。
在本研究中,ACmix-ADown-YOLOv11n模型的输出被用作EfficientSAM的框提示输入。该提示指导香菇菌柄的分割,实现快速精确的边界识别和对象分割。得到的分割图像随后用于提取最大轮廓边缘,作为后续表型性状分析的基础。
2.3.3 香菇菌柄的表型表征
本研究的核心目标是检测香菇菌柄的表型性状,这些性状分为基本表型性状和复杂表型性状,例如中心线检测。基于先前提出的方法获得的精确菌柄边缘信息,我们能够通过实施基于OpenCV的表型算法来计算12个基本表型特征,包括菌柄外接矩形长度、外接矩形宽度、曲率和厚度等。由于菌柄姿态的变化,本研究中的中心线检测是使用基于YOLOv11-pose改进的姿态检测网络进行的。
2.3.3.1 基本表型信息分析
在本研究中,基本表型指标使用基于OpenCV的算法进行计算。首先,对EfficientSAM生成的分割图进行二值化处理,并执行轮廓检测以提取菌柄的周长。使用cv2.contourArea函数计算轮廓所包围的面积,同时应用cv2.boundingRect确定外接矩形边界框,从中导出外接矩形的长度和宽度。使用cv2.bitwise_and函数通过分割掩码对原始图像进行掩码处理,得到仅包含菌柄轮廓内像素的图像。对于该提取区域,使用cv2.calcHist函数计算RGB颜色直方图,提供R、G、B颜色通道的分布信息以及平均灰度强度。为了测量厚度,沿外接矩形框的顶部和底部边缘选择五个等距点,并连接相应的点形成五个横截面线。识别这些线与菌柄轮廓的交点,并连接这些点对以计算四个厚度测量值。根据这些值计算最大、最小和平均厚度。
对于曲率分析,使用cv2.ximgproc.thinning函数提取菌柄的骨架。由于香菇菌柄的结构复杂性,仅保留主骨架分支。主骨架线的端点和中点用于定义两条垂直线,其交点作为拟合圆的中心。曲率则定义为该圆半径的倒数。考虑到菌柄的独特结构,中心线计算方法将在单独的小节中详细描述。
2.3.3.2 香菇菌柄中心线检测
为了解决基于深度学习的目标检测通常仅输出候选区域而无法提取菌柄中心线的局限性,以及传统OpenCV算法在中心线提取方面精度不足的问题,我们提出了一种改进的架构。具体而言,我们创新性地在YOLOv11-pose姿态估计网络主干的C2PSA层之前集成了CoTAttention机制,并将检测头中的标准卷积层替换为GhostConv模块。由此产生的CoTAttention-YOLOv11-pose-GHOST网络用于预测香菇菌柄的中心线。在数据标注阶段,必须手动标记中心线。由于香菇菌柄的形态可变性,两个端点的位置决定了中心线的长度和方向。虽然理论上至少需要三个坐标点来定义一条曲线,但使用过多点会增加计算复杂度而不会显著提高精度。为了平衡精度和效率,本研究选择五个关键点作为中心线检测的控制点(如图6所示)。这五个点的标注规则如下:最左和最右的点代表香菇菌柄的端点,而三个中间点沿菌柄长度均匀分布,形成一个五元组。每个关键点定义为菌柄相应位置上下边缘的中点。
对于中心线检测,本研究共标注了红色和绿色背景下的985张中心线图像。这些图像按7:2:1的比例划分,即689张用于训练,197张用于测试,99张用于验证。这些数据集被输入CoTAttention-YOLOv11-pose-GHOST姿态检测网络进行模型训练。
2.3.3.3 转换因子与误差
本研究中,相机镜头通过固定支架固定在距离背景板270毫米处,图像分辨率为5488 × 3672像素。由于香菇菌柄质地柔软且不规则,使用游标卡尺进行人工测量可能引入误差。因此,使用四种标准参考物来验证系统的测量精度(如图7所示):1元人民币硬币(直径25.00毫米)、5角人民币硬币(直径20.50毫米)、1角人民币硬币(直径19.00毫米)和15厘米标准刻度尺。
首先,从刻度尺图像中选择5毫米、3毫米和1毫米的线段,并记录相应的像素数。使用线性拟合计算像素到真实世界的转换系数,结果为0.042毫米/像素。接下来,使用游标卡尺分别测量三种硬币外接矩形的宽度和高度各三次,取平均值作为真实值。由于硬币是圆形的,宽度和高度的平均值等同于直径。随后,将标准参考物放置在表型设备的视场内,并水平调整其位置三次(每次在不同位置)。使用图像算法测量每个位置的外接矩形宽度和高度,并将三次测量的平均值作为测量值。最后,计算真实值与测量值之间的绝对误差(真实值 – 测量值)以评估系统的测量精度。
2.3.4 评估方法
本研究中,使用以下指标评估算法:平均精度(AP)、召回率(Recall)、mAP50、参数量、PyTorch下的推理速度(以毫秒计)和模型大小。对于中心线预测,评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、最佳数据集尺度(ODS)、每图最佳阈值(OIS)和AP。具体公式如下:
Precision = TP / (TP + FP) (1)
Recall = TP / (TP + FN) (2)
为了评估菌柄表型算法的可靠性,本研究使用决定系数(R2)、均方根误差(RMSE)、均方误差(MSE)和平均绝对误差(MAE)来评估菌柄表型参数估计值与真实值之间的差异。具体公式如下:
R2 = 1 - [∑i(?i- yi)2] / [∑i(?i- yi)2] (3)
RMSE = √[(1/m) ∑i=1m(yi- ?i)2] (4)
MSE = (1/m) ∑i=1m(yi- ?i)2 (5)
MAE = (1/m) ∑i=1m|(yi- ?i)| (6)
其中?i表示预测值,yi代表真实值,?i表示平均值。MAE反映了预测值的实际误差大小,对异常值相对不敏感。较小的RMSE值表明模型性能更好,并且反映了对大误差的更高敏感性。R2是回归分析中常用的指标,用于评估模型的拟合优度,其值越接近1,表明模型对数据的拟合越好。
3 结果
3.1 表型指标性能
3.1.1 基本表型指标性能
我们系统评估了多种最先进的轻量级目标检测模型在特定香菇菌柄数据集上的性能,包括YOLOv5、YOLOv6s、YOLOv8-Ghost-p2、YOLOv9s、YOLOv10n、YOLOv11n及其改进版本,旨在识别在菌柄轮廓检测方面表现优异的模型。表3详细列出了每个模型在红色和绿色数据集上训练100轮后的关键性能指标,涵盖了召回率、平均精度(AP)、IoU=0.5时的平均精度(mAP50)、十亿浮点运算次数(GFLOPs)、模型参数量和PyTorch框架下的推理速度。召回率分析显示,ACmix-ADown-YOLOV11n模型表现突出,在绿色背景下以0.898的值在所有模型中排名第一;这表明其在识别香菇菌柄方面具有高灵敏度。相比之下,ADown-YOLOV11n模型由于其过于简化的网络结构,在绿色背景下的召回率最低,为0.479;尽管其达到了15.89毫秒的最大检测速度,但这仍然影响了其在目标检测任务中的全面性。在评估AP分数时,ACmix-ADown-YOLOV11n模型在绿色背景下再次表现出优越性,得分为0.937,同时在红色背景下达到0.903的AP分数——这些指标反映了其在不同背景下保持高检测精度的能力。虽然YOLOv5s模型在绿色背景下的AP分数为0.806,表现尚可,但其低召回率(0.556)限制了在实际应用中的有效性。mAP50指标进一步巩固了ACmix-ADown-YOLOV11n的领先地位,在绿色背景下的得分为0.910,显著优于其他模型;这一结果凸显了其在处理香菇菌柄数据时的准确性和可靠性——而C3Ghost-GhostConv-YOLOV11在类似条件下也达到了0.820的mAP50分数。
在计算效率方面,ACmix-ADown-YOLOv11n的GFLOPs为5.26,与YOLOv5s相当。然而,其参数量略高,为2,116,299。尽管参数增加,ACmix-ADown-YOLOv11n的推理速度最高达到23.97毫秒,表明该模型在有效管理计算复杂度的同时能够保持快速处理速度。这一特性对于需要实时反馈表型数据的育种场景尤为重要。尽管YOLOv11n在速度上有优势,但在召回率和平均精度方面表现不佳。这一局限性主要源于其简化的网络结构,为了提高推理速度而牺牲了检测精度。此外,YOLOv8-Ghost-p2在绿色背景下的AP和mAP50指标表现平庸,分别为0.760和0.656。这种表现不佳归因于其网络设计无法充分适应香菇菌柄的特定特征。
总之,ACmix-ADown-YOLOV11n模型在保持高检测精度的同时实现了快速处理速度,这使其在实时目标检测领域具有显著的应用潜力。其在不同性能指标上的均衡表现,特别是在召回率和平均精度方面的突出成就,证明了其在处理红色和绿色数据集时的鲁棒性和有效性。
3.1.2 边缘检测模型的定性分析
为了评估菌柄边缘检测在不同背景条件下的鲁棒性和准确性,并