《Scientific Reports》:A zero-shot learning framework for chilli leaf disease detection, classification and severity estimation using contrastive image text representations
编辑推荐:
为解决辣椒叶部病害人工识别滞后、传统深度学习模型对未知病害识别能力不足且缺乏严重度评估的问题,研究人员开展了一项基于零样本学习框架的研究。该研究提出了一种结合视觉变换器(ViT)和RoBERTa文本编码器的双编码器架构,实现了对已知及未知病害的高精度识别(准确率达98.7%)并集成病灶分割进行定量严重度评估。该框架显著提升了病害识别的可扩展性和实用性,为农业实时病害监测提供了无需重新训练即可适应新病害的解决方案。
辣椒(Capsicum annuum L.)是亚洲、非洲和拉丁美洲许多国家的重要经济作物,但其生产常受到多种叶部病害的威胁,包括炭疽病、尾孢菌叶斑病、白粉病、卷叶病毒病、细菌性斑点病和花叶病毒等。这些病害不仅导致产量下降,还严重影响果实品质。目前,田间病害识别主要依赖农业专家的肉眼检查,这种方法难以大规模推广且易受主观因素影响。尽管基于卷积神经网络(CNN)的计算机辅助诊断技术已在植物病害识别中取得显著进展,但它们通常需要大量标注数据、严格的类别平衡,并且无法识别训练集中未出现过的新病害。此外,大多数现有系统仅提供病害类型分类,而缺少对病害严重程度的定量评估,而这对于农民制定精准施药策略、预算分配以及产量预测至关重要。
为此,研究人员在《Scientific Reports》上发表了一项研究,提出一个面向辣椒叶部病害的零样本学习(ZSL)框架。该框架不仅能对已知病害进行高精度分类,还能识别训练时未见的病害类别,并自动估计病害严重程度。
为开展本研究,作者主要采用了以下几项关键技术方法:首先,利用从Mendeley和Kaggle等公开平台获取的辣椒叶部图像构建数据集,涵盖细菌性斑点病、尾孢菌叶斑病、卷叶病毒病、营养缺乏症及健康叶片五类,共3600张图像,并按70:20:10比例划分为训练集、验证集和测试集。预处理阶段采用对比度受限自适应直方图均衡化(CLAHE)和条件变分自编码器(cVAE)进行图像增强与去噪,并利用Albumentations库进行数据增广。模型核心为双编码器架构,视觉分支采用视觉变换器(ViT)提取图像特征,文本分支采用RoBERTa编码病害描述文本,通过对比学习将图像和文本映射到共享潜在空间,从而实现零样本分类。严重度评估则利用U-Net网络分割叶片病灶区域,计算病灶面积占叶片总面积的比例(S%)来量化严重程度。
数据特征提取
研究采用双编码器策略融合视觉与文本信息。视觉变换器(ViT)将图像分割为16×16的图块,通过Transformer层提取全局特征。文本编码器使用RoBERTa对病害描述文本进行编码。两者特征通过投影矩阵映射到共享潜在空间,实现语义对齐。
模型训练与测试
采用对比损失函数(Contrastive Loss)训练图像和文本编码器,使匹配的图像-文本对在潜在空间中靠近,不匹配的对远离。推理时,通过计算图像嵌入与所有类别文本嵌入的余弦相似度,选择最相似的类别作为预测结果。
严重度估计
利用U-Net分割模型自动检测叶片病灶区域,通过计算病灶面积与叶片总面积的比例(S%),将严重程度划分为四个等级:轻度(0< />< />50)。该指标为病害管理提供量化依据。
性能分析
分类报告:模型在测试集上准确率达到98.7%,精确度、召回率和F1分数均超过98%。其中,细菌性斑点病的精确度为1.00,F1分数为0.9899;卷叶病毒病的F1分数为0.98,各类别性能均衡。
混淆矩阵热图:训练过程中,模型初期对细菌性斑点病与尾孢菌叶斑病存在混淆,随着训练进行,混淆逐渐减少。至第99轮训练周期(Epoch),模型在所有类别上均实现完全正确的分类,混淆矩阵呈完美对角线分布。
ROC-AUC曲线分析:所有类别的ROC曲线下面积(AUC)均达到1.000,表明模型具有极强的类别区分能力。
学习率敏感性:学习率设置为5×10-5时,模型性能最优,准确率达98.7%。其他学习率下性能略有下降,但整体波动较小,显示模型对超参数选择不敏感,具有较强的鲁棒性。
K折验证:采用9折交叉验证,在不同训练集-测试集划分比例下(如10:90、20:80等),模型准确率均保持在97.92%至98.91%之间,进一步验证其泛化能力。
严重度估计结果:感染比例分析显示,卷叶病毒病的平均感染比例最高(19.8%),尾孢菌叶斑病为16.4%,健康叶片为16.3%。卷叶病毒病同时具有最高的严重度得分(0.395),表明其危害性最大。严重度得分与感染比例高度相关,证实评估结果的有效性。
讨论与结论
本研究提出的零样本双编码器框架成功解决了辣椒叶部病害检测中的三个关键问题:对未知病害的识别能力、复杂环境下的鲁棒性以及病害严重度的定量输出。通过结合视觉与语言信息,模型实现了高精度分类(准确率98.7%)和可解释的严重度评估,无需重新训练即可适应新出现的病害类别。与现有方法相比,该框架在准确率、精确度、召回率和F1分数上均具有明显优势。研究结果标志着人工智能在植物病害诊断中的重大进展,为精准农业中的实时病害监测和防控决策提供了可靠的技术支持。未来工作可将该框架扩展至其他作物病害检测,并集成至物联网(IoT)或无人机(UAV)平台,实现田间实时诊断与管理。