Chat Demeter：融合CNN-Transformer模型与多智能体系统的植物病害诊断新范式

《Frontiers in Plant Science》：Chat Demeter: a multi-agent system for plant disease diagnosis integrating CNN-transformer models

【字体：大中小】 时间：2026年01月19日 来源：Frontiers in Plant Science 4.8

编辑推荐：

　　本综述系统介绍了Chat Demeter系统，这是一个集成CNN-Transformer混合深度学习模型的多智能体系统（MAS），用于植物病害诊断。该系统通过摄像头捕获叶片图像，利用改进的ResNet-50结合Transformer编码器进行特征提取与分类，实现了高达99.50%的准确率和99.91%的AUC。系统包含任务规划、推理、评估和可视化四个智能体，通过协同工作提供实时诊断与治疗建议，并通过检索增强生成（RAG）机制增强领域知识的交互性，为精准农业和可持续农业发展提供了有效的智能化工具。

植物病害是全球农业生产面临的重大挑战，实现高效、准确的病害检测对于减少作物损失、控制农业成本和提高产量至关重要。随着农业快速迈向数字化和智能化转型，人工智能技术的应用已成为提升产业竞争力的关键途径。本研究提出的Chat Demeter，是一个基于深度学习的植物病害诊断多智能体系统。

1 Introduction

农业生产力对经济增长和粮食安全至关重要。然而，无法识别和控制植物病害——尤其是叶部病害——可能导致病害迅速流行，造成严重的产量损失和经济损害。传统的病害鉴定依赖于专家诊断或人工视觉检查，这些方法效率低下，不适用于大规模农业。此外，植物病理学专家的稀缺常常导致病害检测延迟，直至造成重大损害。因此，自动化、准确且用户友好的早期病害检测方法至关重要。

数字工具在农业中扮演着日益重要的角色。即使在资源有限地区，智能手机和移动互联网的广泛使用也使得“农业4.0”和“数据驱动农业”等倡议成为可能。语音消息等技术可以传递实时天气更新和栽培建议，而移动应用程序则有助于提供施肥的时空建议。诊断应用程序（如Petrelis的叶病应用程序）的开发提高了农业实践中病害检测的可及性。因此，数字农业正获得全球关注，各种组织、政府和投资者都在推广数字技术部署以应对农业挑战。同时，计算机视觉和深度学习的进步正在显著提高病害诊断的准确性。卷积神经网络（CNN）已被广泛用于叶部病害分类，通过在PlantVillage等基准数据集上使用迁移学习，准确率超过95%。

尽管取得了这些进展，许多最先进的模型仍局限于实验室环境，缺乏用户友好的界面，限制了实际部署。移动应用程序通过使AI驱动的诊断工具更容易触达农民，部分解决了这个问题。然而，基于智能体的技术在农业环境中提供了额外优势。智能体可以自主决策、优化性能并适应动态环境，使其成为现实世界农业场景的理想选择。通过利用自然交互、机器学习和多智能体协调，这些系统可以高效执行任务，同时增强用户参与度。因此，将智能体技术整合到植物病害诊断中，有潜力推动农业数字化并改善病害管理。

本研究提出了Chat Demeter，一个用于植物病害检测和严重度量化的多智能体系统，它结合了基于深度学习的叶部病害分类和传统图像处理方法。该系统能准确识别健康和病叶，通过评估病斑区域相对于总叶面积来量化病害严重度，并具有实时操作和自主决策能力。该系统在PyTorch框架上使用轻量级深度学习模型实现，在多样化的农业环境中平衡了准确性、泛化性和实时可靠性。该系统被集成到Coze平台上的基于智能体的框架中，实现了自动识别和响应，减少了对人工干预的需求，并增强了部署灵活性。最终，Chat Demeter为农民提供了一个用户友好、交互式的平台，用于快速识别病害和评估严重度，为智慧农业中的精准病害管理提供了一条可行之路。

1.1 Related work

1.1.1 Review of plant pest and disease detection based on traditional image processing methods

植物病虫害图像识别长期以来一直是智能农业管理的重要组成部分。传统的图像处理技术在该领域拥有相对较长的应用历史。早期研究通常结合图像预处理、手工特征提取和经典分类算法来完成病害识别和分类任务。在训练过程中，图像通常经过去噪、增强和背景去除，以突出病斑区域并提高分类准确性。随后，研究人员应用颜色空间转换、阈值处理和聚类等技术来分割图像，并提取形状、颜色和纹理等代表性特征。这些特征是人工智能发展的基础。随着人工智能的发展，深度学习——特别是卷积神经网络（CNN）——显著推动了植物病虫害识别的自动化和准确性。与传统方法相比，深度学习模型具有端到端的学习能力，可以直接从原始图像中自动提取多层次的区别性特征，从而大大减少了人工干预的需求。早期研究主要采用简单的CNN架构进行病害分类，但后来演变为更复杂的深度网络，如ResNet、DenseNet和InceptionNet，在PlantVillage等基准数据集上实现了95%以上的分类准确率。此外，采用迁移学习有效缓解了农业图像数据集有限的问题，增强了泛化性和鲁棒性。通过在大规模通用数据集上预训练模型，随后在农业图像上进行微调，即使标记样本有限也能实现高识别性能。

尽管取得了这些有希望的结果，深度学习方法在实际应用中仍面临巨大挑战。训练数据不足、病害多样性、光照变化和叶片重叠会损害模型的稳定性。此外，大多数模型仍局限于研究环境，缺乏与用户友好的前端系统的无缝集成，限制了农民和从业者的可及性。因此，未来的研究必须专注于通过将深度学习模型与智能数据采集系统、移动应用程序和基于网络的可视化平台相结合，来开发更高效、可扩展和自适应的解决方案。这种整合将使植物病害检测从“高性能”转向“高可用性”，最终为推进精准农业提供智能支持。

1.2 Limitations of existing research methods

尽管在将深度学习与传统图像处理技术结合用于植物病害检测方面取得了显著进展，但仍然存在一些局限性。这些局限性包括：模型泛化能力受限于可用数据集的有限规模和多样性；缺乏高效的智能决策机制，导致系统自主性不足；现有技术难以在复杂田间条件下同时满足实时性和高准确性的双重需求。为了解决这些问题，本研究引入了一个新颖的框架，将智能体技术与最先进的基于CNN的架构相结合，用于植物病害的实时监测和管理。这种方法不仅缓解了资源限制和可扩展性的挑战，还增强了系统的智能性和自主性。近年来，基于智能体的协作系统在蛋白质分析和医学图像诊断领域展示了显著优势。AI智能体能够执行复杂任务、规划和优化工作流程，并进行自我评估以识别和弥补知识差距，从而提高决策准确性、系统灵活性和自主性。例如，最近的工作将外泌体拉曼光谱与大型语言模型相结合，开发了智能诊断代理，实现了高效、可解释的识别和临床决策支持。这些经验为农业提供了宝贵的见解，表明智能体和深度学习的融合可以建立适应农业应用的自适应协作系统，有效解决当前植物病害检测系统在智能性和泛化性方面的不足。

1.3 Research contributions

本研究的贡献主要体现在两个方面：

1.3.1 Systematic evaluation of deep learning architectures

系统评估了六种最先进的深度学习模型（CSPNet、HRNet、GhostNet、ResNet50、ViT和GSDCNet）在水稻病虫害图像识别方面的性能。从准确性、推理速度和模型复杂性等多个维度比较了它们的性能，以全面识别最优架构。

1.3.2 Development of an agent-based prototype system

利用性能最佳的模型，我们开发了一个针对现实世界农业场景的原型智能体系统。该系统提供高识别准确性和实时反馈，满足田间病虫害诊断的实际需求。使用了一个涵盖代表性叶部病害和害虫的数据集进行训练和验证，增强了模型的鲁棒性和泛化性，并支持创新的农业应用。

2 Materials and methods

卷积神经网络（CNN）已被广泛应用于植物病害的识别和诊断。然而，大多数现有研究侧重于病害类别分类，而对不同感染阶段的细粒度识别关注不足。因此，本研究的主要目标是设计和开发一种集成解决方案，将智能体技术与基于深度学习的分类相结合，以实现植物病害感染的实时和准确检测。

首先，对获取的图像数据集进行基本预处理，以满足后续模型训练的要求。预处理后的数据集用于训练五种最先进的CNN模型，包括CSPNet、HRNet、GhostNet、ResNet50和ViT。通过比较和分析模型性能，确定最优模型，随后将其集成到智能体系统中，实现病害感染阶段的自动实时检测，并为农业管理决策提供实际支持。该系统框架由四个核心模块组成：植物病害图像采集与预处理模块、基于深度学习的检测模块、多智能体交互模块和可视化模块。技术路线涵盖了从数据采集、模型训练到实际部署的端到端过程。在多智能体交互架构中，定义了四种类型的智能体——任务规划、推理、评估和可视化——分别负责任务分解与决策、基于深度学习的检测、性能评估和用户交互。这种设计建立了一个可扩展和智能化的植物病害诊断平台。

2.1 Data acquisition and preprocessing

为了开发具有强大泛化能力的鲁棒性植物病虫害识别模型，本研究使用的图像数据集主要从公共数据库Kaggle获取。该数据集涵盖了多个常见病害和害虫类别，用于模型构建和训练。对数据集进行了仔细整理和系统预处理，以确保训练效率和准确性，为后续模型优化奠定坚实基础。相关病害类别的详细列表见补充表。基于原始数据集，执行了预处理操作以提高图像质量并增强模型对复杂农业环境的适应性。首先，将所有图像调整为统一的224 × 224像素输入尺寸，以匹配深度学习模型的输入要求。其次，将像素值归一化到（0,1）范围，以加速模型收敛并提高训练稳定性。由于田间图像常受光照变化和叶片遮挡影响，进一步应用了数据增强策略，包括随机旋转（±15°）、水平翻转和亮度/对比度扰动，以模拟多样化的真实世界输入，并增强模型的鲁棒性和泛化性。此外，为了减少背景噪声干扰，采用了HSV颜色空间分割和Otsu阈值法进行部分背景去除，突出显著病斑区域，并加强模型对关键区域的关注。

2.2 Model development and evaluation

在本研究中，我们采用了一种融合卷积神经网络（CNN）和Transformer结构的混合深度学习架构，利用它们在特征提取和泛化方面的互补优势。所提出的模型包含关键组件，包括卷积层、注意力机制和分类头。采用了数据增强、迁移学习和超参数优化（例如学习率调整和批量大小调优）来提升性能。

模型设计以平衡准确性、计算成本和泛化能力为指导，最终目标是实现植物病虫害图像的精确检测。传统的CNN在局部特征提取方面表现出强大的能力，但受限于有限的感受野和对长程依赖关系建模不足。相反，基于Transformer的模型擅长捕获全局特征和建模长程关系，但在小规模数据集上训练时容易过拟合。

为了克服这些局限性，我们提出了一种CNN-Transformer混合架构，有效结合了CNN捕获细粒度局部特征的能力和Transformer在全局依赖关系建模方面的优势。这种整合实现了对图像局部和全局特征的全面表征，从而提高了分类准确性和模型泛化能力。所提出的混合架构最终提供了一个鲁棒且实用的植物病虫害检测解决方案。

2.2.1 Model architecture and parameter settings

2.2.1.1 Feature extraction module (CNN backbone)

采用改进的ResNet-50架构作为特征提取的主干网络。该网络通过四个主要卷积块高效地捕获病叶图像的细粒度局部特征，每个卷积块配置了3×3的核大小、步长为1和相同填充（same padding）。每个卷积层应用了批量归一化（Batch Normalization）和ReLU激活函数，以提高训练稳定性并缓解梯度消失问题。

2.2.1.2 Feature fusion module (transformer encoder)

在CNN提取的空间特征之上引入了一个Transformer编码器，以进一步利用全局上下文信息。该模块由四个Transformer编码器层组成，每个层包含八个多头自注意力机制，嵌入维度为512。应用了层归一化（Layer Normalization）以确保稳定的特征分布，增强泛化能力和收敛效率。

2.2.1.3 Classification module (classification head)

对于最终的病害分类，使用了一个全连接层，后接Softmax函数，将融合后的特征向量映射到目标类别。全连接层中的神经元数量与数据集中的类别数量相对应，而Softmax激活则产生用于多类预测的概率分布。

2.2.2 Model initialization and training

2.2.2.1 Data augmentation

应用了多种增强策略，包括随机旋转、水平翻转、随机裁剪和颜色抖动，以减轻有限训练数据下的过拟合。这些操作扩大了有效数据集大小，并增强了对现实世界中光照和遮挡变化的鲁棒性。

2.2.2.2 Transfer learning

CNN主干网络使用在大型ImageNet数据集上预训练的权重进行初始化。这种通用视觉特征知识的迁移加速了收敛并降低了过拟合的风险。

2.2.2.3 Hyperparameter tuning

通过网格搜索策略确定了最优超参数。初始学习率设置为1e-4，并使用余弦退火调度器（Cosine Annealing scheduler）进行动态调整。采用了32的批量大小，并在训练期间微调了其他优化器参数以最大化模型性能。

2.2.3 Model evaluation

采用了多种评估指标，包括准确率（accuracy）、召回率（recall）、精确率（precision）、F1分数（F1-score）和AUC，以全面评估模型性能。基于这些评估结果选择性能最佳的模型并将其集成到智能体系统中。

2.3 Multi-agent system

所提出的多智能体系统（MAS）由四个功能独立且定义明确的智能体组成：任务规划智能体（Task Planning Agent）、推理智能体（Inference Agent）、评估智能体（Evaluation Agent）和可视化智能体（Visualization Agent）。这些智能体通过定义良好的消息传递和数据交换协议进行协作，提高了系统的自主性、操作效率和检测准确性。

2.3.1 Task planning agent

任务规划智能体是系统交互的入口点，负责解析用户命令并制定执行策略。其功能包括：接收用户检测请求并分析任务需求，包括目标对象、病害类别、实时约束和环境参数；使用启发式算法和决策树模型设计最优任务执行策略，同时考虑实时系统状态，确保资源利用率高于85%；生成任务消息和元数据（例如图像尺寸、样本数量、任务优先级），并协调推理智能体的执行顺序和资源分配，将任务调度延迟保持在50毫秒以内。

2.3.2 Inference agent

推理智能体负责病害分类和检测。其功能包括：接收来自任务规划智能体的图像检测任务；使用CNN-Transformer混合模型（在第3.1节介绍）执行特征提取和分类，并实时输出预测类别及置信度分数；确保分类准确率至少达到93%，推理延迟保持在100毫秒以内；打包检测结果和元数据，传输给评估智能体进行进一步分析。

2.3.3 Visualization agent and collaboration mechanism

可视化智能体为用户提供交互式界面，用于直观的结果呈现和分析。其功能包括：实时整合来自推理智能体的检测结果和来自评估智能体的性能指标；采用交互式图表和热力图直观呈现病害类别、置信度分数、检测分布和性能指标，呈现准确率超过98%；支持交互式分析，包括实时查询、历史趋势分析和用户反馈，增强用户对检测过程的理解和信任。

智能体通信与协作通过消息传递机制实现，核心消息类型包括：任务消息（Task Message）：由任务规划智能体向推理智能体发出，包含任务指令、数据源和参数；结果消息（Result Message）：从推理智能体发送到评估智能体，包括分类结果、置信度分数和推理延迟；评估反馈消息（Evaluation Feedback Message）：由评估智能体返回给任务规划智能体，提供性能指标和优化建议。消息交换遵循基于JSON格式的轻量级请求-响应协议，使其能够在现实农业场景中高效部署。

2.4 Experimental environment and setup

本研究的模型训练和评估是在配备NVIDIA Tesla V100 GPU的高性能服务器上进行的，该GPU拥有5,120个CUDA核心和16 GB的HBM2内存，为大规模深度学习任务提供了强大的计算支持。服务器运行Ubuntu 18.04 LTS操作系统，因其在大数据和机器学习研究中的稳定性、可靠性和强大的开源社区支持而被选用。选择TensorFlow 2.4作为主要的深度学习框架，它提供了灵活的模型设计能力和高效的GPU利用率。使用NumPy和Pandas库进行数据预处理和分析，同时使用h5py库进行模型序列化和存储。

本研究使用的数据集包含3,172张病叶图像，涵盖九种常见作物病害类别，每个类别大约有700张图像。数据集被划分为70%的训练集（2,220张图像）、15%的验证集（476张图像）和15%的测试集（476张图像），用于模型训练、超参数调优和最终性能评估。

3 Result

3.1 Classification results

为了评估所提出模型在病叶诊断中的有效性，采用了多种性能指标进行系统评估。结果表明，CNN-Transformer混合模型 consistently outperformed 传统CNN模型和独立的Transformer架构，实现了更高的准确性和泛化能力，从而展示了更强的分类性能和鲁棒性。

在评估主流预训练模型时，使用准确率、召回率、精确率、F1分数和混淆矩阵分析比较了性能。在测试的模型中，GSDCNet展示了最佳的整体性能，实现了99%的准确率，同时在所有类别中保持了平衡的精确率、召回率和F1分数。值得注意的是，该模型达到了99.94%的召回率和99.92%的F1分数，凸显了其卓越的能力。

关键性能方面的可视化显示，归一化混淆矩阵显示了在九个病害类别上的优异分类性能，所有对角线值均超过0.99，表明高精确率和召回率。验证准确率曲线在前五个epoch内就超过了98%，并在第十个epoch后收敛到近100%。训练和验证损失曲线呈现稳定下降趋势。验证损失 consistently 低于训练损失，没有显著波动或过拟合迹象，表明训练动态稳定且具有良好的收敛特性。

3.2 Model integration in the agent-based application

鉴于其卓越的整体性能，GSDCNet模型被转换为LITERT格式并集成到Coze平台，以构建植物病虫害识别工作流。Coze支持两种类型的插件：本地插件和外部服务插件。然而，由于本地环境计算资源有限，仅靠Coze不足以处理复杂的农业图像处理任务。为了解决这一限制，我们使用Flask框架开发了外部插件，使Coze能够通过HTTP协议与插件通信。这些插件被设计为向Coze提供基于API的服务，从而确保了系统的高可定制性和可扩展性。这一策略使得插件功能能够精确定制以适应农业诊断工作流的具体要求，从而增强了大型语言模型（LLM）系统在智能农业识别中的实用性和适应性。

在图像检测和智能体交互过程中，用户通过可视化界面发起检测请求。任务规划智能体接收并解析请求，执行任务分解和分发；推理智能体处理输入图像，提取特征并生成病害分类结果及相关的置信度分数；随后，评估智能体提供关于性能指标和优化建议的实时反馈；最后，可视化智能体整合检测结果和评估输出，以直观和交互的方式呈现给用户，供其查询和分析结果。

3.3 Visualization of plant disease detection results on the Coze platform

在Coze平台的支持下，用户可以快速访问植物病害检测结果，从而显著提升用户体验和决策效率。每个插件通过两个组件与Coze交互：输入和输出。例如，在植物叶片图像分类中，一旦Coze识别出用户意图识别图像中的病害，它会将图像文件转换为URL或base64编码的字符串，并将其转发给相应的图像识别插件。该插件集成了预训练的深度学习分类模型，对输入图像进行推理，并将预测结果作为输出返回给Coze。系统能准确识别输入图像是否表现出特征性病害症状，例如水稻褐条病。此外，还采用了图像相似性机制来过滤掉与训练分布不一致的样本；如果相似性得分较低，系统会将图像标记为可能属于未知病害类别。所有图像数据和模型均来自公开的农业研究数据集。

当系统检测到用户提交的图像与特定作物病害相关时，它会自动调用相应的预训练模型进行分析，并返回精确的分类结果，展示了强大的系统可扩展性。此外，Chat Demeter结合了检索增强生成（RAG）机制，动态地将来自外部数据库、科学文献和推广手册的可靠农业知识整合到对话上下文中。这种方法显著增强了生成输出的领域专业性和可解释性。系统首先检索关于作物病害诊断和症状识别的相关知识段落，将其与原始查询结合，并传递给生成模型，后者输出准确且上下文恰当的回答。

系统还支持多语言交互；当用户切换到英语时，智能体可以无缝地进行英语对话。系统还展示了植物病害相关的问答示例，并且当提交不相关或错误的图像时，系统会提供即时反馈，提醒用户并建议正确的输入路径。这种实时反馈机制使用户能够快速识别错误并做出明智决策。

该应用程序支持即时上传和离线存储以进行数据提交，使其能够适应网络连接有限的地区。该系统在iOS和Android平台上进行了广泛测试，以确保兼容性和效率。结果证实，在现代智能手机和平板电脑上具有强大的实时预测和交互性能，但在较旧或低端设备上性能可能略有不同。

4 Discussion

本研究系统评估了五种最先进的CNN架构，其中SDCNet取得了最佳整体性能。当与用户友好的可视化智能体集成时，该模型在资源受限的环境中展示了强大的适用性，实现了实时移动访问并通过现场使用不断扩展数据集。这种适应性对于长期提高准确性和鲁棒性至关重要，使该系统在现实世界农业环境中极具价值。然而，仍然存在一些挑战需要解决，以实现有效的实际部署。

所提出的CNN-Transformer混合模型（CNN-Trans）有效结合了CNN和Transformer的优势，在准确性、泛化性和计算效率方面优于传统的CNN或独立的Transformer模型。在测试集上达到99.1%的准确率，优于当前主流方法。这一性能在实际应用中前景广阔，但现实场景引入了额外的约束，可能影响系统的有效性。

在系统层面设计了一个多智能体协作框架，将任务规划、推理、评估和可视化智能体集成到一个闭环工作流中。这种设计支持任务调度、模型推理、性能评估和交互式结果呈现，克服了单一模型方法的局限性。它显著增强了植物病害检测的自动化和智能化，为农业诊断系统提供了新范式。虽然该系统在现实世界中具有强大的应用潜力——例如降低劳动力成本、实现精准农药使用、确保生态安全和支持可持续农业发展——但必须仔细考虑几个现实世界的约束。

首先，深度学习模型在农业环境中的泛化能力仍然有限。光照变化、天气条件和叶片遮挡等因素常常会降低性能。当前版本的系统主要识别训练数据集中标记的特定病害类别，这些类别代表了已知的生物胁迫，如真菌、细菌或病毒病害。然而，它并未明确训练用于区分生物胁迫和非生物胁迫，例如营养缺乏、环境胁迫（如干旱或盐度）或机械损伤。扩展训练数据集以包含更广泛的胁迫因子，可以提高模型区分生物和非生物原因的能力，解决实际适用性的一个关键限制。

此外，植物病害中重叠的症状对病害分类的准确性构成了重大挑战。CNN-Transformer混合模型通过捕获图像中的局部和全局特征来帮助降低误分类风险，而置信度分数则评估预测的确定性。尽管这有助于识别潜在的误分类风险，但提高模型鲁棒性需要多样化的数据收集、更强大的增强策略以及半监督或主动学习技术的集成。这些方法可以帮助系统处理现实世界的复杂性，并提高其适应新的、不可预见条件的能力。

多智能体系统中的通信延迟或故障可能损害其可靠性和稳定性。当前的轻量级通信协议能够快速执行任务分解、推理和评估，但需要进一步优化通信协议、任务分配策略和容错机制——例如消息重传、智能体状态监控、异常检测和自恢复功能。解决这些通信约束将确保在可能发生网络不稳定的田间环境中更平稳的系统运行。另一个实际挑战涉及标注数据的成本和可用性。高质量的标记数据对于训练深度学习模型至关重要，但收集此类数据可能耗费大量资源。未来的工作可以结合专家注释和分子确认（例如PCR），以确保创建更准确的地面实况。此外，迁移学习、使用生成对抗网络（GAN）合成数据生成以及领域自适应等技术有助于缓解数据稀缺问题，