从识别到预防：一种结合视觉技术和大型语言模型的猕猴桃疾病诊断系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers and Electronics in Agriculture》：From identification to prevention: a kiwi disease diagnosis system integrating vision and large language models

【字体：大中小】 时间：2026年01月28日 来源：Computers and Electronics in Agriculture 8.9

编辑推荐：

　　农业基础是人类的生存和社会发展，精准的作物病害诊断直接影响粮食安全和经济可持续性。现有大语言模型在农业应用中存在闭环设计不足、幻觉问题和多模态数据利用不充分等问题。为此，本文提出基于视觉模型和LLM的KiwiGuard协作诊断系统：首先，设计KDI-Transformer模型，结合多尺度贴片嵌入、增强捷径和自适应贴片融合，提升复杂环境下的病害严重程度识别准确率；其次，采用检索增强生成（RAG）结合领域知识图谱，减少LLM的幻觉现象，并通过多模态知识图谱增强的答案选择模型（MKGASM）有效利用视觉、文本等多模态数据，最终实现从病害识别到精准防治建议的全流程诊断，实验表明视觉模型准确率达89.57%，幻觉率降至8%，Fact-Consistency得分为0.86。

李晓鹏|杨硕|李淑琴

中国陕西省杨陵市西北农林科技大学信息工程学院，邮编712100

摘要

农业是人类生存和社会发展的基础。作物病害诊断的准确性直接影响粮食安全和经济可持续性。当前大型语言模型（LLM）在这一领域的应用面临多个问题，包括开环设计、幻觉现象以及多模态数据利用不足。为了解决这些问题，本文提出了KiwiGuard，这是一个基于视觉模型和LLM的协作式猕猴桃病害诊断系统。

首先，我们提出了KDI-Transformer病害严重程度识别模型，以实现闭环设计。该模型结合了多尺度补丁嵌入（MPE）、增强型快捷路径（ESC）和自适应补丁融合（APF），即使在复杂环境中也能为诊断系统提供可靠的输入。其次，该系统通过检索增强生成（RAG）将外部知识源与LLM结合，从而缓解了LLM在垂直领域中的幻觉问题。为了进一步优化系统，我们提出了多模态知识图增强答案选择模型（MKGASM），该模块解决了多模态数据利用不足的问题。通过迭代语义控制和知识补充，MKGASM提高了生成响应的质量和可解释性。实验结果表明，视觉识别模型的准确率达到89.57%，优于基线模型。此外，系统将幻觉率降低到8%，事实一致性得分达到0.86。专家和客观评估均表明，该系统生成的响应具有高准确性，并且用户交互性优异。这些贡献代表了在农业领域应用LLM的宝贵探索。

引言

在现代农业生产中，植物病害的识别和控制对作物产量和质量有着深远影响。因此，开发可靠且准确的诊断方法对于有效管理病害至关重要。这些进步有助于减少产量损失，确保全球粮食安全的稳定性和可持续性。诊断的第一步是识别具体的作物病害。识别方法大致分为手动方法、高光谱成像、基于卷积神经网络（CNN）的方法、基于视觉变换器（ViT）的方法和语义分割方法。手动方法依赖于视觉检查来评估病害类型和严重程度。虽然实施简单，但由于主观判断，其准确性较低。此外，病害症状的多样性和相似性使得手动识别变得复杂，因此无法满足现代农业的需求。

高光谱成像通过捕获光谱数据实现高精度检测。然而，设备昂贵且操作复杂，这些因素阻碍了其在实际生产中的大规模应用（Moghadam等人，2017年）。基于CNN的方法利用深度学习进行病害分类或分级（Li等人，2022年；Banerjee等人，2023年）。然而，这些模型主要依赖于局部特征提取，往往无法充分关注复杂背景下的病害区域，这限制了它们的应用范围。基于ViT的方法因其能够捕获全局特征而受到欢迎（Pacal，2024年；Chang等人，2024年）。然而，标准的ViT组件可能不适用于猕猴桃病害严重程度的识别。补丁嵌入方法、变换器编码器和分类头也存在局限性。此外，原始的ViT模型计算成本较高，其庞大的硬件和数据需求阻碍了其在农业中的广泛应用。语义分割方法使用像素级分析来识别病害区域（Zhu等人，2023a；Zhang和Zhang，2023年）。然而，这些方法在处理病害斑点的模糊边界和梯度过渡时存在困难。

识别病害类别只是诊断的第一步，接下来需要提供相应的预防和治疗措施。问答系统为农业领域提供了高效便捷的信息检索方式。问答系统主要包括基于规则的方法、知识图方法、传统深度学习方法和LLM方法。基于规则的传统方法通过问题分类、答案检索和生成来实现问答功能。然而，这些方法严重依赖于手动设计的规则，既耗时又费力，且在处理未知问题和答案时效果不佳（Riloff和Thelen，2000年）。知识图方法构建特定领域的知识图，从结构化数据、文本语料库和半结构化数据中提取详细的具体答案。然而，这些方法高度依赖于专家知识，并且受到知识不完整和语言理解能力不足的限制（Omar等人，2023年）。传统深度学习方法使用小型神经网络，如循环神经网络、长短期记忆网络和注意力机制，将这些模型表示为向量，然后通过计算问题和答案向量之间的相似度得分来选择最佳答案。然而，由于模型规模的限制，这些方法难以满足复杂场景的需求（Nassiri和Akhloufi，2023年）。

相比之下，LLM方法利用大型预训练模型，如BERT、RoBERTa（Liu，2019年）、GPT（Pereira等人，2023年）和ChatGLM（Zeng等人，2024年），通过预训练和微调实现迁移学习。这些模型可以从大规模未标记文本中学习语言上下文、语义和结构特征，展现出强大的语言处理能力。然而，LLM经常产生事实上的错误陈述，从而产生幻觉现象。尽管在自然语言处理任务中表现优异，但这一问题严重削弱了它们的可信度（Bang等人，2023年）。它们在事实性和实时相关性方面仍有不足，尤其是在需要精确答案的领域特定问答任务中。在这种情况下，它们无法独立满足需求，必须与外部知识库结合才能生成高质量、准确的响应。

单一模型通常无法独立完成农业任务，通常需要多个系统的协作。例如，假设一位农业科学家或农民站在一个患病的猕猴桃果园中，为了有效诊断作物，他们可能需要遵循几个步骤：首先，拍摄疑似患病植物的图像并上传到病害识别模型；随后，模型确定病害类型和严重程度（如早期细菌性溃疡病）；最后，系统制定适当的治疗策略（如喷洒特定杀菌剂）。

例如，Qing等人（2023年）提出了一个结合轻量级YOLOPC和GPT-4的识别系统。该系统通过图像检测生成病害描述，然后结合环境信息生成全面的诊断和解决方案，显著提高了诊断准确性和适应性。Yang等人（2024a）采用了RAG框架和智能代理架构，整合了农业知识图、文献检索和外部预测工具，专注于回答农业问题，为智能问答任务提供准确建议。此外，Hue等人（2024年）开发了AI植物医生系统，该系统结合了GPT-4和图像识别以及丰富的知识库，为诊断提供全面支持，并强调可持续实践。对于咖啡叶病害，Kumar等人（2024年）结合了YOLOv8和RAG框架，构建了一个从图像识别到诊断建议的完全自动化系统，显著提高了诊断效率和可靠性。

然而，这些研究也存在某些局限性。由于缺乏专门的农业训练数据，LLM可能会产生幻觉现象。即使使用了专门的数据，LLM的输出也不总是受控或经过验证，因此输出的可解释性无法保证，可能影响农业决策。此外，之前的视觉模型并未针对复杂的田间环境进行优化，因此在实际场景中表现可能较差。关键的是，这些系统未能充分利用多模态数据（如语音、图像和视频），这限制了潜在的性能提升。

本文的贡献总结如下：

(1)

我们提出了一个针对复杂果园环境的猕猴桃叶病严重程度识别模型KDI-Transformer，它通过改进的补丁嵌入、增强的变换器编码器和轻量级分类头优化了ViT架构，更好地捕获复杂背景下的病害区域，同时降低了计算成本。

(2)

我们设计了多模态知识图增强答案选择模型，该模型整合了文本、视觉和结构化农业知识。通过利用特定领域的知识图和多模态表示，该模型提高了答案的相关性和鲁棒性，优于传统的基于深度学习和纯文本的方法。

(3)

我们开发了KiwiGuard，这是一个基于LLM的猕猴桃病害预防和控制问答系统。KiwiGuard将视觉KDI-Transformer和多模态答案选择模块与大型语言模型无缝连接，通过外部知识接地缓解了幻觉现象，并提供了从病害识别到精确预防和控制建议的端到端支持。

部分片段

猕猴桃病害数据集的构建

我们在2023年从西北农林科技大学的猕猴桃实验站收集了猕猴桃病害数据集。该数据集包含2,301张图像，代表了六种叶病害，包括褐斑病、灰霉病和炭疽病。

我们采用分层随机分割（种子数=123）方法，按7:1:2的比例生成训练集、验证集和测试集。这种方法确保了所有分割中六种病害类别和两个严重程度级别的比例一致。数据增强

实验环境

实验在Ubuntu 20.04环境中进行。硬件配置包括Intel Core i9 10900X处理器、64 GB系统内存和两个NVIDIA GeForce RTX 3090 GPU（合计48 GB VRAM）。本研究使用了PyTorch深度学习框架，并通过CUDA 11.1加速训练。详细的超参数设置和训练成本见表5。

评估指标

本文使用六个指标评估病害严重程度识别模型的性能：

系统概述

本文提出了一个猕猴桃病害诊断系统，该系统整合了视觉识别模型、轻量级LLM和MKGASM。通过视觉模型，系统能够在复杂环境中准确识别病害类别，并结合农民的描述提供丰富的上下文信息。通过利用检索增强生成机制，系统利用外部知识来缓解LLM固有的幻觉现象。

结论

在本文中，我们提出了KiwiGuard猕猴桃病害诊断系统。该系统紧密整合了视觉识别模型和检索增强的轻量级LLM，还结合了多模态知识图增强答案选择模块。实验表明，我们的视觉模型在不同光照和背景条件下实现了89.57%的病害识别准确率，证实了其在实际环境中的强大鲁棒性。

CRediT作者贡献声明

李晓鹏：撰写 – 审稿与编辑、原始草稿撰写、可视化、验证、软件开发、资源管理、方法论研究、数据分析、概念化。杨硕：可视化、验证、方法论研究、调查。李淑琴：撰写 – 审稿与编辑、项目监督、资金获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了中国国家重点研发计划（编号2022YFD1300200）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言