基于大语言模型的农业问答系统开发与评估：提示工程优化与领域应用探索

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：The development and evaluation of agricultural question-answering systems based on large language models

【字体：大中小】 时间：2026年02月10日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对大语言模型(LLM)在农业领域应用尚不完善的现状，系统评估了GPT-4o和Gemini-2.0-flash在农业专业知识问答中的表现。研究人员采用Zero-Shot、Chain-of-Thought(CoT)、Self-Consistency和Tree-of-Thought(ToT)等提示策略，并结合自动提示工程(APE)优化，构建了农业问答系统(AgriQAs)。结果显示，GPT-4o结合Self-Consistency策略达到95.3%的最高准确率，显著优于传统方法。该研究为农业领域智能问答系统的开发提供了重要技术支撑，推动了LLM在精准农业中的实际应用。

在人工智能技术迅猛发展的今天，大语言模型(Large Language Models, LLM)已在教育、医疗等多个领域展现出强大潜力，然而在关系国计民生的农业领域，其应用却相对滞后。农业生产具有地域性强、技术门槛高、信息更新快等特点，农业技术人员经常面临专业知识获取不便的困境。尽管已有一些研究尝试将人工智能技术应用于农业，但大多集中在传统的机器学习和深度学习模型，这些方法往往需要大量标注数据和高计算资源，且缺乏灵活的自然语言交互能力。

正是在这样的背景下，一项开创性研究在《Scientific Reports》上发表，首次系统评估了大语言模型在农业专业知识问答中的表现。研究人员发现，虽然GPT-4、Gemini等主流大语言模型在通用领域表现优异，但它们在农业这一专业领域的应用效果缺乏系统评估。更关键的是，不同的提示策略(prompting strategies)如何影响模型在农业问答中的准确性，这一问题尚未得到充分探索。

为了填补这一研究空白，研究团队开发了一套名为AgriQAs的农业专业问答系统。该系统包含90道涵盖通用农业、园艺学和作物生产三个主题的多项选择题，每道题都设置了易、中、难三个难度等级。研究采用GPT-4o和Gemini-2.0-flash两个主流大语言模型，对比分析了Zero-Shot、Chain-of-Thought(CoT)、Self-Consistency和Tree-of-Thought(ToT)四种提示策略的效果，并创新性地使用自动提示工程(Automatic Prompt Engineering, APE)对提示进行优化。

关键技术方法方面，研究团队构建了包含90个专业问题的AgriQAs数据集，涵盖三个农业子领域和三个难度等级。采用GPT-4o和Gemini-2.0-flash两个大语言模型，运用四种提示策略(Zero-Shot、CoT、Self-Consistency、ToT)进行答案生成，并通过自动提示工程优化提示效果。使用bootstrap置信区间、配对t检验、ANOVA和效应量(Cohen’s h和d)等统计方法对结果进行严谨分析。

准确率

实验结果令人振奋：所有模型的准确率均超过74%，其中GPT-4o结合Self-Consistency策略达到最高的95.3%准确率，而Gemini-2.0-flash在ToT策略下获得88.4%的最佳表现。值得注意的是，简单的Zero-Shot策略在两个模型中都表现最差，这凸显了复杂提示策略在专业领域问答中的重要性。

亚组错误分析

按难度级别分析显示，随着题目难度从易到难，错误率显著上升。在简单难度下，最佳策略的错误率仅为1.3%，而在困难难度下升至7.3%。这一趋势在两个模型中一致出现，表明大语言模型在处理复杂农业问题时仍面临挑战。

按类别分析发现，作物生产类问题的错误率最高(29.3%)，而通用农业类问题错误率最低(24.6%)。经过提示优化后，这些错误率分别降至8.0%和1.2%，证明优化后的提示策略能显著提升模型在不同农业子领域的表现。

统计分析

统计分析进一步证实了研究结果的可靠性。单因素ANOVA显示不同提示策略间的性能差异具有统计学意义(GPT-4o: F=323.394, p<0.001; Gemini-2.0-flash: F=429.056, p<0.001)。事后检验表明，推理类提示策略(如Self-Consistency、ToT)与基础策略(Zero-Shot)之间存在显著差异。效应量分析(Cohen’s h和d)进一步量化了这些差异的实际意义。

研究结论表明，大语言模型在农业专业知识问答中展现出巨大潜力，但其性能高度依赖于所选模型和提示策略。GPT-4o整体表现优于Gemini-2.0-flash，而Self-Consistency和ToT等复杂提示策略能显著提升答案的准确性和一致性。自动提示工程的引入进一步优化了提示效果，减少了人工设计提示的主观性。

这项研究的重要意义在于，它不仅是首个针对农业领域系统评估大语言模型性能的研究，还为农业智能问答系统的开发提供了实践指南。研究提出的AgriQAs系统框架可扩展为实际的农业决策支持工具，帮助农业技术人员快速获取专业知识。此外，研究揭示的提示策略优化方法对其他专业领域的LLM应用也具有借鉴价值。

尽管当前研究存在一些局限，如未与微调(fine-tuning)方法对比、未考虑实际应用成本等，但它为后续研究奠定了重要基础。未来工作可探索多模态数据集成、区域特异性适配等方向，进一步推动大语言模型在智慧农业中的深入应用。这项研究标志着人工智能技术与传统农业深度融合的新起点，为精准农业和可持续农业发展提供了新的技术路径。

联系信箱：

粤ICP备09063491号

热点排行