基于大语言模型的农业问答系统开发与评估:提示工程优化与领域应用探索

《Scientific Reports》:The development and evaluation of agricultural question-answering systems based on large language models

【字体: 时间:2026年02月10日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对大语言模型(LLM)在农业领域应用尚不完善的现状,系统评估了GPT-4o和Gemini-2.0-flash在农业专业知识问答中的表现。研究人员采用Zero-Shot、Chain-of-Thought(CoT)、Self-Consistency和Tree-of-Thought(ToT)等提示策略,并结合自动提示工程(APE)优化,构建了农业问答系统(AgriQAs)。结果显示,GPT-4o结合Self-Consistency策略达到95.3%的最高准确率,显著优于传统方法。该研究为农业领域智能问答系统的开发提供了重要技术支撑,推动了LLM在精准农业中的实际应用。

  
在人工智能技术迅猛发展的今天,大语言模型(Large Language Models, LLM)已在教育、医疗等多个领域展现出强大潜力,然而在关系国计民生的农业领域,其应用却相对滞后。农业生产具有地域性强、技术门槛高、信息更新快等特点,农业技术人员经常面临专业知识获取不便的困境。尽管已有一些研究尝试将人工智能技术应用于农业,但大多集中在传统的机器学习和深度学习模型,这些方法往往需要大量标注数据和高计算资源,且缺乏灵活的自然语言交互能力。
正是在这样的背景下,一项开创性研究在《Scientific Reports》上发表,首次系统评估了大语言模型在农业专业知识问答中的表现。研究人员发现,虽然GPT-4、Gemini等主流大语言模型在通用领域表现优异,但它们在农业这一专业领域的应用效果缺乏系统评估。更关键的是,不同的提示策略(prompting strategies)如何影响模型在农业问答中的准确性,这一问题尚未得到充分探索。
为了填补这一研究空白,研究团队开发了一套名为AgriQAs的农业专业问答系统。该系统包含90道涵盖通用农业、园艺学和作物生产三个主题的多项选择题,每道题都设置了易、中、难三个难度等级。研究采用GPT-4o和Gemini-2.0-flash两个主流大语言模型,对比分析了Zero-Shot、Chain-of-Thought(CoT)、Self-Consistency和Tree-of-Thought(ToT)四种提示策略的效果,并创新性地使用自动提示工程(Automatic Prompt Engineering, APE)对提示进行优化。
关键技术方法方面,研究团队构建了包含90个专业问题的AgriQAs数据集,涵盖三个农业子领域和三个难度等级。采用GPT-4o和Gemini-2.0-flash两个大语言模型,运用四种提示策略(Zero-Shot、CoT、Self-Consistency、ToT)进行答案生成,并通过自动提示工程优化提示效果。使用bootstrap置信区间、配对t检验、ANOVA和效应量(Cohen’s h和d)等统计方法对结果进行严谨分析。
准确率
实验结果令人振奋:所有模型的准确率均超过74%,其中GPT-4o结合Self-Consistency策略达到最高的95.3%准确率,而Gemini-2.0-flash在ToT策略下获得88.4%的最佳表现。值得注意的是,简单的Zero-Shot策略在两个模型中都表现最差,这凸显了复杂提示策略在专业领域问答中的重要性。
亚组错误分析
按难度级别分析显示,随着题目难度从易到难,错误率显著上升。在简单难度下,最佳策略的错误率仅为1.3%,而在困难难度下升至7.3%。这一趋势在两个模型中一致出现,表明大语言模型在处理复杂农业问题时仍面临挑战。
按类别分析发现,作物生产类问题的错误率最高(29.3%),而通用农业类问题错误率最低(24.6%)。经过提示优化后,这些错误率分别降至8.0%和1.2%,证明优化后的提示策略能显著提升模型在不同农业子领域的表现。
统计分析
统计分析进一步证实了研究结果的可靠性。单因素ANOVA显示不同提示策略间的性能差异具有统计学意义(GPT-4o: F=323.394, p<0.001; Gemini-2.0-flash: F=429.056, p<0.001)。事后检验表明,推理类提示策略(如Self-Consistency、ToT)与基础策略(Zero-Shot)之间存在显著差异。效应量分析(Cohen’s h和d)进一步量化了这些差异的实际意义。
研究结论表明,大语言模型在农业专业知识问答中展现出巨大潜力,但其性能高度依赖于所选模型和提示策略。GPT-4o整体表现优于Gemini-2.0-flash,而Self-Consistency和ToT等复杂提示策略能显著提升答案的准确性和一致性。自动提示工程的引入进一步优化了提示效果,减少了人工设计提示的主观性。
这项研究的重要意义在于,它不仅是首个针对农业领域系统评估大语言模型性能的研究,还为农业智能问答系统的开发提供了实践指南。研究提出的AgriQAs系统框架可扩展为实际的农业决策支持工具,帮助农业技术人员快速获取专业知识。此外,研究揭示的提示策略优化方法对其他专业领域的LLM应用也具有借鉴价值。
尽管当前研究存在一些局限,如未与微调(fine-tuning)方法对比、未考虑实际应用成本等,但它为后续研究奠定了重要基础。未来工作可探索多模态数据集成、区域特异性适配等方向,进一步推动大语言模型在智慧农业中的深入应用。这项研究标志着人工智能技术与传统农业深度融合的新起点,为精准农业和可持续农业发展提供了新的技术路径。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号