评估语言模型在农业水资源管理中的逻辑和数学推理能力

《Computers and Electronics in Agriculture》:Evaluating the logical and mathematical reasoning capabilities of language models in agricultural water management

【字体: 时间:2026年02月10日 来源:Computers and Electronics in Agriculture 8.9

编辑推荐:

  提出农业水管理领域推理模型评估的DEW基准数据集与FLOW引导框架,系统评估o3-medium、Claude Sonnet 4等4种大模型在逻辑推理(+7.73%)和数学推理(+16.33%)中的表现,揭示经济考量与实证方程应用为关键挑战,并建立安全可靠模型选型的基准。

  
Josué Kpodo|A.Pouyan Nejadhashemi|Rasu Eeswaran
密歇根州立大学生物系统与农业工程系,美国密歇根州东兰辛市48824

摘要

随着生成模型的流行,大型语言模型变得越来越智能,这从最近在数学、逻辑和编程任务中表现出色的推理模型中得到了证明。然而,目前还没有一个被普遍接受的解决方案来处理这些模型中存在的幻觉问题。在某些特定研究领域,这个问题更加明显,例如农业水资源管理,目前缺乏评估这些模型性能的适当基准。因此,本研究提出了“水资源管理评估数据集”(DEW)和“逻辑引导的农业管理本体框架”(FLOW)。DEW包含419个问题,涵盖了24个领域的逻辑和数学推理,从而为评估农业推理能力建立了全面的基准。FLOW是一种提示策略,它利用图检索增强方法,旨在在推理过程中为大型推理模型(LRMs)提供定制的、特定领域的背景知识。所提出的方法论系统地评估了四种最先进的推理模型:o3-medium、Claude Sonnet 4、Gemini 2.5 Pro和Qwen3-30B-A3B。分析考察了性能提升情况,识别了特定领域的挑战,描述了失败模式,并测量了与实际应用相关的鲁棒性指标。总体而言,FLOW策略在逻辑推理方面比Chain-of-Thought基线提示方法取得了显著改进,平均提高了7.73%;在数学推理方面提高了16.33%。此外,分析表明,经济因素和经验方程的应用仍然是主要挑战。同时,鲁棒性评估揭示了不同模型策略组合在准确性和可靠性之间的关键权衡。

引言

全球粮食系统面临着满足日益增长的需求的巨大挑战,这些挑战是由人口增长和气候变化驱动的,导致极端天气事件频发,加速了自然资源的枯竭(美国环保署,2025年)。为此,联合国(UN)在2015年制定了可持续发展目标#2,旨在通过可持续实践实现粮食安全,但截至2024年,其中70%的目标仍未实现(联合国,2024年)。这突显了迫切需要推进能够满足社会环境需求并确保经济可行性的可持续解决方案。尽管精准农业、保护性农业或综合养分管理等新兴做法具有多种好处,但由于不确定性、官僚手续或复杂的实施设计,农民往往难以采用这些做法(Dessart等人,2019年;Rasu等人,2021年)。因此,他们往往依赖推广教育者(EEs),后者在将研究成果转化为可操作的农场建议方面发挥着关键作用。因此,EEs不断需要更好的解决方案来改进或加快他们的数学和逻辑推理到决策的工作流程(粮农组织,1998b)。
基于这一需求,大型语言模型(LLMs)的最新进展,特别是大型推理模型(LRMs),在解决复杂的数学和逻辑推理挑战方面显示出巨大的潜力。然而,它们在农业研究领域的应用仍然评估不足,甚至完全缺乏评估。为了评估语言模型在农业推理任务中的现状,进行了一项系统的文献回顾。该回顾涵盖了2015年至2025年10月期间Web of Science和Scopus数据库中的同行评审出版物和会议论文。搜索策略聚焦于三个主要领域:农业应用(使用关键词:“agriculture”、“farming”、“crop production”、“water management”、“pest disease management”和“fertilizer management”)、语言模型技术(包括“Large Language Model”、“LLM”、“GPT”、“Transformers”和“generative AI”)以及推理能力(包括“logical reasoning”、“mathematical reasoning”、“question answering”、“problem solving”和“inference”)。从最初的数百篇出版物中,通过彻底的手动筛选过程选出了23项具有代表性的研究,这些研究构成了分析结果的基础,如表1所示。
对这些研究的考察揭示了语言模型在农业领域应用中的显著趋势和知识空白。表1显示,34.80%的相关研究使用了专有数据集,30.40%的研究没有指定任何基准,只有13%的研究参考或引入了新的农业基准。虽然经常评估逻辑推理,但数学推理的评估很少,这限制了人们对LLMs在复杂定量农业主题上表现的理解。在需要逻辑和数学推理都至关重要的领域中,农业水资源管理(AWM)因其在灌溉调度、计算水需求和分析经济权衡时整合土壤、作物和天气信息的复杂性而显得最为相关。如果没有自动化、与人类标准一致的对逻辑和数学推理的评估,目前尚不清楚现有的LLMs和LRMs是否能够满足实际农业的复杂需求。此外,缺乏标准化的基准进一步限制了性能评估的可靠性,农业应用中的幻觉问题仍未得到解决(Minkoff等人,2025年)。
由于缺乏对AWM-LLM研究中逻辑和数学推理的系统性评估,本研究旨在填补文献回顾中发现的空白。具体来说,它旨在提出一个基准数据集和一种提示策略,以了解选定LRMs在AWM问题上的表现。如图1所示,LRMs利用“逻辑引导的农业管理本体框架”(FLOW)方法,从而依靠适当的方程来自信地解决数学问题,减少对幻觉或非事实推理的依赖。为了实现这一目标,我们追求三个主要目标:(1)开发一个代表性的数据集基准,用于评估LRMs在AWM领域的推理能力;(2)提出一种基于背景知识的提示策略,以提高语言模型在与这些领域相关问题上的表现;(3)为当前主流LRMs在农业推理问题上的能力建立基准指标。
通过实现这些目标,这项跨学科工作对人工智能和农业做出了几项重要贡献。首先,我们提出了“水资源管理评估数据集”(DEW),这是一个包含419个问题的新基准数据集,专门用于评估LRMs在AWM领域的逻辑和数学推理能力。第二个贡献是FLOW,这是一种受图检索增强生成的启发而设计的提示策略,旨在提高主流LRMs的性能,同时最小化幻觉现象。第三个贡献提供了对四种最先进的(SOTA)LRMs的自动和与人类标准一致的性能评估,这些模型在本研究时以其领先的推理能力而闻名:o3-medium、Claude Sonnet 4、Gemini 2.5 Pro和Qwen3-30B-A3B。通过评估这些LRMs在农业推理任务上的表现,我们建立了基准指标,并确定了具体的优势、局限性和改进机会。这些贡献旨在建立一个基础,未来可以扩展到其他农业领域,利用语言模型来解决联合国可持续发展目标中概述的紧迫人类挑战。
基于已识别的研究空白,并利用开发的FLOW框架和DEW基准,本研究在四个基本研究问题(RQ)的指导下进行了系统调查:
  • RQ1:最先进的LRMs在农业水资源管理任务上的表现如何?FLOW方法在多大程度上提高了它们的性能?
  • RQ2:哪些AWM领域对LRMs构成了最大的挑战?
  • RQ3:DEW在不同LRMs中揭示了哪些共同的性能弱点?
  • RQ4:哪些LRM策略组合在AWM系统中的实际应用中显示出最大的潜力?
  • 本文的其余部分组织如下:第2节解释了DEW和FLOW的开发过程,并描述了实验基准设计和流程(图1)。第3节分析了实验结果,第4节进行了讨论,第5节给出了结论。

    DEW数据集开发

    为了填补当前缺乏评估LRMs在AWM领域性能的基准数据集的研究空白,开发了DEW管理问题。DEW是一个仅包含文本的多项选择数据集,用于逻辑和数学推理问题,分为两部分:DEW-LogiQ和DEW-MathQ。DEW的总体开发流程如图2所示。该框架包括五个关键步骤:准备数据以进行知识提取,构建知识图谱,

    零样本性能和FLOW的影响

    根据RQ1,评估了最先进的LRMs在AWM任务上的表现,以及FLOW方法带来的改进。使用Pass@1指标测量的结果如表6所示。
    在DEW-LogiQ部分,所提出的FLOW-Map策略在所有LRMs中始终优于基线CoT,平均提高了7.73%。在所有基线LRMs中,o3 Medium的表现最好,达到了87.40%,而Claude Sonnet 4的相对提升最大

    讨论和未来方向

    本节进一步详细阐述了结果、所提出方法论的意义、改进的潜在领域以及未来研究的建议。

    结论

    本研究强调了当前推理模型在应对农业水资源挑战方面的潜力和局限性,同时也指出了它们最薄弱的子领域。在评估的模型中,o3-medium因其异常低的过度自信率而特别适合安全关键应用。Claude Sonnet 4紧随其后,Qwen3-30B在数学精度任务中表现出强大的可靠性,提供了信心

    关于生成式AI和AI辅助技术在写作过程中的声明

    在准备这项工作时,作者使用了ChatGPT来提高可读性。使用该工具/服务后,作者根据需要审查和编辑了内容,并对出版物的内容承担全部责任。

    CRediT作者贡献声明

    Josué Kpodo:撰写——原始草稿、软件、方法论、形式分析、概念化。A.Pouyan Nejadhashemi:撰写——审阅与编辑、监督、方法论、概念化。Rasu Eeswaran:撰写——审阅与编辑、验证。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

    致谢

    本项工作得到了美国农业部(USDA)国家食品与农业研究所(Hatch项目)的支持
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号