《AgriEngineering》:A Decision Support AI-Copilot for Poultry Farming: Leveraging Retrieval-Augmented LLMs and Paraconsistent Annotated Evidential Logic Eτ to Enhance Operational Decisions
Marcus Vinicius Leite,
Jair Minoro Abe,
Irenilza de Alencar N??s and
Marcos Leandro Hoffmann Souza
编辑推荐:
本文提出并评估了一种用于家禽生产的对话式决策支持系统(DSS)。该系统将大语言模型(LLM)、检索增强生成(RAG)与非经典逻辑(Paraconsistent Annotated Evidential Logic Eτ)相结合,构建了一个能够处理矛盾、不完整证据的AI副驾。该系统旨在为家禽(特别是肉鸡)生产者提供在环境控制、营养、健康、饲养管理和动物福利五个关键领域的技术查询支持,在不确定性下实现可解释且稳健的决策辅助。
摘要
在全球动物蛋白需求增长的驱动下,家禽养殖已发展成为一个高度集约化且技术复杂的行业。本文研究提出并评估了一种为家禽生产设计的对话式决策支持系统(DSS),旨在帮助家禽生产者,特别是肉鸡生产者,处理环境控制、营养、健康、饲养管理和动物福利这五个关键领域的技术问题。作为一种概念验证研究,其参考背景是集约化肉鸡生产,涵盖常见的地面饲养舍,包括环境控制舍和机械通风舍。该系统将大语言模型(LLM)与基于检索的生成(RAG)相结合,将响应基于精心策划的科学和技术文献语料库。此外,它还增加了使用Paraconsistent Annotated Evidential Logic Eτ(一种为处理矛盾或不完整信息而设计的非经典逻辑)的推理组件。在方法论上,Logic Eτ被用作工作流程级别的控制机制,用于门控澄清、领域路由和答案充分性信号,而不仅仅是作为生成输出的后验标签。通过使用语义相似性(基于SBERT嵌入的余弦相似性)比较系统响应与专家参考答案进行评估。结果表明,该系统能够成功检索和组合相关内容,而非经典推理层使得在存在冲突或不充分证据的情况下,结果更容易解释且更可靠。这些发现表明,所提出的架构为现代家禽生产中可解释且可靠的决策支持奠定了可行基础,在传统RAG聊天机器人可能产生不稳定指导的矛盾或不完整信息场景下实现了一致的推理。
1. 引言
家禽已成为全球消费最广泛的动物蛋白来源。随着生产规模的扩大,家禽生产者越来越多地需要在不确定、时间压力和信息冲突的条件下,快速做出涉及环境控制、营养、健康、动物福利和饲养管理的复杂决策。为了应对集约化家禽系统日益增长的决策复杂性,已经引入了多种集成决策支持工具的农场管理平台。虽然这些系统改善了数据组织和报告,但其内嵌的DSS模块并非为应对不确定性、矛盾输入或重叠决策域而设计。在实践中,家禽养殖中的决策支持系统通常表现为确定性规则或基于人工智能的控制器、物联网监控平台、大数据解决方案以及跟踪环境条件、动物健康指标和生产指标的统计仪表盘。尽管这些技术提供了宝贵数据,但它们通常在基础设施需求、专业知识差距和成本相关约束方面存在显著限制,并且通常基于固定阈值或刚性决策规则,缺乏情境感知推理或自适应推理机制。因此,当前系统难以适应现实决策场景中的不确定性、冲突信号和多领域整合需求。这些限制促使人们探索结合结构化推理和领域专业知识的知识型方法,以增强决策的稳健性。在此背景下,大语言模型在情境理解、灵活推理和语义泛化方面提供了有前景的能力,特别是在通过检索增强生成机制用外部内容锚定响应时。然而,尽管LLM在从非结构化来源提取、组合和综合复杂技术知识方面具有潜力,但这些模型在面对冲突或不完整信息时仍然存在困难。此外,在将LLM应用于畜牧业生产,特别是应对家禽养殖过程的挑战方面,存在显著的知识缺口。为了解决这些挑战,本研究考察了将LLM、RAG与Paraconsistent Annotated Evidential Logic Eτ(Logic Eτ)的整合。这个非经典框架支持在矛盾、不充分或模糊证据下的推理。本概念验证研究的目标是开发和评估一个用于家禽生产的对话式知识型DSS;该系统被构造为对话代理,即“家禽养殖决策支持AI副驾”,它使用LLM、通过RAG检索的内容以及基于Logic Eτ的非经典推理来回答领域特定查询。该系统支持家禽生产的五个关键领域:环境管理、动物营养、健康监测、饲养管理和动物福利。方法论上的新颖性和贡献在于:将Paraconsistent Annotated Evidential Logic Eτ作为阶段式控制机制嵌入到基于RAG的对话式DSS中。Logic Eτ提供明确的证据量化,控制(i)对未确定查询的澄清门控,(ii)带有拒绝和确认循环的领域路由保障,以及(iii)在不完整或冲突证据下的答案充分性信号。这产生了一个白盒可靠性层,用于限定系统行为,而不是强制进行二元决策。
2. 材料与方法
本研究采用应用和实验方法来设计和评估用于家禽生产的基于知识的决策支持系统,结合理论建模、计算实现和实证评估。作为一种概念验证,本研究针对集约化商业家禽生产,以肉鸡生产为主要参考背景。该系统的参考情景假设肉鸡在地面饲养,舍内为环境控制舍或带有机械通风的开放式舍,在时间压力和部分信息下必须做出短期决策。在此背景下,五个建模领域对应于重复出现的运营决策类别。本研究的方法论框架整合了三个互补的组件:使用Logic Eτ的理论建模,为不确定和矛盾下的推理提供推论基础;通过实验设计的实验验证,作为概念验证试验来调整影响语义检索、预处理和生成行为的系统级参数;以及“家禽养殖决策支持AI副驾”的系统实现,开发为模块化的基于RAG的架构,将LLM与基于Logic Eτ的证据推理机制集成。
2.2. 基于Logic Eτ的证据推理
传统的基于LLM的系统在面对不精确、不完整或矛盾的输入时存在困难。为了应对这些挑战,所提出的系统将Logic Eτ作为一个补充推理机制,以数学上可处理的方式处理证据不确定性和不一致性。作为一个非经典逻辑系统,Logic Eτ旨在支持在不确定、矛盾和缺失信息下的推理。其表达能力源于使用双重证据度来表达关于命题的知识,实现了证据状态的细粒度表示。Logic Eτ为每个命题P分配一个证据注释(μ, λ),其中μ和λ分别表示有利和不利证据的程度。这种双重值的表示即使当μ和λ同时取高值时也能防止推理的平凡化。这些证据注释在笛卡尔平面的单位正方形内被形式化解释,这是一个捕获非经典推理方面的概念空间。每个证据对(μ, λ)对应于此二维单位正方形中的一个点。这些注释支持极端和非极端逻辑状态的推导。每个逻辑结果作为一个语义信号,指导系统的行为,提示澄清请求、细化领域分类或标记不充分的答案。在Logic Eτ中,确定性程度(Dce= μ ? λ)表达了支持和反对证据之间的平衡,而矛盾程度(Dct= μ + λ ? 1)表示这些证据同时冲突的程度。Logic Eτ被应用为一个推理组件来处理矛盾和缺失信息。它作为工作流程级别的控制机制,支撑着系统的核心推理机制,实现与诸如“用户问题是清晰的”、“用户问题属于家禽生产领域之一”或“生成的答案是充分的”等命题相关的控制决策。
2.3. 系统级参数调整的实验设计
本研究应用实验设计方法进行一系列对照测试,旨在研究系统级配置的变化如何影响DSS架构生成响应的可靠性、可解释性和语义准确性。一个受控的领域特定知识库子集作为实验的基础。该语料库支持开发一组固定的预定义查询;每个查询都配有一个黄金标准策划答案,用作评估过程中的参考。分析了两个互补的指标。第一个通过测量检索内容与参考答案之间的语义相似性来评估系统性能,作为内容保真度和实用性的代理。第二个检查检索内容与原始查询之间的语义对齐,反映上下文连贯性。所有实验共享相同的计算设置。实验数据集由从策划知识库生成的合成问答对组成。该知识库是基于涵盖家禽营养、福利、房舍和饲养管理的科学文献、技术手册和推广材料构建的。系统输入是自然语言查询,而非原始传感器数据或农场记录。五项实验研究了分块策略、输入预处理和生成参数。
- 1.
分块大小与重叠:在RAG流程中,分块大小是指每个嵌入段中的标记数量,而重叠指定相邻块之间重复的标记数量,直接影响上下文连续性和信息密度。实验使用了在其他实验中采用的一组预定义问答对,并评估了与参考答案的语义对齐以及与原始查询的上下文相关性。测试了三种分块大小:128个标记(高语义精度,适合细粒度推理)、256个标记(大多数RAG流程中的实际最优值)和512个标记(在技术段落中最大化连贯性)。重叠值包括32个标记(最小冗余,避免突兀切割)、64个标记(标准默认值,平衡连贯性和成本)和128个标记(高冗余,对较大分块有益但计算量更大)。采用完全析因设计来研究分块大小和重叠的联合效应。目的是确定粒度和连贯性之间的最佳权衡,确定语义回报递减的点,并建立超过该点重叠增加计算成本而不改善检索质量的阈值。
- 2.
词形还原:此预处理步骤将屈折或派生词还原为其基本形式,保留语法上下文和语义身份。通过将形态变体映射到统一的词汇表示,它可以减少嵌入分散并改善检索对齐。词形还原作为二元配置进行评估:对称应用于索引语料库和用户问答对,或不应用。该实验采用了实验1中确定的分块配置,并使用同一组预定义问答对以及先前建立的评估标准。目的是确定词形还原的加入是否会提高与参考答案的语义相似性,并增强与原始查询的上下文对齐。
- 3.
标准化:此预处理步骤通过减少不影响意义的表面变异性来标准化领域特定语料库和问答对。它直接影响词汇对齐,改善嵌入一致性,并增强语义匹配。标准化在向量化前作为二元配置进行评估:对称应用于索引语料库和用于评估的问答对,或不应用。使用完全24析因设计来测试四种操作的所有可能组合:小写转换、标点符号去除、变音符号去除和空白折叠。目的是确定这些步骤,单独或组合,是否能增强检索质量。
- 4.
同义词扩展:此预处理策略通过附加或替换语义上等同的替代项来丰富索引语料库和问答对。它旨在减轻词汇不匹配,并改善用户表述与存储知识库之间的对齐。同义词扩展作为二元配置进行评估:对称应用于索引语料库和问答对,或不应用。使用词汇资源来识别同义词候选。目的是评估此策略是否能增强检索性能,特别是在词汇变化可能降低检索有效性的场景中。
- 5.
温度(Temperature)和Top-p:基础模型参数调节语言模型在响应生成过程中的随机行为。温度控制输出分布的熵,调节确定性和探索之间的平衡。Top-p(核采样)将采样空间限制在累积概率超过给定阈值的最小标记集,塑造生成文本的多样性和不可预测性。该实验采用了实验1中确定的分块配置,并使用同一组预定义问答对以及先前建立的评估标准。该模型在参数空间内生成响应。测试的值为温度 ∈ {0.0, 0.3, 0.6, 0.9} 和 top-p ∈ {0.8, 0.9, 1.0}。采用完全的4×3析因设计来隔离参数在现实检索增强生成工作流程中的交互效应。目的是评估不同的采样配置如何影响与参考答案的语义保真度和与原始查询的上下文相关性,同时保持生成稳定性和可解释性。
2.4. 系统架构
“家禽养殖决策支持AI副驾”被实现为一个功能决策支持系统,由围绕RAG架构构建的集成模块组成。第一个模块,知识库构建管道,执行策划的科学和技术来源的收集、预处理、分割、嵌入和索引。生成的存储库,领域特定知识库,按主题领域组织家禽生产知识,以实现精确和语义引导的检索。
第二个模块,对话式决策支持代理,作为系统的推理核心运行。它通过集成大语言模型与DS-KB(通过RAG流程和Logic Eτ)来管理查询解释、证据检索、答案生成和逻辑评估。该架构将LLM和RAG技术与Logic Eτ集成,以支持家禽生产中多个技术领域的决策。该系统采用GPT-4o作为其核心语言模型,选择它是因为其语义精度、低延迟和成本效益。语义搜索由FAISS驱动,选择它是因为其可扩展性、对CPU和GPU后端的支持以及在密集检索流程中经过验证的效率。向量索引采用IndexFlatIP结构,这是一种基于内积相似性的非量化扁平索引。该系统通过k近邻搜索执行检索。
2.4.1. 知识库构建管道
为了支持领域锚定的检索并确保生成过程中的高语义精度,该系统依赖于一个专门为家禽生产决策构建的知识库。该存储库通过一个结构化的管道构建,包括五个主要阶段:文档收集、领域分类、预处理、向量化和基于领域的索引。总共收集了48份技术文档,并手动分配到五个预定义的家禽生产领域之一。所有文档都转换为纯文本并分割成重叠的块。每个块都使用OpenAI的text-embedding-ada-002模型进行嵌入。对于每个知识领域,使用IndexFlatIP配置创建一个单独的FAISS索引。完整的数据集,包括原始文档、处理后的嵌入和完整的索引管道,可通过GitHub公开获取。
2.4.2. 对话式DSS代理的推理工作流程
C-DSS-A通过一个结构化的推理周期运行,该周期集成了语言理解、证据评估、语义检索和逻辑一致性检查。
每个决策阶段由一个在Logic Eτ下评估的基于逻辑的命题控制。完整的工作流程包括以下阶段:
- 1.
用户查询预处理:用户查询在进行基于向量的检索和语言模型推理之前都进行了预处理。采用的预处理配置反映了对照实验的结果。同义词扩展被启用为唯一的非平凡转换,因其能够弥合用户查询与索引内容之间的词汇差距。词形还原和标点去除也被应用。相反,变音符号去除和空白折叠默认关闭。
- 2.
迭代澄清评估:收到预处理后的用户查询后,系统启动一个迭代过程来评估和细化输入的清晰度。这被形式化为命题P1(μ, λ),其中P1≡“用户问题是清晰的”。该注释依赖于一个结构化的提示协议,该协议直接从LLM推断证据值。两个专门的提示量化了不同的认知维度:清晰度(定义为技术特异性和语义连贯性)和模糊性(定义为概念模糊性或逻辑不精确性)。两个值都在0到1的连续尺度上返回,分别对应于(μ, λ)。Dce(μ, λ) 确定系统是否有足够的信心继续。如果Dce(μ, λ) < 0.75,则认为查询未确定。在这种情况下,模型生成一个澄清提示,该提示被附加到对话上下文中。修改后的输入使用相同的过程重新评估,形成一个迭代循环,直到满足确定性阈值,即Dce(μ, λ) ≥ 0.75。此时,系统继续进行领域分类。
- 3.
迭代领域分类:一旦问题被认为是清晰的,系统就会提示LLM将其分类到五个预定义的家禽生产领域之一。分类被形式化为一个带注释的命题:P2(μ, λ),其中P2≡“该问题属于[已识别领域]”。与上一步类似,证据值μ和λ由LLM通过引导提示推断,并在Logic Eτ下解释。如果结果Dce(μ, λ) 低于0.75,系统会生成一个元问题来验证分类。如果用户确认该领域,则接受分类,系统继续。如果用户拒绝,则将该领域从候选列表中移除,并使用更新的领域集再次提示LLM。此循环持续进行,直到实现可靠的领域分配,使系统能够进入语义证据检索阶段。
- 4.
领域引导的知识检索:有了澄清的问题和已识别的领域,系统继续进行语义检索。使用OpenAI的text-embedding-ada-002模型嵌入输入查询,并在FAISS向量索引中执行k-NN搜索,以检索最相关的内容块。每个段落都链接到其原始来源和元数据。
- 5.
答案生成与评估:检索到的段落与澄清后的用户查询连接,并作为提示上下文提交给GPT-4o。然后模型生成草稿响应。同时,它评估以下带注释的命题:P3(μ, λ),其中P3≡“生成的答案适当地解决了用户的问题”。与之前的阶段一样,值μ和λ通过引导提示推断,并在Logic Eτ下解释。结果Dce(μ, λ) 反映了系统对响应充分性的内部置信度。如果Dce(μ, λ) < 0.75,则响应被标记为可能不可靠,可能会被修订或明确标记免责声明,以告知用户证据不足或矛盾。
2.4.3. 基于Logic Eτ的推理支持
每个命题形式化了对话推理周期中的一个关键决策点。证据值μ和λ在Logic Eτ下解释,结果的Dce(μ, λ) 决定系统是继续、标记交互还是启动迭代细化。定义阈值和相应的操作以确保可解释性、领域对齐和响应充分性。
2.4.4. 面向用户的证据状态可解释性
证据状态不会作为正式的逻辑标签呈现给最终用户。相反,Logic Eτ管理可观察的系统行为。确定性程度导致直接的、有根据的答案,触发澄清或领域确认,或触发带有中性免责声明和可操作的后续问题的明确不确定性信号。面向用户的消息不是固定的模板。为了透明度和可用性,系统会生成保留相同意图的简短变体,即当检索到的证据不一致或依赖于上下文时警告用户,同时使措辞适应特定查询和观察到的不一致类型。
2.5. 评估协议
评估协议侧重于C-DSS-A架构内每个推理阶段的单元级评估,包括三组测试,每组设计用于在受控条件下隔离和验证单个组件的行为。
- 1.
迭代澄清评估阶段测试:使用了130个用户问题的合成数据集,从DS-KB生成并标记为清晰或不清晰。目的是评估系统评估命题P1(μ, λ):“用户问题是清晰的”的能力,基于证据清晰度而非表面特征来区分未确定的输入。系统性能通过其通过迭代重构收敛到正确分类的能力来衡量,收敛定义为对于命题P1,Dce(μ, λ) ≥ 0.75。
- 2.
迭代领域分类阶段测试:使用一组新的100个合成生成的问题,随机分配到五个已定义领域之一,或根本不分配任何领域。目的是评估系统评估命题P2(μ, λ):“该问题属于[领域]”的能力,识别最合适的类别,在缺乏证据支持时不强制分类。仅当确定性程度满足Dce(μ, λ) ≥ 0.75时才接受分类,确保在领域归属之前实现证据收敛。
- 3.
领域引导知识检索与答案生成和评估阶段测试:使用从DS-KB中的源文章策划的100个合成生成的问答对。每个问题在两种条件下处理:首先,通过直接提示而不进行检索或证据评估;其次,通过整个系统的工作流程,包括从DS-KB检索、生成响应和基于Logic Eτ的自我评估。在第二种条件下,系统指示模型使用Logic Eτ评估其答案的充分性,为命题P3(μ, λ):“生成的答案是充分的”生成证据注释。对于两种条件,使用语义相似性指标(基于SBERT嵌入的余弦相似性)将生成的答案与黄金标准参考进行比较。目的是评估Logic Eτ引入的证据推理是否提高了系统生成语义有效响应的能力,并增强了最终输出的可解释性和可信度。
2.6. 可重复性与软件环境
所有系统开发、实验程序和评估工作流程都在可重复的Python环境中实现和执行。实现利用了由检索编排、语言生成、向量搜索、预处理和评估工具组成的模块化架构。主要库和框架包括用于语言建模和嵌入的openai、用于检索和编排的faiss-cpu和langchain、用于文本预处理和自然语言处理的spaCy和nltk、用于数据分析和可视化的pandas、scikit-learn、matplotlib和seaborn,以及各种辅助和系统工具。所有软件依赖项都在项目的requirements.txt文件