山羊生产在全球农业中至关重要,尤其是在资源有限的农村地区。它为小农户提供了收入、食品安全和支持(Navarrete-Molina等人,2024年;Wodajo等人,2020年)。联合国粮食及农业组织(FAO)指出,2022年全球山羊数量超过了11亿只,其中超过2亿只是奶山羊。这些奶山羊每年产奶约2070万吨,占全球牛奶总产量的大约2%(Akshit等人,2024年;Meza-Herrera等人,2024年)。除了经济价值外,山羊还因其适应性和在可持续农业中的作用而受到重视(Villarreal-Ornelas等人,2022年)。一方面,它们能在边际土地上高效放牧,在干旱和营养贫瘠的环境中茁壮成长(Estevez-Moreno等人,2019年);另一方面,山羊粪便富含氮、磷和钾。每只成年山羊每天排泄约0.5至1.2公斤粪便(Ogejo等人,2010年;Osuhor等人,2002年)。这种粪便的肥力与合成肥料相当,有助于养分循环和再生农业(Gichangi等人,2010年)。这些优势凸显了山羊在农业系统中的重要作用,并促进了精准畜牧业(PLF)在山羊养殖领域的发展(Deepika等人,2023年)。
随着畜牧生产的增长,对智能监控系统的需求也在增加(Vlaicu等人,2024年)。精准畜牧业(PLF)通过持续跟踪动物的行为、生理状况和环境来改善动物健康、福利和生产力。它使用传感器网络、成像技术和嵌入式计算(Morrone等人,2022年;Norton等人,2019年)。在山羊养殖中,PLF被用于多种任务,如健康监测(Deepika等人,2023年)、行为分析(Hollevoet等人,2024年)和饲料摄入量跟踪(Chebli等人,2022年)。这些系统可以通过发现异常模式或超出阈值的情况来提醒农民(Gómez等人,2021年;Morrone等人,2022年)。然而,它们往往缺乏上下文感知的能力,很少提供可操作的管理建议(Islam和Scott,2022年)。这导致农民只能得到原始数据或模糊的警报,对做出有效决策帮助有限(Kopler等人,2023年)。
为弥合PLF中的数据与决策之间的差距,已经开发了基于规则的决策支持系统(DSS)。埃塞俄比亚的KBSGDDT(Tesfaye,2019年)和菲律宾的E-Goat Doctor(Arpay和Talirongan,2024年)旨在利用专家知识,在兽医资源不足的地区提供早期疾病诊断。然而,KBSGDDT仅关注埃塞俄比亚阿法尔地区的少数几种山羊疾病(Tesfaye,2019年);E-Goat Doctor只能识别六种常见的山羊疾病(Arpay和Talirongan,2024年)。这意味着它们的诊断能力在很大程度上依赖于规则的完整性和所包含的专家知识。另一方面,iSAGEDSS平台(Vouraki等人,2020年)可以模拟绵羊和山羊的能量和蛋白质需求,帮助欧洲畜牧业生产者通过模拟不同情景来制定计划。但其固定结构不考虑随机变量,因此用户必须创建多种情景以应对极端天气等意外事件。此外,iSAGEDSS缺乏集成疾病诊断功能,限制了其在健康相关决策中的应用(Vouraki等人,2020年)。
人工智能(AI)的最新进展增加了深度学习在畜牧养殖中的应用。卷积神经网络(CNN)已被用于基于视频的姿势识别(Tung等人,2022年)、体况评估(Temenos等人,2024年)和行为分类(Gao等人,2023年)。循环神经网络(RNN)和长短期记忆(LSTM)架构有助于预测营养摄入模式(Peng等人,2019年)、检测运动问题(Bonneau等人,2025年)以及预测昼夜行为节律(Wagner等人,2020年)。最近,Transformer模型被引入用于识别奶牛的行为(Zhang等人,2025年)。这些技术在分类任务中的表现显著优于传统的信号处理方法。尽管能力有所提升,但深度学习主要关注状态检测和预测,并不向农民提供基于上下文的建议(Mahmud等人,2021年)。因此,决策仍然依赖于手动解释或将模型输出整合到外部支持系统中(Tuyttens等人,2022年)。
大型语言模型(LLM),如GPT-4,被用于根据结构化和非结构化输入生成定制的自然语言建议(Gontijo等人,2025年;Li等人,2025年)。农业应用包括基于聊天的作物咨询系统(Qing等人,2023年)和诊断猪病的工具(Mairittha等人,2025年)。通过结合传感器数据和农民问题等各种输入,这些模型可以从被动监控转向主动决策支持(Lin等人,2024年)。然而,LLM面临三个主要挑战:i)幻觉现象,即提供看似合理但错误的信息,这在山羊养殖等专业领域尤为麻烦,因为标准数据集有限(Ji等人,2024年;Liu等人,2024年;Sapkota等人,2024年);ii)知识碎片化,该领域的专业知识分散在不同的格式和来源中,使得可靠整合变得困难(Rudin,2019年);iii)知识过时,模型依赖于固定的训练数据,这些数据可能会过时。
检索增强生成(RAG)(Lewis等人,2020年)有助于减少LLM提供无根据输出的可能性。它通过将响应与经过验证的、特定领域的来源关联起来实现这一点。这些针对畜牧业的研究表明,使用RAG系统可以提高健康相关建议的准确性(Leite等人,2025年;Menezes等人,2024年)。这些系统从科学文献和专业畜牧数据库中检索相关信息,从而提供可扩展的、有针对性的、特定于上下文的指导(Li等人,2025年;Samuel等人,2025年)。
然而,畜牧养殖中的许多关键知识并不仅存在于文本中,还经常以决策树和表格等结构化格式出现(Ekiz等人,2020年;Tajonar等人,2022年)。农民通常在表格中收集和记录定量数据,这些数据包括表型特征、繁殖性能和营养成分(Tajonar等人,2022年)。为了解释这些结构化数据,通常使用基于规则的模型,如决策树。它们有助于疾病诊断和牛奶产量预测等任务(Ekiz等人,2020年)。然而,传统的LLM在处理结构化数据时存在困难(Fang等人,2024年)。它们的令牌处理方式是顺序进行的,这与表格的工作方式不匹配(Sui等人,2024年)。当表格中的令牌超过1000个时,模型性能会急剧下降。注意力机制的表现也可能不一致(Fang等人,2024年)。此外,结构化数据中的层次关系没有得到很好的捕捉,导致对列和节点之间联系的理解不足(Liu等人,2024年)。这些问题在精准山羊养殖中尤为突出。准确解释结构化知识直接影响生产效率、动物福利和农场利润(Ekiz等人,2020年;Sintori等人,2019年)。这强调了需要专门的系统,这些系统应结合非结构化语言处理和结构化农业知识的清晰表示。这样的混合系统可以提供精准山羊养殖所需的智能决策支持。
为了解决这些限制,本研究构建了一个基于RAG的模块化知识辅助系统,用于山羊养殖。它使用表格到文本的转换和决策树文本化方法,帮助LLM更好地理解结构化的养殖知识。系统将信息组织为五个核心领域:疾病预防与治疗、营养管理、喂养管理、山羊奶管理和基础养殖知识。它还使用双路径检索机制来获取实时信息。本研究采用“领域优先”的方法。虽然表格文本化和决策树映射等技术已在一般自然语言处理(NLP)中得到研究,但在PLF中整合多样化的山羊健康管理知识仍然是一个挑战。本研究专注于创建一个专门的框架,用于转换和检索知识,以解决山羊养殖决策中常见的“长尾问题”和“逻辑不连续性”。