基于大型语言模型的人工智能工具在马术相关主题上的准确性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Equine Veterinary Science》：Accuracy of large language model-based artificial intelligence tools for equine topics

【字体：大中小】 时间：2026年05月02日 来源：Journal of Equine Veterinary Science 1.6

编辑推荐：

　　S. Aldworth-Yang | S.J. Coleman | K. O’Reilly | D.N. Catalano 科罗拉多州立大学农业科学学院动物科学系，美国科罗拉多州柯林斯堡市西皮特金街350号，邮编80521 摘要背景人工智能（AI）平台作为马匹信息资源正变

S. Aldworth-Yang | S.J. Coleman | K. O’Reilly | D.N. Catalano

科罗拉多州立大学农业科学学院动物科学系，美国科罗拉多州柯林斯堡市西皮特金街350号，邮编80521

摘要

背景

人工智能（AI）平台作为马匹信息资源正变得越来越受欢迎。然而，这些平台从各种来源生成答案，并不总是能够区分事实与观点。

目的/目标

本研究的目的是评估AI生成的关于马匹问题的答案的准确性和质量。研究人员认为AI平台能够有效回答基本的马匹问题，但在处理复杂主题或问题时表现较差。

方法

共编写了40个问题，涵盖马匹护理、设施管理、营养和繁殖等方面。每个问题根据难度分为四个等级：初级（Beginner）、中级（Intermediate）、高级（Advanced）和热门（Trending）。测试了三个AI平台：ChatGPT（CGPT）、Microsoft Copilot（MicCP）和ExtensionBot（ExtBot）。答案从准确性、相关性、全面性和信息来源质量（每个方面5分，总计20分）进行评分。数据使用SAS（版本9.4）的PROC GLM进行分析。

结果

总分数受到问题难度级别的影响（P = 0.002）。中级难度的问题得分最高（15.95 ± 1.99）。准确性受到平台（P < 0.001）、问题难度级别（P < 0.001）和问题主题（P = 0.015）的影响。CGPT（4.18 ± 0.93）和MicCP（4.08 ± 0.83）的表现优于ExtBot（3.26 ± 1.21）。相关性受到平台（P = 0.042）和问题难度级别（P < 0.001）的影响。信息来源质量因平台而异（P = 0.037）。

结论

AI平台可以作为一种资源；但目前它们还无法达到马匹推广专家所具备的知识水平。AI平台在处理复杂主题时存在困难，并且在各项评估标准上的表现不一致。

引言

人工智能（AI）是指旨在复制人类认知能力的基于计算机的系统，包括信息检索和内容总结。马主和学生可能会使用AI工具快速获取关于马匹护理、健康和管理等方面的问题答案。最常用的AI平台基于大型语言模型（LLM），这些模型可以从广泛的在线资源中提取信息并即时生成响应。然而，由于信息来源多样，它们可能无法始终区分事实与观点，从而导致回答模糊、不准确或具有误导性。马匹护理需要结合实际经验和基于证据的科学研究。因此，由大型语言模型AI工具生成的不准确信息可能导致错误的决策，从而产生潜在的危害。

目前，针对马匹应用的人工智能技术研究主要集中在跛行的检测上，而非对LLM本身的评估。Chiara等人[1]将兽医的主观步态评估与无标记的AI视频分析系统进行了比较。该工具利用生物力学模型和算法来追踪头部和骨盆的垂直运动[1]，但他们发现这两种方法在检测轻微不对称性方面没有一致性[1]。研究者认为这些工具缺乏兽医的临床判断力和对个体马匹的全面评估。

医学领域已经开始评估AI平台对常见临床问题的响应能力。Kasthuri等人[2]评估了Bing对脊柱手术相关问题的回答，发现虽然许多答案是准确的，但往往依赖于商业来源[2]。他们还担心用户可能没有意识到自己正在与AI交互，尤其是随着像ChatGPT这样的大型语言模型越来越多地驱动互联网搜索引擎[2]。Manian等人[3]将ChatGPT 3.5的回答与专家撰写的临床材料进行了比较，医生根据准确性、相关性和全面性对每个答案进行了评分，发现超过三分之一的AI回答质量低于人类撰写的答案[3]。在产科、外科和正畸学等领域进行的其他研究也显示了类似的结果。Du Y等人[4]报告称ChatGPT-4在超声检查方面的表现优于Copilot。Rakauskas等人[5]发现了不同平台在手术评估中的差异。根据Makrygiannakis等人的研究[6]，基于ChatGPT-4的工具提供了最基于证据的正畸学回答。这些发现强调了平台设计的重要性，并指出需要研究哪种AI平台最适合马匹相关问题。

正如在医学领域所展示的那样，在实际应用中依赖AI生成的答案之前，有必要对其进行严格评估。本研究的目的是评估AI生成的关于马匹问题的答案的准确性和质量。研究人员认为AI平台能够有效回答基本问题，但在处理更复杂的问题时可能会遇到困难。

章节片段

材料与方法

共编写了40个问题，涵盖五个核心马匹主题：马匹护理（GHC）、设施管理（FM）、营养（N）、遗传学（G）和繁殖（R；附录A：补充材料）。每个问题根据难度分为四个等级：初级（Beginner）、中级（Intermediate）、高级（Advanced）和热门（Trending）。初级问题涉及新马主经常询问的基本概念。中级问题是为有一定知识基础的人设计的

结果

CGPT和MicCP都回答了所有40个问题。仅依赖扩展出版物的ExtBot只回答了33个问题。共记录了113个单独的评分（每个问题3个回答×40个问题，除非ExtBot没有给出答案）。示例问题和答案包含在附录B中。

总分数

问题难度似乎影响了整体回答质量。如果将总分数视为百分比，中级难度的问题获得了80%的“分数”。尽管对分数的感知通常是主观的，但普遍认为80%的分数表示还有改进空间。这一点很重要，因为AI工具由于能够在几秒钟内访问大量信息而常被认为非常强大且“无所不知”。Kasthuri

结论

本研究表明，尽管AI工具具有潜力，但目前它们还无法达到马匹推广专家的专业知识和水平。总体而言，同一个问题在三个平台上得到了三种不同的回答。AI程序在处理复杂主题时表现不佳，并且在各项评估标准上的表现也不一致。俄克拉荷马州立大学的ExtBot显示出需要更新其相关功能

资金支持

本研究未获得公共、商业或非营利部门的任何特定资助。

作者贡献

S. Aldworth-Yang：方法论、数据分析、调查、初稿撰写、审稿与编辑、可视化

S.J. Coleman：概念构思、审稿与编辑

K. O’Reilly：方法论、审稿与编辑

D.N. Catalano：方法论、数据分析、初稿撰写、审稿与编辑、监督、项目管理

出版伦理声明

我们声明没有利益冲突。所有作者都对本文做出了实质性贡献。本文尚未在其他地方考虑发表。

补充材料

与本文相关的补充数据可在在线版本中找到，网址为doi: XXX

CRediT作者贡献声明

S. Aldworth-Yang：审稿与编辑、初稿撰写、可视化、方法论、调查、数据分析。S.J. Coleman：审稿与编辑、概念构思。K. O’Reilly：审稿与编辑、方法论。D.N. Catalano：审稿与编辑、初稿撰写、监督、项目管理、方法论。

利益冲突声明

所有作者均没有可能不恰当地影响或偏倚本文内容的财务或个人关系。

致谢

研究结果在2025年于美国科罗拉多州柯林斯堡举行的马科学学会年会上进行了展示。

联系信箱：

粤ICP备09063491号

摘要

背景