标准化奶牛蹄部病变与跛行定义的范围综述：提升机器学习在奶牛管理中的应用

《Journal of Dairy Science》：Standardizing case definitions for hoof lesions and lameness: A scoping review to improve machine learning applications in dairy cattle

【字体：大中小】 时间：2026年02月22日 来源：Journal of Dairy Science 4.4

编辑推荐：

　　为解决奶牛跛行与蹄部病变研究中结果定义不一致制约机器学习模型普适性的问题，本文对现有文献进行了范围综述，系统分析了跛行评分与蹄部病变分类标准的使用现状与差异，并针对性地提出了改善标准化、增强模型泛化能力的具体建议。

在北美奶牛群中，跛行（lameness）是一种普遍且代价高昂的健康问题，其流行率估计在10%到55%之间。跛行主要由蹄部病变（hoof lesions）引起，它不仅直接导致奶牛疼痛、干扰其自然行为，进而影响动物福利，还会降低产奶量和繁殖效率。从经济角度看，每例跛行的治疗和劳动力成本估计在100到1000美元之间，此外还因体重降低、繁殖性能受损和过早淘汰导致额外损失。从环境角度看，跛行间接导致温室气体排放增加。因此，可靠地检测跛行和蹄部病变对于及时干预和有效管理至关重要。然而，当前的农场主要检测方法——在常规农场工作中进行的被动监测——通常只能发现严重病例，导致生产者低估跛行流行率。此外，生产者、兽医、研究人员和农场顾问之间对跛行认知的差异也可能导致治疗延迟。同时，蹄部病变的类型和严重程度不同会导致步态差异，这使得识别哪些奶牛能从修蹄和治疗中受益变得复杂。这些挑战突显了对更先进、客观的方法来改进跛行检测和管理的迫切需求。

融入机器学习（machine learning）的新兴技术为解决这些挑战提供了可扩展且准确的替代方案。然而，这些技术的有效实施依赖于对蹄部病变和跛行的一致且准确的分类，这需要标准化的病例定义。问题在于，现有的跛行评分系统（如5分制、4分制、3分制）和蹄部病变评估方法（如13分区法、ICAR爪部图谱、数字性皮炎严重程度评分系统）存在很大差异。这种不一致限制了机器学习模型在不同数据集和环境中的泛化（generalizability）能力和可靠性，阻碍了其在农场层面的实际应用。

为此，研究人员D. Swartz、A. Nault和G. Cramer进行了一项范围综述（scoping review），旨在系统梳理关于应用机器学习对泌乳期奶牛（lactating dairy cows）的蹄部病变和跛行进行分类的研究，重点关注这些研究中“结果”（即蹄部病变和跛行的病例定义）是如何被描述和分类的。该研究发表在《Journal of Dairy Science》上。

这项研究采用系统性的文献检索方法，于2024年10月通过Scopus、PubMed、Agricola和CAB Digital Library四个数据库进行检索，共确定了1149篇文献，最终有20篇研究满足纳入标准被用于数据提取。

通过对这20项研究的分析，研究人员揭示了在机器学习应用于奶牛跛行和蹄部病变检测领域存在的几个关键标准化问题。

研究群体特征报告不足

分析显示，在纳入的研究中，对研究群体（奶牛）和农场特征的报告存在不一致和缺失。尽管95%（19/20）的研究报告了数据收集的国家，但仍有5%的研究未报告。品种和泌乳状态信息的报告率分别为70%和65%。而关于垫料类型、地面类型、户外活动情况和生产系统类型等关键环境与管理因素的报告率则非常低（30%或更低，生产系统类型仅为10%）。大部分研究数据来源于英国或美国，研究对象主要是荷斯坦/弗里斯牛（Holstein/Friesian），泌乳状态多按初产/经产（primiparous/multiparous）分类。缺乏对这些特征的透明报告，使得难以确定模型适用的生产系统、品种或管理环境，从而限制了模型在原研究群体之外的采用和实用性。

研究设计与验证策略存在局限

在模型验证方面，只有10%（2/20）的研究使用了来自原始研究群体之外的牛群数据进行外部验证（external validation）。绝大多数研究仅使用训练/测试集划分或交叉验证（cross-validation）进行内部验证。模型在单一农场数据上开发可能受到样本选择偏差（sample selection bias）的影响，当预测变量在目标群体中的分布与训练数据不同时，还会发生协变量偏移（covariate shift）。这些都引发了模型在新环境或独立环境中性能普适性的担忧。

模型评估与报告术语不一致

随机森林（random forest）和逻辑回归（logistic regression）是最常用的机器学习算法。在模型性能评估方面，最常报告的指标是特异性（specificity）、敏感性（sensitivity，亦称召回率recall）和准确度（accuracy）。然而，研究发现术语使用存在不一致。例如，敏感性（sensitivity）、召回率（recall）和真阳性率（true positive rate）都指模型正确识别出的实际阳性比例，但被不同研究使用。同样，精确度（precision）和阳性预测值（positive predictive value）含义相同。这种术语的不一致限制了研究间的比较和结果解读的清晰度。

评估者信息不明确

评估者（evaluator，即对跛行或蹄部病变进行分类评分的人员）的选择和报告差异很大。研究团队人员是最常报告的评估者群体，其次是兽医和修蹄师。然而，许多研究未能清晰说明参与评分的评估者人数。缺乏关于评估者的详细信息，限制了重现研究条件的能力，也使我们无法理解评估者相关的差异如何影响模型结果。如果评估者（尤其是未设盲的研究人员）对算法的性能有预期，可能会引入标签偏倚（label bias）。

结果定义与分类标准不统一

在结果定义方面，55%（11/20）的研究基于步态评分（locomotion scores）构建结果，35%（7/20）使用蹄部病变数据，10%（2/20）同时结合了二者。

在使用步态评分的研究中，评分量表不一致：66.7%使用5分量表，16.7%使用4分量表，另16.7%使用3分量表。其中，50%的研究将结果转换为二元结果（如瘸/不瘸），33.3%创建了3级结果，8.3%使用了5级结果。最常引用的5分制量表是Sprecher等人（1997）的版本，但该量表对“正常步态”的定义缺乏特异性。较新的量表（如AHDB，2023；Flower and Weary, 2006）则提供了更清晰的评估标准。更大的问题在于，即使使用同一量表，不同研究对分数进行分组以定义“跛行”的阈值也不同，这直接影响了模型的训练目标和最终的检测敏感性。

在使用蹄部病变结果的研究中，62.5%（5/8）评估了多种病变类型，而37.5%（3/8）则专注于区分数字性皮炎（digital dermatitis）的不同阶段。此外，37.5%（3/8）的研究没有提供所使用的蹄部病变的任何描述。那些提供了标准的研究，对蹄部病变的描述也各不相同。

结论与重要意义

本范围综述系统性地揭示了当前应用机器学习技术进行奶牛跛行和蹄部病变检测的研究中，在病例定义标准化、研究特征报告、模型验证和评估者报告等方面存在的显著不一致性。这些不一致严重限制了机器学习模型的泛化能力和在真实农场环境中的实际效用。

为了提升机器学习在奶牛管理应用中的普适性和现实世界效用，未来的研究必须：

1.
提供清晰的结果定义：无论使用何种步态评分量表或蹄部病变分类系统，都必须明确定义评估标准，特别是“正常步态”的构成，并详细说明如何将原始评分转换为模型使用的分类结果（如二元或多元分类）。
2.
详细报告研究和群体特征：必须透明地报告数据来源的国家、品种、泌乳状态以及关键的农场管理特征（如垫料、地面、生产系统），这是评估模型适用性的基础。
3.
进行外部验证：应在不同于训练数据的牛群上验证模型性能，这是评估模型真正泛化能力的关键步骤。
4.
评估结果分类的影响：应探讨不同的分类阈值（例如，将轻度跛行视为“健康”还是“患病”）如何影响模型的性能和最终的农场管理决策。

总而言之，这项研究指出了一个关键瓶颈：缺乏标准化的数据标注和报告规范，正在阻碍机器学习这一有力工具在改善奶牛健康和福利方面的潜力释放。通过呼吁并推动研究实践的标准化，该综述为未来开发更具鲁棒性、可比较且易于在实际农场中部署的智能检测工具奠定了重要的方法论基础。

热点排行

新闻专题