基于机器学习的预测与量化:强迫症(OCD)手术以及血统因素对赛马表现的影响

《Veterinary Immunology and Immunopathology》:Machine Learning-Based Prediction and Quantification of OCD Surgery and Pedigree Effects on Racehorse Performance

【字体: 时间:2026年02月23日 来源:Veterinary Immunology and Immunopathology 1.4

编辑推荐:

  OCD手术对赛驹长期竞速表现影响有限,血统(pedigree)是更显著预测因子,机器学习模型(XGBoost/CatBoost)结合衍生特征(如出赛胜率、售马比)可提升预测精度至R2=0.7983,SHAP分析显示手术相关变量(如手术年龄)解释力较弱,母系血统标识h_family贡献度最高。

  
S.J. 安|Y.W. 索恩|E. 福布斯|S.-H. 李
济州哈拉大学人工智能系,韩国济州63092

摘要

骨软骨炎(OCD)是纯种赛马中常见的发育性骨科疾病,尽管关节镜手术被广泛用于治疗,但其对赛马表现的长期影响仍不清楚。这项回顾性研究评估了OCD手术对赛马表现的影响,比较了血统和管理变量的预测能力,并应用了可解释的机器学习方法来预测赛马表现结果。数据来自2015年至2017年间接受OCD手术的75匹纯种赛马以及257匹未记录OCD手术的母系同胞(对照组)。变量包括生物测量数据、血统、手术信息和赛马表现指标。我们还推导出其他预测因子,如每场比赛的收入和售价比,并使用场调整百分位数指标“race_pts_avg”来量化赛马表现。我们训练了梯度提升模型(XGBoost和CatBoost),并使用R2分数和Shapley加性解释(SHAP)来评估预测性能。包含衍生特征的模型表现始终优于不包含衍生特征的模型,最佳模型(CatBoost)的R2值为0.7983。与手术历史相关的变量(包括手术年龄)的预测价值有限,病变严重程度并未成为主要预测因子。相比之下,血统,特别是群体平均编码的家庭标识符“h_family”,排名最高。这些结果表明,OCD手术不会显著损害长期赛马表现,而血统是该队列中最强的预测因子。尽管这项观察性研究受到地域范围和未测量因素的限制,这些因素可能同时影响手术状态和表现,但研究结果为涉及OCD手术史的纯种赛马的繁殖、治疗和销售决策提供了客观依据。

引言

在影响幼年纯种赛马的发育性骨科疾病中,骨软骨炎(OCD)很常见且具有临床重要性,最常发生在膝关节,尤其是股骨髌骨关节,这可能会对马匹的赛马和商业前景造成不确定性(Martinez-Saez等人,2026年)。标准治疗方法是通过关节镜切除OCD病变,通常在马匹开始参赛前的周岁或年轻阶段进行(Naccache等人,2018年)。尽管关节镜治疗旨在恢复关节功能,但马主和买家通常认为OCD病史是未来赛马表现和市场价值的潜在风险(Clarke等人,2015年;Kerbert等人,2024年)。因此,兽医、种马经纪人、训练师和买家在做出购买决定时必须权衡OCD手术史、血统、管理因素和早期表现。文献中的不一致发现加剧了这些担忧。先前评估OCD对赛马表现影响的研究结果各不相同,部分原因是它们关注了不同的关节和病变部位。Kerbert等人(2024年)报告称,周岁时接受股骨远端外侧滑车嵴OCD病变关节镜切除的纯种赛马的表现和销售结果与对照组相当。相比之下,Sloan等人(2024年)在一项针对拍卖中发现的股骨髌骨OCD的大规模回顾性病例对照研究中报告称,几种赛马表现指标有小幅但统计上显著的下降。这些不同的发现突显了进行特定关节分析的必要性,并留下了关于股骨髌骨OCD及其手术管理对赛马表现长期影响的不确定性。
虽然血统是表现的有力预测因子,遗传率估计值在0.3到0.4之间(Thiruvenkadan等人,2009年),但其效果可能与其他因素(如训练环境、病史和早期发展)相互作用。例如,一些具有优秀遗传背景的马可能会接受OCD手术,这使得难以区分血统和治疗或管理的影响。育种者和买家通常非常重视能够产生成功赛马的母系家族和父系血统。因此,利益相关者必须决定接受过OCD手术的周岁马匹是否适合购买,以及如何权衡血统和病史。
为了解决这个问题,越来越需要数据驱动的方法来共同评估遗传、手术和管理变量。机器学习(ML)提供了一种实用的方法,可以通过对回顾性数据中的复杂非线性关系进行建模来分析多因素问题。在ML方法中,梯度提升决策树(逐步构建的决策树集合,以提高预测准确性),特别是XGBoost和CatBoost,在结构化表格数据上显示出高预测准确性,且预处理要求较低。这些模型可以整合分类特征(如血统代码)、连续变量(如生物测量特征)和二元指标(如手术状态),同时处理缺失数据和非线性交互作用。
可解释工具(如SHAP,一种理解每个特征对模型预测贡献程度的方法)使得可以分解模型预测并评估每个特征的贡献(Lundberg和Lee,2017年;?trumbelj和Kononenko,2011年)。这在马科学中尤为重要,因为读者不仅关心预测结果本身,还关心预测背后的原因,特别是遗传背景或手术史对预期赛马表现的贡献。
在这项研究中,我们应用了一个可解释的ML框架来量化OCD手术对赛马表现的长期影响,同时考虑了血统和其他因素。我们的数据集包括接受OCD手术的年轻纯种赛马及其未治疗的母系同胞,变量涵盖了手术历史、生物测量特征、早期职业生涯表现和编码的血统信息。我们假设血统特征将是赛马表现的最强预测因子,而OCD手术的影响将是最小的。我们进一步测试了将衍生特征与XGBoost和CatBoost结合使用是否能提高预测准确性,并使用SHAP来解释特征贡献。我们的目标是为繁殖、治疗和销售决策提供客观依据。研究结果支持这样一个实际观点:具有强大遗传潜力的马匹不应仅仅因为OCD手术史而被忽视。更广泛地说,这些结果可能有助于指导购买决策和赛马福利。为此,我们提出了一个整合手术、生物测量和血统变量的ML框架来模拟赛马表现。通过详细的模型评估和可解释性分析,我们确定了影响赛马结果的关键因素,并阐明了OCD手术和遗传血统的相对贡献。
本研究基于之前关于膝关节OCD手术后纯种赛马表现的临床分析(Sohn等人,2025年)。在此基础上,我们设计了额外的衍生特征并应用ML模型来评估关键预测因子,从而评估手术和遗传因素如何共同影响术后表现。

伦理批准

这项回顾性研究涉及对常规兽医护理中收集的临床和注册数据的分析。未对动物进行任何实验性操作。因此,不需要特定的伦理批准和知情同意。

研究设计和数据来源

我们使用了一个结构化的幼年纯种赛马数据集进行了回顾性观察研究。数据集包含332匹马,其中75匹接受了关节镜OCD病变切除(手术组)

结果

总结了OCD手术组的描述性特征,以提供临床和人口统计背景(表1)。共有75匹纯种赛马接受了关节镜OCD病变切除。手术时的平均年龄为15.02个月。其中47匹为雄性,28匹为雌性。28.0%的病例涉及左肢手术,25.3%涉及右肢手术,46.7%的马匹存在双侧病变。在手术治疗的马匹中,54匹(72.0%)随后至少

讨论

在这项研究中,我们应用机器学习来评估OCD手术史和遗传血统在预测赛马表现方面的相对重要性。研究结果表明,母系血统是比OCD手术史更强的表现预测因子。与手术相关的变量,包括手术年龄和病变严重程度,在模型中始终是最不具影响力的特征之一。

结论

总之,我们的机器学习分析显示,纯种赛马的血统是比OCD手术史更强的赛马表现决定因素。在幼年时期接受OCD病变切除的马匹,在预测方面与其未治疗的母系同胞表现相当,这表明在其他有利指标(特别是血统)存在的情况下,不应孤立地解释之前的OCD手术史。方法上,梯度提升模型(XGBoost和

数据可用性

由于隐私和所有权限制,支持本研究结果的数据不能公开获取,但可以向相应作者提出合理请求后获得。

未引用参考文献

(Lin等人,(2016))

资助

本研究未获得公共、商业或非营利部门的任何特定资助。

CRediT作者贡献声明

Y.W. 索恩:撰写——审阅与编辑、验证、方法论、调查、正式分析、数据管理、概念化。S.J. 安:撰写——初稿、软件开发、方法论、调查、正式分析、数据管理、概念化。RYU S.-H.:撰写——审阅与编辑、撰写——初稿、可视化、验证、监督、数据管理、概念化。E. 福布斯:撰写——审阅与编辑、可视化、调查。

写作过程中使用生成式AI和AI辅助技术的声明

在修订本工作时,作者使用了ChatGPT 5.2来改进语言和可读性。使用这些工具后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。

利益冲突声明

作者之间没有任何其他财务或个人关系可能不恰当地影响或偏倚论文的内容。
致谢
作者感谢韩国赛马管理局工作人员在OCD手术和整个研究过程中的宝贵贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号