一种多模态深度学习框架，利用荷斯坦牛的步态动态和毛色特征进行可靠的单个个体识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers and Electronics in Agriculture》：Multimodal deep learning framework for robust individual identification of Holstein cattle using gait dynamics and coat pattern features

【字体：大中小】 时间：2026年03月06日 来源：Computers and Electronics in Agriculture 8.9

编辑推荐：

　　牛个体精准识别多模态框架研究。通过融合步态动态与毛皮图案特征，提出FCANet-BiLSTM-AlexNet混合架构，动态权重分配实现96.76%模式化牛和92.15%模式缺失牛的识别精度。采用SSIM步态分割与自适应融合策略提升复杂环境下的鲁棒性，验证了多模态方法对单模态局限的突破作用。

陈婷|刘明伟|司永生|拉夫·R·科特|王克健|王斌

中国河北省保定市河北农业大学信息科学与技术学院

摘要

精确识别每头牛对于精准畜牧业至关重要。在户外农场环境中，识别过程中面临的一些挑战包括光照变化、泥污污染以及频繁的遮挡等因素，这些因素往往会降低视觉特征的质量，从而限制现有识别方法的可靠性。鉴于现有方法在户外环境中难以准确识别和追踪颜色均匀的牛只，本研究提出了一个深度学习框架，该框架结合了步态动态和毛色图案特征来可靠地识别荷斯坦牛。通过使用地面视频数据（共拍摄了54头牛），开发出了该框架。该框架采用了基于结构相似性的步态周期分割方法、带有注意力机制的CNN-BiLSTM网络（FCANet）进行步态特征提取，以及基于AlexNet的模型来缓解遮挡对图案识别的影响。通过动态决策级融合策略（有图案的牛为4:6的比例，无图案的牛为7:3的比例）提高了牛只识别的准确性。该框架在有图案的牛只上实现了96.76%的排名第一（Rank-1）准确率，在无图案的牛只上实现了92.15%的准确率，动态融合使性能提高了2.24%。对于跛行的牛只，该框架的mAP值仍保持在88.12%，尽管健康状态的变化影响了特征的一致性。错误分析指出了牛只转头行为以及结构阴影和泥污等环境因素带来的挑战。总体而言，本研究开发了一种多模态方法，以解决单模态生物特征识别的主要局限性，为农场条件下异质牛群中的牛只识别提供了实用的解决方案。

引言

精准畜牧业（PLF）需要持续监测每头动物的生理和行为参数（Pretto等人，2024年）。虽然已经开发出了用于追踪饲料摄入量、健康状况和活动模式的自动化系统（Pomar和Remus，2023年；Norton等人，2019年），但个体识别仍然是实施针对动物特定管理策略的基础性挑战（Zhao和Lian，2022年）。这一能力对于进行纵向健康评估和疾病管理（Andrew等人，2021年）、优化喂养方案和生长控制（Qiao等人，2021年）以及确保肉类和乳制品的可追溯性（Awad，2016年；Singh等人，2013年）至关重要。

一般来说，个体牛只识别技术可以分为机械式、电子式和生物特征识别式（Achour等人，2020年）。在奶牛场使用机械方法（如检查并读取牛只身上的纹身）进行个体识别既费力又耗时（Li等人，2017年）。由于动物福利方面的考虑，英国也禁止使用烙铁烙印（Awad，2016年）。电子识别技术，也称为射频识别（RFID），是一种广泛使用的做法。然而，RFID系统需要专业人员来安装和维护硬件，并且RFID标签可能会丢失、被牛只移除或损坏（Achour等人，2020年；Qiao等人，2021年）。生物特征识别方法是根据牛只的生理或行为特征为其分配唯一的身份。这些特征可以从牛只的不同部位提取：视网膜（Allen等人，2008年）、口鼻部（Kaur等人，2022年；Kumar等人，2018年）、面部（Weng等人，2022年；Xu等人，2022a年）、背部（Xiao等人，2022年）和躯干（Zhao等人，2019年）。为了提高生物特征识别方法的准确性，一些研究从牛只的多个部位提取特征（Hu等人，2020年；Tassinari等人，2021年）。

生物特征识别在精准畜牧业中的采用主要由计算机视觉技术推动，这些技术提供了非侵入式的监测能力（Kusakumiran和Chaiviroonjaroen，2018年）。最近的一些研究通过利用深度学习方法探索了这一领域。例如，使用深度信念网络（DBN）框架通过堆叠的受限玻尔兹曼机（Restricted Boltzmann Machines）学习口鼻部纹理特征（珠状和脊状图案）的层次表示，实现了98.99%的排名第一准确率（Kumar等人，2018年）。对于面部识别，CattleFaceNet模型结合了RetinaFace-mobilenet进行检测和ArcFace损失进行特征区分，在实际农场条件下以24 FPS的速度处理图像，实现了91.3%的准确率（Xu等人，2022年）。对于荷斯坦牛，其独特的黑白毛色图案作为天然的生物特征标记，结合背部和躯干特征的多区域图案分析实现了98.67%的识别准确率（Xiao等人，2022年）。像‘ShuffleNet-Triple’这样的低计算需求架构进一步提高了实用性，实现了82.93%的准确率（Wang等人，2023年）。将一次看清楚（YOLO）与支持向量机（SVM）结合进行多视图分析，可以将牛只识别准确率提高到98.36%（Hu等人，2020年）。

尽管有这些技术进步，但在现实世界的奶牛场环境中仍存在根本性的操作挑战。第一个主要限制是数据采集要求，因为大多数系统依赖于对特定解剖区域（如口鼻部或面部）的无障碍视图。然而，在正常的牛舍活动中，这些区域经常被遮挡（Kaur等人，2022年）。这一限制对于那些几乎完全是黑色的荷斯坦牛（占20.8%）和几乎完全是白色的荷斯坦牛（占1%）来说尤为严重，这是在Becerril等人（1994年）对4,293头牛的研究中记录的。在这方面，鉴于单模态识别牛只所面临的挑战，步态和毛色图案代表了两种互补的模态，分别捕捉动态行为和稳定的外观特征，从而可以从生物特征的角度在复杂的农场条件下实现可靠的个体识别。具体来说，步态提供了时间上的生物特征线索，而毛色图案编码了基于空间外观的身份线索，使它们的融合对于由泥污或其他部分视觉干扰引起的短暂遮挡更具鲁棒性。因此，在本研究中，多模态生物特征信息被视为提高复杂农场环境中牛只识别鲁棒性的潜在方法。然而，步态和毛色图案的区分能力会因个体和环境条件而异，这促使采用自适应融合策略，而不是本研究中描述的固定或手动调整的权重。

环境干扰，如结构物的阴影和泥污污染，会显著降低白色毛色图案的识别性能（Hu等人，2020年；Xiao等人，2022年）。尽管度量学习（Andrews等人，2021年）和Mask R-CNN混合模型（Xiao等人，2022年）解决了这些挑战，但这些技术仅依赖于视觉图案，这可能限制了可扩展性。例如，Tassinari等人（2021年）观察到，在包含无图案个体（即几乎没有或没有可见标记的个体）的异质牛群中，准确率下降到了64%。这种性能差距突显了需要互补识别模态的紧迫性。因此，本研究开发的多模态框架旨在通过结合步态和图案特征来实现高水平的识别准确率。

尽管人类步态分析在识别方面非常有效（He等人，2023年；Xu等人，2023年），但其在牛只中的应用仍不充分。Okura等人（2019年）使用RGB-Depth相机和步态能量图像（GEIs）实现了84.2%的准确率，但这需要手动选择和对齐图像。此外，GEIs将步态周期压缩成静态表示，忽略了对于可靠识别至关重要的时间动态（Roy等人，2012年）。

将步态与现有的基于图案的方法相结合可能提供一个有吸引力的解决方案。虽然毛色图案对于有明显标记的牛只具有高准确率（Xiao等人，2022年），但对于无图案的个体（Becerril等人，1994年）和环境变化（Hu等人，2020年），其有效性会降低。步态作为一种行为生物特征，在毛色变化的情况下仍然稳定，并可以弥补基于图案的局限性。这种互补关系表明，两种模态的决策级融合可以显著提高整个牛群的识别可靠性。该方法在毛色图案清晰时利用毛色图案，而在图案不清晰或被遮挡时依赖步态特征。

因此，本研究旨在开发一个自动化的牛只识别框架，该框架结合了步态动态和毛色图案识别。具体目标是：1）开发一个端到端的自动化流程，用于步态动态分析，整合深度学习架构以捕获时空特征，同时消除手动处理步骤；2）提出一种自适应融合策略，根据个体表型特征动态平衡步态和毛色图案模态的贡献；3）在实际农场条件下严格评估该框架的准确性和鲁棒性。

部分摘要

视频采集

视频数据来自中国保定市的宏达奶牛场，采集时间为2022年8月15日至9月18日和2024年9月12日至30日。所有实验程序均得到了河北农业大学动物伦理委员会的批准（协议编号2022172）。使用配备索尼Exmor R CMOS 1/2.3英寸图像传感器的MOKOSE C100相机，以1920 × 1080像素的分辨率和30帧每秒的速率录制视频。这些设置提供了足够的视觉细节

结果与讨论

本节首先展示了不同模态下的定量识别结果，然后详细分析了个体步态特征和健康状况如何影响系统性能。通过将实验发现与其实际意义相结合，本节突出了所提出框架的鲁棒性，并评估了其在实际农场应用中的潜力。

限制与未来工作

尽管所提出框架的性能令人鼓舞，但仍需承认几个限制。首先，依赖于来自单个农场的数据采集方式可能会限制其普遍性。相机视角和覆盖范围的变化可能会影响步态和图案特征提取的一致性，这需要在不同的采集场景中进行进一步验证。其次，尽管考虑了与跛行相关的步态适应情况，

结论

本研究提出了一个多模态深度学习框架，通过结合步态动态和毛色图案特征来识别个体荷斯坦牛。该框架实现了96.11%的排名第一准确率，这一结果得益于基于SSIM的步态分割、FCANet增强的BiLSTM步态分析以及自适应决策融合。在57天内的现场验证证实了其鲁棒性，在跛行和环境变化的情况下mAP值仍保持在88.12%。去除腿部形态特征改善了图案识别，而步态

CRediT作者贡献声明

陈婷：撰写——原始草案、软件、方法论。刘明伟：调查、数据整理。司永生：撰写——原始草案、概念构思。拉夫·R·科特：撰写——审稿与编辑、验证。王克健：正式分析、数据整理。王斌：调查。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

我们感谢保定市的宏达农场允许我们研究他们的动物并使用他们的设施，并感谢参与实验数据收集的农民。本工作得到了河北省自然科学基金（编号C2025204216）的支持。研究的支持者在研究设计、数据收集、数据解释或报告撰写方面没有发挥作用。在提交之前，赞助者无法访问数据、结果或手稿。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号