《PLOS One》:Artificial intelligence-based dairy cattle behavior recognition for estrus detection via ensemble fusion of two camera views
编辑推荐:
本文提出一种基于双视角(顶视+前视)集成融合的奶牛行为识别系统,采用YOLOv8模型分别进行个体识别与六类行为分类,通过交并比(IoU)关联与决策级集成有效提升发情相关行为(如爬跨、下巴休息)的检测准确率,为畜牧业智能化管理提供轻量级解决方案。
摘要
监控奶牛行为对提高牧场生产力、维护动物福利和支持高效管理实践具有重要作用。本研究提出一种多视角行为识别系统,利用同步的顶视和前视闭路电视录像,结合深度学习技术。该系统包含四个主要组成部分:奶牛识别、行为分类、使用交并比的身份-行为关联,以及决策级集成以结合两个视角的信息。YOLOv8模型分别应用于每个摄像机角度,以检测个体奶牛并对六种关键行为进行分类:饮水、进食、站立、躺卧、爬跨和下巴休息,后两种与发情检测相关。该系统在每个视角内将奶牛身份与其行为匹配,然后整合结果以产生每头奶牛的最终活动标签。
引言
奶牛行为监控对于管理牛群健康、提高生产力和在奶牛场检测发情至关重要。诸如进食、饮水、爬跨和下巴休息等关键行为为奶牛的健康和发情状况提供了有用的指标。然而,这些行为通常由农民手动跟踪,这既耗时又容易出错,尤其是在大型农场。为了克服这些挑战,已经引入了各种监控工具。可穿戴传感器提供了一种解决方案,但可能使动物感到不适,从而影响它们的福祉。相比之下,使用闭路电视摄像机的计算机视觉提供了一种非侵入性且可扩展的替代方案。传统的图像处理方法可以检测明显和突然的运动,如爬跨,但经常错过细微的行为,并且对环境变化敏感。最近的工作探索了使用人工智能和机器学习来推断牲畜的行为和福利相关状态,突出了自动化方法在支持动物福利和农场管理方面的潜力,而无需大量手动监控。基于卷积神经网络的深度学习通过直接从数据中学习特征,提高了基于视觉的行为识别的鲁棒性。先前的研究已经证明了基于卷积神经网络的各种行为的检测,包括爬跨、躺卧、进食、跛行和反刍。然而,大多数模型依赖于单摄像机设置,这限制了在拥挤场景中的检测,并且通常专注于狭窄范围的行为。一些近期的努力旨在使用更先进的深度学习模型来扩展行为类别并提高准确性。虽然有效,但这些方法通常涉及高计算复杂度,并且仍然面临与遮挡相关的挑战。一项多视角研究试图通过跨摄像机视角使用重新识别技术来解决这个问题,但它没有涵盖某些关键的发情行为,如爬跨,并且更侧重于扩展覆盖范围而不是提高分类性能。此外,据作者所知,尚无先前研究指出某些行为可能 inherently 难以从特定的摄像机角度观察,而利用不同视角的互补优势可能解决这种角度特定的限制。为了解决这些局限性,我们提出了一种相对轻量级的模块化系统,使用同步的顶视和前视闭路电视视角。每个摄像机使用YOLOv8进行处理,以检测个体奶牛并对六种行为进行分类。一个基于交并比的模块将身份与行为联系起来,并且一个决策级集成结合了两个视角的输出,以在前视和顶视摄像机的行为检测不同时解决冲突。这种方法为实时行为监控提供了一种简单、有效的解决方案。因此,这项工作的新颖之处在于,我们是第一个提出一种轻量级多视角行为识别框架,明确利用同步顶视和前视摄像机视角的互补优势,以减轻角度特定的错误分类。因此,我们的方法直接提高了发情检测的行为分类准确性,涵盖了关键的发情相关行为,如爬跨和下巴休息,这些行为在先前的研究中被忽略了。
方法论
本研究涉及动物的所有程序均经过泰国孔敬大学机构动物护理和使用委员会的审查和批准,批准号为IACUC-KKU-128/66,日期为2023年10月19日。该委员会根据泰国国家研究委员会的动物实验伦理原则审查了该研究。此外,从负责进行该研究的大学奶牛场的农业学院院长处获得了安装闭路电视摄像机和对牛进行行为观察的书面同意。本节描述了一种模块化流程,用于使用同步的闭路电视录像从顶视和前视角度检测奶牛身份和行为。它包含四个主要模块:行为检测、奶牛识别、基于交并比的关联和集成融合。每个模块在以下小节中详细解释。
行为检测和奶牛身份识别
对于每个摄像机角度,独立训练了两个YOLOv8模型:一个用于行为分类,另一个用于奶牛身份识别。选择YOLOv8模型是基于其实时检测能力。行为模型识别六种与发情相关的关键活动:站立、躺卧、饮水、进食、下巴休息和爬跨。两个模型使用相同的超参数配置进行训练:300个周期,批量大小为32,图像分辨率为640×640像素,以及学习率为0.001的Adam优化器。为了提高在不同光照条件下尤其是夜间的检测鲁棒性,对于奶牛身份模型,每张图像通过应用灰度化(概率25%)、饱和度调整(范围-25%至25%)和模糊(最多2.5像素)进行两次增强。
交并比模块和集成融合模块
交并比模块概念如图所示。一旦两个YOLOv8模型产生每个帧的边界框,交并比模块计算奶牛身份和行为边界框之间的交并比。然后,每个奶牛身份通过将交并比值与预定义的交并比阈值进行比较来与行为匹配。如果任何一对奶牛身份和行为边界框的交并比大于阈值,则该奶牛身份被映射到该行为。如果给定奶牛身份的所有交并比值均未超过阈值,则当前帧中的行为被视为不确定,算法分配前一帧的行为。类似地,如果一头奶牛完全未被身份识别模型检测到,算法也分配其前一帧的行为。这些回退机制确保了行为跟踪的连续性,即使在检测不确定或缺失时也是如此。
集成融合模块概念如图所示。在交并比模块分别应用于顶视和前视摄像机视角后,将获得每个视角的映射结果。然而,偶尔从前视和顶视获得的行为是不同的。为此,提出了集成模块来整合预测,从而解决检测差异。集成模块的设计基于对前视和顶视检测与地面实况的经验分析。尽管前视模型总体上表现更好,但在特定场景下观察到某些错误分类。具体来说,两个常见的错误分类错误如下:误饮水检测:奶牛仅仅站立或行走在水槽附近经常被误分类为“饮水”,尽管没有表现出饮水行为。误下巴休息检测:当奶牛在栏内紧密排列,尤其是在后对前配置中时,由于对齐引起的遮挡,模型偶尔会检测到“下巴休息”或“爬跨”,尽管奶牛只是站立。为了解决这些问题,应用了一种简单的基于规则的融合策略。如果顶视预测为“站立”而前视预测为“饮水”或“下巴休息”,则优先选择顶视结果以避免常见的前视错误。在其他情况下,使用前视预测。通过利用两个视角的优势,这提高了准确性。
数据收集和预处理
测量环境设置
实验在孔敬大学农业系的奶牛场进行。安装了两个固定的海康威视闭路电视摄像机以捕捉前视和顶视,每个记录分辨率为570 × 960,每秒10帧。如图所示,三头3岁小母牛被放置在一个4 × 8米的栏中。作为参考,它们被标记为奶牛A、奶牛B和奶牛C。
用于行为和身份检测的图像数据集
为了准备用于行为和身份检测的数据集,提取视频帧并裁剪至576 × 576像素。使用Roboflow添加边界框和标签。对于每个摄像机角度,创建了两个数据集:一个用于分类行为,另一个用于识别个体奶牛。表1显示了每个类别的标签数量。这些标记数据集允许模型学习行为识别和奶牛识别。然后将数据分为训练集、验证集和测试集,并导出为包含边界框坐标的文本文件。训练后,使用在验证集上获得最佳平均精度的周期模型用于后续模块。
用于最终系统评估的视频数据集
为了评估系统在真实环境下的性能,在一个连续视频记录上评估了完整的行为识别流程,该记录时长17小时16分钟。该评估是在栏中三头奶牛中有两头被确认处于发情期的一天进行的,从而可以评估系统在自然条件下检测发情相关行为的能力。
结果与讨论
为了评估所提出方法在发情检测方面的有效性,我们计算了发情相关行为和非发情相关行为在视频数据集上的混淆矩阵。图4-6显示了在三种配置下的识别性能结果:仅使用顶视摄像机、仅使用前视摄像机以及提出的双视角集成。此外,表2总结了每种配置的F1分数。顶视摄像机在识别非发情行为方面表现出色,有1202个真阴性。然而,它在检测发情行为方面表现不佳,仅产生44个真阳性和558个假阳性,导致F1分数低至0.133。这些假阳性大多源于“站立”行为被误分类为“爬跨”或“下巴休息”,这可能是由于俯视视角捕捉细微姿势线索的能力有限。相比之下,前视摄像机在两个类别上都显示出改进的性能。它在发情行为上实现了40个真阳性和83个假阳性。这些假阳性大多是由“站立”行为被误分类为“下巴休息”引起的,主要是由于奶牛紧密排列时对齐引起的遮挡。尽管如此,前视摄像机实现了更高的F1分数0.435,这归因于其比顶视显著更低的假阳性率。这突显了前视在捕捉特定姿势行为方面的优势,因为它提供了更具信息量的视角。提出的双视角集成方法进一步提高了精确率和召回率之间的平衡。它实现了37个真阳性和56个假阳性,同时保持了较低的真阴性计数。值得注意的是,许多被前视模型错误分类为“下巴休息”的实例,当顶视预测为“站立”时被正确重新分类为“站立”,显著降低了假阳性率。类似地,前视模型的一些“饮水”错误分类被顶视预测纠正。因此,“下巴休息”和“饮水”的F1分数比单独使用前视摄像机提高了约4-5%。集成方法最终产生了最高的F1分数0.481,优于两个单独的视角。这些发现表明,结合两个视角的预测有效地补偿了每个摄像机的局限性,从而更准确、更鲁棒地检测发情和非发情行为。总体而言,结果证实,虽然单独使用前视视角提供了合理的性能,但通过简单的决策级集成整合两个视角显著增强了行为识别。集成方法有效减轻了常见的错误分类——例如将站在水槽附近误认为是饮水,或在遮挡期间错误识别下巴休息——这提高了系统的可靠性。然而,总体F1分数仍然较低。这可能是由于发情相关行为中残留的假阳性以及数据集中的高类别不平衡。通过重采样、类别加权或损失函数调整来解决这种不平衡将作为未来的工作。
结论和未来工作
在本文中,我们提出了一种基于深度学习技术的多视角奶牛行为识别框架,该框架设计用于处理同步的顶视和前视闭路电视录像。该系统采用独立的YOLOv8模型进行奶牛身份识别和行为分类,通过基于交并比的关联模块和跨视角的决策级集成融合模块进行集成。实验结果表明,双视角集成优于单视角模型,实现了最高的F1分数0.481,并纠正了常见的错误分类,如下巴休息和饮水。研究结果证实,整合多个摄像机视角有助于克服单个视角的局限性并增强系统鲁棒性。该系统可以通过与现有的牛群管理系统集成,作为奶牛农民的实用工具,提供发情早期预警,减轻劳动负担,并提高繁殖效率。然而,本研究有几个局限性。首先,最终系统的F1分数相对较低,为0.481。一个可能的解释是数据集中显著的类别不平衡,如表1所示,这可能导致模型不成比例地关注比发情相关行为更频繁发生的非发情行为。其次,本工作中使用的集成融合策略基于简单的基于规则的逻辑,可能无法很好地扩展到更复杂的场景。实施更先进的逻辑或技术,例如使用检测置信度分数或时间建模,可能会产生进一步的改进。此外,扩展系统以识别更细微或复杂的行为,如烦躁不安,将进一步支持全面的奶牛福利监控。这些局限性将在未来的工作中解决。