DMS-Net：一种用于复杂环境下羊行为识别的动态多尺度多模态融合方法

《Smart Agricultural Technology》：DMS-Net: A Dynamic Multi-Scale Multi-Modal Fusion Approach for Sheep Behavior Recognition

【字体：大中小】 时间：2026年03月16日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　在现代化集约养殖背景下，羊的健康与福利状态可通过其行为变化间接反映，但复杂羊舍环境中的光照多变、羊只重叠干扰为视觉行为识别带来巨大挑战。为解决此问题，研究人员提出了一种用于限定羊群群体的智能监测框架，并构建了动态多尺度多模态网络（DMS-Net），旨在精确识别站立、卧、跪、坐四种关键行为。该研究采用视觉-骨架双模态融合结构，其中视觉分支以轻量化MobileNetV3为主干，结合动态结构卷积（DSC）、高效通道注意力（ECA）和多尺度池化空间金字塔（MPSPP）优化特征提取；骨架分支则引入多尺度图卷积网络（MS-GCN）提取多粒度关节特征。实验结果表明，DMS-Net在复杂场景下准确率达98.89%，较传统无骨架融合的单模态方法整体性能提升6.21%，有效缓解了真实农业环境下的高行为误报率。这项研究为精准畜牧业监测提供了新的技术思路，有助于提升羊群健康评估与养殖效益。

在现代畜牧业向集约化养殖迈进的过程中，如何精准、高效地评估动物的健康与福利状况，一直是科研人员和养殖管理者关注的焦点。尤其对于羊这种性情温顺但又常因群体聚集、结构柔软导致视觉监测困难的牲畜，其行为是反映生理和心理状态的“晴雨表”。然而，传统依靠人工巡视的方法效率低下，而佩戴式传感器等侵入式设备又会给羊带来应激反应，影响数据准确性甚至损害动物福利。尽管计算机视觉技术为此开辟了新的道路，但复杂多变的羊舍环境——光线忽明忽暗、羊只相互遮挡、形态相似行为难以分辨——依然是摆在研究者面前的“拦路虎”。

针对羊行为识别在复杂环境中面临的模态异质性与尺度变化挑战，薛培云、王志宇、王敬凯、闫永才、杨航、李胜男、刘宁和李建功等研究人员在《Smart Agricultural Technology》上发表研究，提出了一种名为DMS-Net的动态多尺度多模态网络。这项研究旨在构建一个能平衡模型轻量化与复杂场景下多尺度特征表示能力的智能监测框架，以精确识别站立、卧、跪、坐四种关键静态行为。研究表明，DMS-Net通过其创新的双模态融合架构，实现了视觉外观与骨架运动信息的互补建模，在复杂场景中达到了98.89%的识别准确率，性能显著超越传统单模态方法，为实际农业环境下的精准、非侵入式动物行为监测提供了强有力的解决方案。

研究人员为开展此项研究，主要应用了几个关键技术方法。首先，他们在安徽亳州和山西太原的湖羊养殖场，使用海康威视高清摄像头采集了实地监控视频，构建了一个包含RGB图像与18个关键点骨架标注的双模态羊行为数据集，其中行为识别子集包含1453张图像共计14013个实例。其次，他们设计并实现了DMS-Net的核心三模块：1）视觉特征提取模块，以改进的MobileNetV3为主干，引入动态结构卷积（DSC）替代固定核卷积，并集成了高效通道注意力（ECA）模块和多尺度池化空间金字塔（MPSPP）模块，以自适应提取外观特征并扩展跨尺度感受野。2）骨架特征提取模块，提出了多尺度图卷积网络（MS-GCN），通过并行多分支结构提取局部关节依赖和全局拓扑关系。3）跨模态动态融合模块（CM-DFM），采用三级级联设计（空间对齐与特征拼接、基于交叉注意力的跨模态语义交互、轻量级通道校准），实现了RGB与骨架特征的高效自适应融合。

2.2. Sheep Behavior Recognition Methods

本研究提出的DMS-Net行为识别框架包含三个核心模块。该框架采用双流结构，结合视觉流和骨架流，通过在特征级深度集成跨模态特征，实现了外观表示和运动动力学的互补建模。

2.2.1. Visual Feature Extraction module

视觉特征提取模块旨在平衡模型轻量化与复杂场景下的多尺度特征表示能力。研究以MobileNetV3为基础，保留了其高效的倒残差块结构，但用动态结构卷积替代了部分固定核卷积，使网络能根据输入特征的局部统计特性自适应调整响应模式。同时，集成的ECA模块通过一维卷积进行通道间局部交互，以轻量方式实现通道校准；MPSPP模块则通过并行自适应平均池化显式建模局部到全局的上下文信息，以缓解固定感受野的偏差。这些改进共同形成了一个层次化的特征增强框架。

2.2.2. Skeleton Feature Extraction Module

骨架特征提取模块侧重于从骨架数据中提取几何特征。研究提出了多尺度图卷积网络，其核心MS-GC模块将输入特征并行分发到四个独立的1×1卷积分支，分别提取不同粒度的关节特征。通过构建双尺度邻接矩阵，该模块能够同时刻画关节间的局部成对依赖和全局多关节协调关系，从而增强了模型对羊行为关键关节的多尺度相关性特征的提取能力。

2.2.3. Cross-Modal Dynamic Fusion Module

跨模态动态融合模块旨在高效融合RGB外观特征和骨架几何特征。它摒弃了传统的将骨架特征映射为热图的机制，采用高层特征直接拼接策略，避免了高维关节运动信息的语义损失。随后，引入交叉注意力机制，以RGB特征为查询，骨架特征为键和值，建立跨模态特征的细粒度关联。最后，通过轻量级通道注意力机制对融合特征进行通道级重加权，以抑制冗余或噪声通道，输出精炼的融合特征。

3. Results

3.1. Sheep Movement Recognition Results

3.1.1. Single-Modal RGB Image Behavior Classification Results

在单模态RGB图像行为分类对比实验中，改进的MobileNetV3在准确率、平均精确率、平均召回率和宏F1分数上均优于基础MobileNetV3，也超越了EfficientNet、ConvNeXt、HRNet等多种对比模型，同时保持了较高的FPS，证明了其在轻量化与特征提取能力之间的良好平衡。

3.1.2. Behavioral Classification Results of Multimodal Data

在多模态行为分类结果中，DMS-Net的表现全面超越了早期融合、晚期融合、通道融合以及加权晚期融合、门控融合、交叉注意力融合等基线方法。其准确率达到0.9889，宏F1分数达到0.9820，同时FPS保持在35.94，实现了分类精度与实时推理能力的出色平衡。混淆矩阵和逐类指标分析显示，模型对四类行为（站、卧、跪、坐）均保持了高识别性能，尤其在样本数量不均衡的情况下展现了鲁棒性。

3.1.3. Comparison of Single-Modal and Multi-Modal Attention Mechanisms Based on Heatmaps

通过特征响应热图可视化对比发现，与单模态模型相比，多模态模型的特征响应模式更加集中且与任务相关。多模态热图的激活区域更清晰地聚集在关节连接、脊柱中线等行为相关的部位，背景区域的响应更少，表明多模态融合策略有助于模型更一致地关注判别性线索，并减少对背景杂乱和光照变化的敏感性。

该研究的结论清晰地表明，所提出的DMS-Net框架通过创新的视觉-骨架双模态动态协同架构，成功应对了复杂羊舍环境中羊行为识别的核心挑战。其核心贡献在于构建了一个能够自适应调整局部特征响应、高效建模多尺度关节依赖、并实现跨模态语义对齐与互补增强的识别系统。实验数据强有力地证实，该网络在准确率上相较传统单模态方法实现了显著提升，同时保持了满足实际部署需求的推理速度。更重要的是，骨架信息的引入为模型在遮挡、光照变化等复杂条件下提供了稳定的运动结构先验，而跨模态动态融合机制则确保了外观与运动信息的深度融合，而非简单叠加。这项研究不仅为羊的精准行为识别与健康监测提供了高效可靠的技术方案，其动态多尺度、多模态融合的设计思路也对更广泛的畜牧动物乃至野生动物行为分析研究具有重要的借鉴意义。它标志着计算机视觉与人工智能技术在推动智慧养殖、提升动物福利方面迈出了坚实的一步，为未来构建全自动、非侵入、高精度的智能化畜牧业管理系统奠定了关键技术基础。

热点排行

新闻专题