复杂环境下稳健的羊脸识别：一种结合小波感知RT-DETR与自适应MobileViT的混合方法

《Agriculture》：Robust Sheep Face Recognition in Complex Environments: A Hybrid Approach Combining Wavelet-Aware RT-DETR and Adaptive MobileViT Zhou Zhang, Wei Zhao, Jing Jin, Fuzhong Li, Xiaorui Mao, Jiankun Cao, Leifeng Guo and Svitlana Pavlova

【字体：大中小】 时间：2026年03月10日 来源：Agriculture 3.6

编辑推荐：

　　本文提出一种级联羊脸识别框架，以应对实际养殖环境中复杂背景、光照变化及羊脸高视觉相似性带来的识别挑战。核心创新点包括：用于精确检测的WRT-DETR模型，其整合了多尺度小波残差建模与自适应特征交互以处理复杂背景；以及用于识别的轻量级LG-MobileViT网络，通过局部-全局协同建模区分细粒度特征。在包含400只个体、20,000张图像的数据集上，该框架在检测任务中达到92.5% mAP50，识别准确率达98.97%，模型参数量仅4.57 MB，且在边缘计算平台推理速度接近100 FPS，为实际精准畜牧业提供了高效、可靠的非接触个体识别解决方案。

1. 引言

随着畜牧业向规模化、集约化、智能化方向发展，精准畜牧业（Precision Livestock Farming, PLF）成为提升养殖效率与管理水平的关键途径。个体羊的精确识别是实现精准饲喂、疫病防控及全链条溯源管理的基础。传统依赖耳标、喷涂标记、射频识别（RFID）等物理标记方法的接触式识别存在磨损、脱落、引发应激反应及效率低下等问题，无法满足现代智慧农场高通量管理的需求。近年来，基于计算机视觉（CV）和深度学习的非接触式生物识别技术因其低成本、无应激、自动化程度高而快速发展。羊脸具有独特的纹理和几何特征，当前技术主要分为目标检测和身份识别两类。然而，在真实农场应用中实现高精度、实时个体识别仍面临严峻挑战：羊脸类间差异细微，视觉相似度高；现有轻量模型难以提取区分高度相似羊脸所需的细粒度特征，而高精度模型通常参数量大、计算开销高，难以部署在资源受限的边缘设备上。此外，现有研究多将检测与识别作为独立任务，忽略了将它们集成到端到端流水线中的必要性，导致级联后计算开销巨大，难以满足实时视频监控的处理需求。为解决这些问题，本文提出了一个用于羊脸识别的级联框架，其核心目标是在非受控养殖环境中实现稳健的实时识别。

2. 材料与方法

2.1. 数据收集与处理

研究数据采集自中国甘肃和山东两省的两个标准化羊养殖基地，涵盖了包括湖羊、杜泊羊、小尾寒羊在内的主流品种，共400只不同年龄、性别的个体羊。使用智能手机录制动态视频，分辨率设置为1920×1080像素，帧率60 fps，获得总计32.81 GB的原始视频数据。数据收集覆盖了室内栏舍、室外运动场等多种空间环境，以及直射光、逆光、暗光等多种光照条件，以模拟真实大规模养殖环境的复杂性。预处理阶段，首先从原始视频流中提取帧，每只羊获得50张有效图像，随后经过严格的人工筛选，剔除包含模糊、严重遮挡或不完整目标的低质量样本，最终得到一个包含400个不同身份、20,000张图像的大规模数据集。使用LabelImg对羊脸区域进行边界框标注。数据集按8:1:1的比例随机划分为训练集、验证集和测试集。为应对实际场景中的角度和光照变化，在训练中引入了数据增强策略，包括随机旋转、自适应亮度调整和高斯噪声注入。

2.2. 羊脸检测模型

羊脸检测是识别任务的前提，其准确性直接决定后续识别的性能。针对羊脸特征相似性高、目标尺度变化大、背景环境复杂导致的漏检和误检问题，本文提出了一种改进的羊脸检测模型WRT-DETR（Wavelet-enhanced Real-Time Detection Transformer）。该模型在特征提取和融合阶段引入了多尺度建模和注意力机制，有效增强网络对关键羊脸区域的感知，提高了检测精度和稳定性。WRT-DETR在RT-DETR架构基础上进行了两项核心改进。

2.2.1. 多尺度小波残差块（Multi-scale Wavelet Residual Block, MWR-Block）

为增强对羊脸细粒度纹理和结构信息的表征能力，设计了多尺度小波残差块。该模块通过空间和通道语义信息的跨尺度建模，有效强化关键特征的表示，从而更充分地捕捉羊脸区域的细粒度纹理细节。具体而言，MWR-Block包含左侧的多尺度小波分支和右侧的残差分支，通过特征融合和非线性激活生成最终输出。多尺度小波分支中，输入特征X依次通过3×3标准卷积、1×7深度可分离卷积和7×1深度可分离卷积三条并行路径处理，其输出通过逐元素求和融合为中间特征F。随后，F被送入WTConv2d小波卷积模块，执行显式小波变换以实现全局空间建模，从而增强对羊脸关键局部区域的感知，得到特征表示X₁。右侧的残差分支通过平均池化下采样和1×1卷积进行通道投影，以保留输入特征的原始语义信息，并保持与左支路空间分辨率和通道维度对齐，得到残差特征X₂。最终，通过融合X₁与X₂并经过非线性激活，得到模块输出。将MWR-Block集成到骨干网络中，可以使模型聚焦于目标的关键区域，抑制复杂背景纹理的干扰，丰富梯度流，在减少参数量和计算复杂度的同时增强特征表示，显著提升WRT-DETR模型的整体检测精度。

2.2.2. 自适应特征交互模块（Adaptive Feature Interaction Module, MAFI-Module）

在特征金字塔网络（Feature Pyramid Network, FPN）部分，本文提出了自适应特征交互模块，以优化多尺度特征融合过程。该模块通过通道注意力机制动态学习不同尺度特征的重要性权重，从而实现更高效的特征聚合。MAFI-Module首先对输入的多尺度特征进行通道维度的拼接，然后通过全局平均池化压缩空间信息，再经过两个全连接层和非线性激活函数生成通道注意力权重。这些权重被用来重新校准各个通道的特征响应，使模型能够自适应地强调信息丰富的特征并抑制冗余或噪声特征。最后，加权后的特征被分解并分配给不同尺度的输出分支。这种设计使得特征融合过程不仅考虑了空间上下文，还考虑了通道间的语义依赖，从而提升了模型在复杂多变环境中对羊脸目标的检测鲁棒性。

2.3. 羊脸识别模型

在准确检测并裁剪出羊脸区域后，识别任务的目标是从数百个高度相似的个体中区分出特定身份。这是一个细粒度生物特征度量学习问题。为此，本文设计了一个轻量级网络LG-MobileViT（Local-Global Mobile Vision Transformer），旨在满足边缘部署约束的同时，解决相似羊脸难以区分的问题。

2.3.1. 网络整体架构

LG-MobileViT结合了卷积神经网络（CNN）的归纳偏置（inductive bias）和Transformer的全局建模能力。其主体结构由多个LG块（Local-Global Block）堆叠而成。每个LG块包含一个用于提取局部纹理特征的卷积子块和一个用于捕获全局结构关系的Transformer子块。两个子块的输出通过一个可学习的门控机制进行自适应融合，使网络能够根据输入内容动态调整局部与全局信息的贡献比例。这种设计使模型能够高效地结合局部纹理与全局结构信息，在保持高判别力的同时减少计算量，从而实现在边缘设备上的稳定运行。

2.3.2. 局部-全局协同建模

LG-MobileViT的核心创新在于其局部-全局协同建模机制。在卷积子块中，采用深度可分离卷积和点卷积来高效提取局部特征。在Transformer子块中，对标准自注意力机制进行了优化，通过引入局部窗口注意力与全局下采样注意力相结合的方式，降低了处理高分辨率图像时的计算复杂度。具体而言，特征图被划分为不重叠的局部窗口，在窗口内计算自注意力以建模局部关系；同时，对特征图进行下采样，在降低分辨率的特征图上计算全局注意力以捕获长程依赖。这种混合注意力机制在保持较强全局建模能力的同时，显著减少了计算开销。此外，在Transformer子块中还集成了LayerScale模块，以加强网络对羊脸细粒度纹理线索的特征学习。

2.4. 端到端边缘部署与系统集成

为实现实际应用，本文将WRT-DETR检测模型与LG-MobileViT识别模型集成为一个级联系统，并针对边缘计算平台进行了优化和部署。通过模型剪枝、量化和知识蒸馏等技术，进一步压缩了整体系统的参数量和计算量。最终，集成系统成功部署在Jetson Nano等边缘计算设备上，实现了对实时视频流的在线处理。系统工作流程如下：首先，WRT-DETR模型对输入视频帧中的羊脸进行定位和边界框回归；然后，根据检测框精确裁剪出归一化的羊脸区域图像；最后，裁剪后的图像被送入LG-MobileViT网络进行特征提取和身份比对，输出识别结果。

3. 结果与讨论

3.1. 检测性能评估

在自建的包含20,000张图像的数据集上，对所提出的WRT-DETR模型进行了评估，并与当前主流的目标检测模型，如YOLOv5、YOLOv7、RT-DETR原版等进行了对比实验。评估指标采用平均精度均值（mean Average Precision, mAP），其中mAP₅₀表示交并比（IoU）阈值为0.5时的平均精度。实验结果表明，WRT-DETR在测试集上达到了92.5%的mAP₅₀，显著优于对比基线模型。特别是在包含复杂背景、遮挡和光照变化的困难样本上，WRT-DETR凭借其多尺度小波残差块对纹理信息的增强感知以及自适应特征交互模块对多尺度特征的优化融合，表现出更优异的鲁棒性，漏检率和误检率均明显降低。消融研究进一步证实了MWR-Block和MAFI-Module两个模块的有效性，移除任一模块都会导致模型性能下降。

3.2. 识别性能评估

在身份识别任务上，评估了LG-MobileViT模型的性能。将裁剪后的羊脸图像输入网络，采用交叉熵损失函数进行训练，以完成400个独立个体的分类任务。实验结果显示，LG-MobileViT在测试集上取得了98.97%的Top-1识别准确率。与此同时，该模型仅有4.57 MB的参数量，展现了极高的参数效率。与MobileNetV2、EfficientNet-Lite、MobileViT等轻量级网络对比，LG-MobileViT在准确率和模型大小之间取得了最佳平衡。其局部-全局协同建模机制被证明能有效捕获区分高度相似羊脸所必需的细微差异，例如眼睛周围纹理、鼻孔形状、毛发走向等。可视化分析表明，LG-MobileViT学习到的特征在度量空间中，同类样本聚集更紧密，异类样本分离更明显。

3.3. 系统整体性能与边缘部署

将WRT-DETR与LG-MobileViT级联，在边缘计算平台Jetson Nano上评估了整个羊脸识别系统的端到端性能。系统处理分辨率为1280×720的输入视频流时，平均推理速度接近100帧每秒（FPS），满足了实际养殖场实时监控的需求。功耗测试表明，系统在全负载运行时功耗低于10瓦，具备低功耗特性，适合长期野外部署。现场模拟测试进一步验证了系统在真实复杂环境（如扬尘、雨雪、不同时段光照）下的实用性和稳定性。尽管取得了显著成果，研究也指出了当前框架的局限，例如对极端姿态（如完全背对摄像头）的羊脸识别能力有限，未来工作可考虑引入多模态信息（如红外成像）或3D姿态估计进行补充。

4. 结论

本研究针对复杂实际养殖环境中羊脸识别所面临的挑战，提出了一个由WRT-DETR检测模型和LG-MobileViT识别模型构成的级联框架。WRT-DETR通过集成多尺度小波残差建模和自适应特征交互，显著提升了在复杂背景下的检测精度。LG-MobileViT通过创新的局部-全局协同建模机制，在保持轻量化的同时实现了对高度相似羊脸的高精度区分。在包含400个个体的大规模数据集上的实验证明，该框架在检测和识别任务上均达到了先进性能，且整个系统可高效部署于边缘设备，实现接近100 FPS的实时推理。这项工作为精准畜牧业中的非接触、自动化个体识别提供了一种高效可靠的技术方案，对推动智慧养殖的发展具有积极意义。未来的研究方向包括扩展数据集规模、探索更高效的网络架构以及将该框架适配于其他牲畜的个体识别任务。

热点排行

新闻专题