BiMS-Pose: 面向果园喷洒场景的多尺度动态协同与人体解剖约束的二维姿态估计新框架

《Agriculture》:BiMS-Pose: Enhancing Human Pose Estimation in Orchard Spraying Scenarios via Bidirectional Multi-Scale Collaboration Yuhang Ren, Zichen Yang, Hanxin Chen, Zhuochao Chen and Daojin Yao

【字体: 时间:2026年03月07日 来源:Agriculture 3.6

编辑推荐:

  本文综述了针对果园喷洒等复杂农业场景下人姿估计挑战的BiMS-Pose(Bidirectional Multi-Scale Collaborative Pose Estimation)模型。该模型旨在解决传统静态多尺度特征融合导致的关节定位偏差问题。其核心创新在于引入了动态权重调整、双向拓扑约束(基于人体解剖关系)及双向注意力流,实现了多尺度特征的自适应筛选与增强。实验表明,该方法在通用场景(如COCO数据集)和自建果园喷洒姿态数据集(OSPD)上均显著提升了平均精度(AP),并在嵌入式设备上保持了实时性,为农业自动化监测提供了精确、稳定、实用的技术方案。

  
1. 引言
二维人体姿态估计是计算机视觉领域的基础研究,旨在精准定位图像中人体的二维关键点坐标。这项技术为下游任务如动作识别、职业健康风险评估和人机交互等提供支持,在农业生产(如果园喷洒)场景中具有重要应用价值,可实现自动化作业监测与流程标准化。现有方法主要包括高分辨率卷积网络(如HRNet系列)、后处理优化(如RefinePose、GITPose)和基于Transformer(如ViTPose系列)的方法。然而,在复杂的果园喷洒场景中,枝叶遮挡、人机交互遮挡、光照变化、拍摄距离波动及喷洒动作多样性等因素,导致传统的静态多尺度特征融合权重难以适应动态变化的特征需求,从而引发关节定位偏差。本文提出的BiMS-Pose框架,旨在通过双向多尺度协同与解剖结构约束,解决上述挑战。
2. 材料与方法
2.1. 相关工作
  • 人体姿态估计:主流技术范式为热图回归,包括自底向上(如OpenPose)和自顶向下(如基于Faster R-CNN的方法)两种路径。研究方向延伸至特征增强(如HRNet、ViTPose)、结构建模(如AnatPose、SkeletonPose)和创新范式(如DiffusionRegPose)。
  • 农业场景姿态估计:作为通用姿态估计技术在农业领域的专门化应用,其面临遮挡、光照、距离变化等多重干扰。现有研究多针对单一干扰进行优化,缺乏系统性解决多重干扰协同影响的方案。
2.2. 方法
本文提出BiMS-Pose姿态估计框架,其整体结构如文档中图2所示。该框架包含三个主要部分:左侧的多尺度特征提取模块(使用ViT骨干网络生成多尺度特征令牌)、中间的双向多尺度协同模块(包含BiSRA和BiMAF,通过跨尺度注意力和双向注意力流增强特征表示)、右侧的热图结构优化模块(HSD,在解剖约束下优化热图并输出高精度姿态估计结果)。
  • 理论分析:通过理论分析定义了关节尺度与特征尺度的匹配函数,指出静态权重下特征匹配的期望值低于动态权重。基于贝叶斯估计理论推导了关节定位误差的组成,指出当前方法因缺乏解剖结构约束,导致结构约束方差占比至少40%,且单向特征传递无法有效降低特征表示方差。
  • BiSRA模块:采用多尺度深度可分离卷积增强局部结构特征,并利用双向跨尺度注意力在通道和空间维度筛选关键信息,通过双向路由机制建模模块内的远程关节依赖。
  • BiMAF模块:建立双向注意力流,实现高层语义引导低层细节、低层细节补充高层语义的特征交互,并集成常规与可变形卷积分支以增强局部特征表示。
  • HSD模块:基于热图梯度和关节结构权重生成动态锐化核,同时融合相邻关节热图,在结构约束下实现热图优化。
3. 结果与贡献
在COCO、MPII和自建的果园喷洒姿态数据集(OSPD)上的大量实验证明了BiMS-Pose的有效性。在通用场景下,其在COCO val2017数据集上相比使用相同骨干的ViTPose实现了平均精度(AP)1.2个百分点的显著提升。在农业果园喷洒场景下,它能有效应对光照变化、遮挡、拍摄距离变化等干扰因素,在OSPD数据集上取得了75.4%的平均精度(AP)和90.7%的正确关键点百分比(PCKh@0.5)。此外,在嵌入式设备上保持了18.3 FPS的平均帧率,有效满足了实时监控需求。
本文的主要贡献包括:(1)提出了BiMS-Pose方法,深度融合了双向多尺度协同机制与基于人体解剖结构的约束,专门针对复杂农业场景中的交互遮挡。(2)通过动态权重调整实现多尺度特征的精准筛选,同时建立高层语义与低层细节间的双向依赖,二者协同显著增强了复杂农业场景中特征表示的鲁棒性。(3)集成了动态锐化核与基于人体解剖结构的先验,有效缓解了热图峰值模糊并提升了关节结构一致性,从而促进了农业场景下的高精度关节定位。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号