基于深度图像、Swin Transformer与卷积网络融合的手部姿态估计方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Hand gesture 3D pose estimation method based on swin transformer and CNN

【字体：大中小】 时间：2026年03月03日 来源：Scientific Reports 3.9

编辑推荐：

　　为解决现有手部姿态估计方法特征提取单一、忽视关节间长程拓扑关系导致预测精度受限的问题，研究人员开展了基于Swin Transformer与CNN的手部三维姿态估计研究。该方法融合CNN的粗略特征与Swin Transformer捕获的全局拓扑信息，并通过U形网络分层处理，最终在新建数据集上实现了平均平方误差降低7.012–4.776 mm的优异结果，显著提升了姿态估计的准确性。

在数字交互、虚拟现实和医疗康复等领域，精确理解手部的三维姿态至关重要。然而，教计算机“看懂”手部复杂多变的姿态并非易事。当前的主流方法常常面临两大核心挑战：一是特征提取手段较为单一，难以全面捕捉手部丰富的形状、纹理和轮廓信息；二是过于关注局部关节点，而忽略了手部作为一个整体，其各个关节之间存在着复杂的长距离拓扑与空间关系。这些局限性如同给计算机戴上了“眼罩”，使其难以对手势形成精准、连贯的三维理解，从而限制了相关技术的进一步发展与应用。

为了解决上述问题，一项发表在《Scientific Reports》上的研究提出了一种创新的手部三维姿态估计方法。该方法以深度图像作为输入，巧妙融合了卷积神经网络（CNN）与Swin Transformer的优势。具体而言，研究首先利用CNN提取手部的粗略空间特征；同时，引入Swin Transformer模块，其强大的自注意力（Self-Attention）机制能够有效捕捉关节点之间的长程依赖和全局空间拓扑关系。随后，一个U形网络（U-Net）结构对这两类特征进行分层编码与解码处理，在多个分辨率尺度上保留局部关节的细节信息，并将其与Transformer提供的全局上下文特征进行深度融合。为了更精准地监督网络学习，研究创新性地引入了二维高斯热图（2D Gaussian Heatmap）来表示关节点位置的分布概率，替代了直接坐标回归，从而提升了网络对目标特征的回归能力。最终，通过后端网络输出精确的手部关键点三维坐标。

研究在一个新构建的数据集上对提出的方法进行了全面评估。实验结果显示，该方法在关键的三维坐标预测任务上表现卓越。与作为基准的主流先进姿态估计网络相比，该方法将平均平方误差显著降低了7.012至4.776毫米。这一量化结果有力地证明了所提出框架的有效性。具体而言，在各项评测指标上，新方法均展现出了更低的误差和更高的鲁棒性，尤其是在复杂手势、遮挡等挑战性场景下，其性能优势更为明显。

综上所述，这项研究通过将CNN的局部特征提取能力与Swin Transformer的全局关系建模能力相结合，并辅以U形网络的多尺度特征融合与高斯热图监督，成功构建了一个高效、精准的手部三维姿态估计模型。该工作不仅有效解决了现有方法特征单一和忽视长程拓扑关系的问题，为相关领域提供了新的技术思路，其优异的性能也为手势交互、人机接口、增强/虚拟现实（AR/VR）以及远程医疗康复等实际应用提供了更可靠的技术支撑，推动了智能化、自然化人机交互的发展。

联系信箱：

粤ICP备09063491号

热点排行