SPARK-ViT：结合自适应注意力机制和结构化推理的姿态估计技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：SPARK-ViT: Pose estimation with adaptive attention and structured reasoning

【字体：大中小】 时间：2026年01月20日 来源：Neurocomputing 6.5

编辑推荐：

　　2D人体姿态估计在无约束环境中面临遮挡和尺度变化挑战，Transformer模型虽提升表征能力但存在刚性采样和遮挡下病态反问题的缺陷。本文提出SPARK-ViT，通过自适应变形注意力块动态调整采样网格以适应非刚性形变和尺度变化，并设计空间感知关键点关系推理模块将人体运动学先验融入贝叶斯框架，实现遮挡关键点的逻辑恢复。实验表明SPARK-ViT在COCO和OCHuman数据集上AP达77.5%，APM达65.6%，显著优于基线模型。

河南胡|宣吴|荣华李|诗然朱|尚格张|沐雨李

大连交通大学机械工程学院，中国辽宁省大连市 116028

摘要

在无约束环境中进行2D人体姿态估计具有挑战性，因为存在遮挡和尺度变化，导致关节的视觉线索不完整或模糊。基于Transformer的模型提高了表示能力，但存在根本性限制：它们的自注意力依赖于均匀划分的刚性补丁网格，无法适应非刚性运动或尺度变化；而独立的关键点回归在证据缺失时则变成了一个病态推断问题。我们提出了SPARK-ViT（空间自适应推理关键点ViT），通过两种核心机制解决了这些问题。自适应可变形注意力模块学习用于内容自适应采样的空间偏移，从而对变形和尺度变化具有鲁棒性。空间感知关键点关系推断模块将运动学先验集成到结构化推断中，允许逻辑上恢复被遮挡的关节。混合检测头进一步统一了热图和回归输出，以确保预测的稳定性。在COCO和OCHuman数据集上的实验表明，SPARK-ViT取得了持续的改进，分别达到了77.5的AP和65.6的APM，即使在严重遮挡的情况下也超越了基线模型。

引言

2D人体姿态估计旨在从图像或视频中定位解剖关键点，已成为从公共安全监控到体育分析和人机交互等视觉理解任务的基石。早期的图形模型[1]明确编码了关节依赖性，但在杂乱环境中难以扩展。深度学习带来了显著进展：基于回归的方法[2]直接预测关节坐标，基于检测的架构[3]、[4]、[5]、[6]通过多尺度融合增强了定位能力，还有一些相关工作如[7]、[8]、[9]。多人姿态估计通过自下而上的分组[10]、[11]、[12]、[13]和自上而下的检测加回归策略[14]、[15]、[16]来解决。最近，Transformer框架因其全局注意力和表示能力而受到关注，模型如HRFormer[18]和ViTPose[19]通过将注意力扩展到大型数据集进一步提高了性能。

尽管取得了这些进展，当前方法在具有严重遮挡和尺度变化的现实世界环境中仍然脆弱。这种脆弱性源于两个根本性限制。首先是自注意力机制在几何变换下的刚性采样策略。视觉Transformer（ViT）将输入划分为均匀的补丁网格，并在此固定划分上计算注意力[20]、[21]、[22]、[23]。我们将这种预设的、空间固定的分割过程称为刚性采样。形式上，给定输入图像

，标记化函数

在输入之间是不变的，与底层场景几何无关。然后自注意力操作产生上下文化特征

，其中权重

是在静态标记

上计算的，而

是值投影矩阵。当身体发生非刚性运动或以不同尺度出现时，一个标记可能同时包含前景关节和背景杂乱，产生纠缠的语义。由于注意力权重无法自适应地重新配置采样域，表示缺乏对几何变形的不变性，并在无关区域浪费计算资源。

第二个限制是在遮挡情况下关键点推断的病态性质。设

表示关节集合。标准方法通常依赖于条件独立性的假设，仅从局部视觉证据对每个关节进行建模和预测。

表示第

个关键点的坐标。当

被遮挡时，相应的似然项

失去其信息价值，退化为均匀分布（最大化信息熵）。这导致解决方案空间中有无限多个“有效”解，将估计问题转化为一个病态逆问题。实际上，这会导致违反人体运动学的预测，例如解剖学上不合理的肢体位置。一个原则性的解决方案需要用结构化建模关节分布来替代独立性假设，其中一个关键点的缺失证据可以从可见关键点的依赖关系中推断出来：

和

表示可见和被遮挡的关键点，

的推断受到物体拓扑和运动学先验的约束。

在这项工作中，我们提出了SPARK-ViT（空间自适应推理关键点ViT），一个旨在克服这两个限制的Transformer框架。在表示层，自适应可变形注意力模块通过可学习的空间偏移增强了自注意力，实现了内容自适应采样，动态地将标记与语义区域对齐[24]，并恢复了对变形和尺度变化的鲁棒性。在推断层，轻量级的25>空间感知关键点关系推断模块通过将空间注意力与运动学先验结合，引入了结构化推理，从而能够从可见证据中逻辑上恢复被遮挡的关节。混合检测头进一步统一了热图和回归预测，利用互补信息产生稳定和精确的输出。具体过程如图1所示。

本研究的主要贡献总结如下：

•
我们系统地分析了基于Transformer的2D姿态估计中的两个根本性限制：几何变换下自注意力的刚性和遮挡下的病态推断，并提出了原则性的解决方案。
•
我们提出了SPARK-ViT，它结合了自适应可变形注意力模块和空间感知关键点关系推断模块，实现对变形、尺度变化和遮挡的鲁棒性。
•
我们证明SPARK-ViT在COCO和OCHuman数据集上取得了最先进的结果，在高度遮挡的场景中取得了显著提升。

章节片段

在尺度变化和几何变形下的姿态估计

早期的CNN架构通过专门的卷积或网络架构[26]增强了几何变形的适应性。可变形卷积网络[27]率先将自适应几何变换引入CNN。随后，STN[28]使用空间Transformer网络学习全局仿射变换。然而，其模拟非刚性人体姿态变化的能力仍然有限，受到局部卷积核感受野的限制。ViT将输入划分为

SPARK ViT架构

为了解决复杂遮挡场景中2D人体姿态估计的病态问题，本文提出了SPARK-ViT——一个端到端的框架，结合了自适应特征增强和结构化推理。如图2所示，该框架基于ViTPose-B[19]作为基线，遵循“特征感知-结构推理-决策融合”的处理流程。它将整个姿态估计过程分为三个紧密协作的阶段：

自适应特征编码阶段。

数据集

为了验证所提出模型的有效性，我们在COCO和OCHuman两个基准数据集上进行了系统的定量和定性评估。COCO数据集[39]是一个大规模、多样化的身体姿态估计基准，包含57,000张官方标注的训练图像和150,000个人体实例，以及5,000张图像和6,352个人体实例的验证集。标准的17关键点注释涵盖了从头部到肢体的完整人体结构。评估是

限制和讨论

尽管SPARK-ViT通过自适应采样和结构化推理解决了几何刚性和遮挡问题，但它仍然存在几个限制。首先，ADABlock的动态偏移预测显著降低了SPARK-ViT的推理速度，与ViTPose-B基线相比。模型的复杂性和参数数量仍然相对较高。未来的工作可以探索可学习的稀疏注意力或知识蒸馏技术，以减少计算开销

结论

本文提出了SPARK-ViT模型，以改进遮挡场景下的人体姿态估计。ADABlock用动态空间位移替换了静态网格采样，从而处理非刚性变形并增强了跨多个尺度的目标感知。SA-KRI模块嵌入在编码器和解码器之间，采用双分支架构，将运动学约束集成到贝叶斯框架中。当与结构化推理策略结合使用时，它显著提高了

CRediT作者贡献声明

河南胡：撰写 – 审稿与编辑、监督、方法论。宣吴：撰写 – 原始草稿、可视化、验证、方法论。荣华李：撰写 – 审稿与编辑、监督、资金获取。诗然朱：调查、形式分析。尚格张：调查、形式分析、数据管理。沐雨李：监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了辽宁省教育厅科学研究项目（项目编号LJ212410150036）、辽宁省交通技术基金会（项目编号202416）、大连市高层次人才创新支持计划（项目编号2022RJ03）以及国家自然科学基金（项目编号U24B20159）的支持。

河南胡于2018年获得长春科技大学机械工程学士学位，2023年获得中国科学院博士学位。她目前在大连交通大学机械工程学院任教。她的研究兴趣包括图像处理、计算机视觉和人工智能。

联系信箱：

粤ICP备09063491号

摘要

引言