基于交互意识的表示学习方法在自由式滑雪大跳台动作质量评估中的应用
《Computer Vision and Image Understanding》:Interaction-aware representation learning for action quality assessment in freestyle skiing big air
【字体:
大
中
小
】
时间:2026年01月23日
来源:Computer Vision and Image Understanding 3.5
编辑推荐:
构建首个自由式滑雪大跳台交互感知数据集SkiAir,包含帧级运动员-雪板边界框及性能元数据。提出时空推理框架,通过实例级外观特征与几何位置编码捕捉协调性,并设计基于熵的采样策略聚焦起跳、空中旋转和着陆等关键动作,实验显示其Spearman相关系数达0.7173,优于现有方法。
陈诗月|刘彦超|王子月|程欣娜|池永直
早稻田大学信息、生产与系统研究生院,日本北九州市,808-0135
摘要
自由式滑雪大跳动作需要运动员与滑雪板之间的精确协调,以确定技术难度和执行质量。因此,要准确评估这一项目的动作质量,就必须对人与物体之间的互动进行明确建模。然而,大多数现有方法依赖于视频级别的或以人为中心的表示方式,忽略了运动员与滑雪板之间的结构化关系,从而限制了对控制和稳定性的评估。为了解决这个问题,我们构建了一个包含细粒度注释的自由式滑雪大跳数据集,其中包括帧级别的运动员与滑雪板边界框以及与表现相关的元数据。基于这个数据集,我们提出了一个交互感知框架,通过结合实例级别的外观特征和位置特征以及时空推理来捕捉运动员与滑雪板之间的协调性。此外,为了避免常用的均匀采样方法稀释长序列中的关键表现时刻,我们引入了一种无需训练的基于熵的采样策略,该策略利用运动员与滑雪板的几何动态来识别关键表现时刻,如起跳、旋转和落地,从而减少冗余。这些设计共同解决了在大跳评估中“应该关注什么”和“何时关注”的问题。广泛的实验表明,我们的方法在所提出的数据集上实现了0.7173的Spearman等级相关性,优于现有的最先进方法。
引言
作为2022年冬季奥运会自由式滑雪项目的新添加项目,大跳动作结合了高速运动和美学表现力,强调通过独特的运动员与滑雪板协调完成复杂的空中动作。在这种比赛中,运动员必须在保持滑雪板稳定的同时执行多轴空中旋转,并最终实现稳定落地,而不发生摔倒或意外接触地面。这些要求产生了大量的时空动态,使得客观性能评估变得特别具有挑战性。目前的评估依赖于人类裁判,他们提供的分数仅基于印象,综合了多个表现方面(国际滑雪和单板联合会(FIS),2022)。这项运动的高风险性质进一步限制了训练机会(Fl?renes等人,2010),突显了需要数据驱动的评估方法来提供客观、可解释的评分和可操作的反馈。
最近在滑雪者检测和跟踪(Dunnhofer等人,2024;Dunnhofer和Micheloni,2024)、姿态估计(Bachmann等人,2019;Wang等人,2019;Ludwig等人,2023)以及轨迹可视化(Dunnhofer等人,2023)方面的进展提高了对滑雪视频的基本理解,而表现评估的挑战仍然存在。动作质量评估(AQA)(Wang等人,2021b;Zhou等人,2024;Liu等人,2025a)已成为客观体育评估的一个有前景的方向,应用于跳水、体操和花样滑冰(Zeng等人,2020;Xu等人,2022;Liu等人,2023;Gedamu等人,2024;Okamoto和Parmar,2024;Xu等人,2024;Zhou等人,2024;Zahan等人,2024;Liu等人,2025b;Xu等人,2025a;Wang等人,2025)。类似的基于摄像头的系统已经应用于2023年艺术体操世界锦标赛(富士通),这突显了在2026年冬季奥运会之前对自由式滑雪进行可靠评估的日益增长的需求。
然而,由于缺乏带有细粒度注释的数据集来支持专门的方法,自由式滑雪仍然研究不足。为了填补这一空白,我们构建了SkiAir,这是第一个包含运动员与滑雪板互动感知注释的自由式滑雪大跳数据集。更多细节和数据集统计信息在第3节中介绍。
除了数据集构建之外,大多数现有的AQA方法依赖于视频级别或以人为中心的表示方式,在建模独特的运动员与滑雪板协调性方面存在局限性。如图1所示,我们的工作将这些范式与交互感知表示方式进行了对比。其他运动中的一些交互感知方法探索了人体关节级别的关系或不对称互动(Pan等人,2019;Gao等人,2020),但这些方法要么以人为中心,要么专注于动作同步和流畅性,这适用于同步跳水或外科手术协作。相比之下,在自由式滑雪大跳中,运动员与滑雪板的关系不能简化为简单的同步:滑雪板的运动幅度通常大于身体,这实际上反映了运动员更强的控制能力。
这种运动员与滑雪板的协调表现为运动员和滑雪板之间独特的时空运动模式,这些模式决定了技术难度和执行质量。对于技术难度,熟练的运动员在空中旋转时表现出周期性的身体与滑雪板位移,其中滑雪板围绕身体的更多轨道周期和更大的位移幅度反映了额外旋转的增加挑战。如图2(a)所示,不同的技巧建立了不同的评分阈值,更具挑战性的动作能够获得更高的分数,并体现在独特的身体与滑雪板相对几何形状中。对于执行质量,关键在于区分受控与不受控的身体与滑雪板偏差。如图2(b)所示,稳定的落地保持滑雪板位于运动员下方,而不稳定的落地则会导致滑雪板出现剧烈偏差,例如滑雪板上升至身体上方或横向滑动。同样,成功的抓取动作保持滑雪板与身体的持续接近,并具有一致的重叠模式,而失败的抓取动作则显示出不规则的动态,其中滑雪板在短暂接触后偏离。受这些观察的启发,我们提出了一种交互感知建模方法,将运动员和滑雪板视为解耦但相互依赖的实体。实例级别的外观特征捕捉它们的个体状态,而几何派生的位置嵌入编码了它们的相对接近度和方向。
除了明确建模人与物体之间的互动外,自由式滑雪大跳还带来了时间建模的挑战。虽然Xu等人(2022)将表现分解为子阶段,但大多数方法以及本工作仍然依赖于均匀帧采样,这忽略了这一运动的时间异质性,并倾向于稀释关键表现时刻:如图2(c)所示,跑步阶段除了接近方向外贡献甚微,因为滑雪板在身体下方保持稳定。起跳涉及跳跃开始时的快速运动变化,而飞行阶段最为关键,伴随着持续的身体与滑雪板变化。落地取决于着陆稳定性,而着陆后的滑行则是多余的。因此,均匀采样过度采样了信息量低的帧,而低估了关键表现时刻。为了解决这个问题,我们提出了一种无需训练的基于熵的帧采样策略,该策略适应几何动态:我们通过边界框序列计算熵作为帧级别信息量的代理,熵峰值标志着突然的结构变化,如起跳、抓取调整或着陆冲击。均匀采样与我们的方法的比较如图3所示。
为了解决这些挑战,我们引入了一个针对自由式滑雪特定需求的AQA框架。总结如下:
- •
我们构建了SkiAir,这是第一个包含运动员与滑雪板互动感知注释的自由式滑雪数据集。
- •
我们提出了一种交互感知表示方法,通过实例级别的外观特征和位置嵌入来捕捉运动员与滑雪板之间的协调性。
- •
我们设计了一种基于熵的帧采样策略,用于识别关键表现时刻,同时减少时间冗余。
- •
我们在SkiAir上验证了所提出的框架,证明了其在自由式滑雪客观评估中的有效性。
章节片段
滑雪中的计算机视觉应用
近年来,由于滑雪运动被纳入重大国际比赛以及其视觉复杂性,计算机视觉在滑雪领域的应用日益受到关注。AI Coach(Wang等人,2019)提出了一种基于姿态的自由式滑雪空中动作训练辅助工具,结合了时空姿态估计和基于示例的反馈来检测和纠正错误。Bachmann等人(2019)引入了一个包含2D姿态注释的多摄像头高山滑雪数据集,并通过
SkiAir数据集
虽然骨骼或像素级掩码似乎更直接地捕捉运动员与滑雪板之间的协调性,但在本场景中它们并不实用。除了第2.1节中提到的滑雪板检测问题外,运动员和滑雪板通常只占据帧的一小部分,而快速的空中运动、雪溅和遮挡经常降低姿态估计和分割的准确性。手动注释长序列中的骨骼或掩码也会非常昂贵。作为一个可扩展且可靠的
问题表述
本节中使用的主要符号的含义在表2中进行了总结。给定一对输入视频和一个示例以及一个示例,每个示例由帧和个交互实例组成。在自由式滑雪大跳中,表示运动员和滑雪板,它们的时间轨迹通过跨帧的实例级别边界框表示。我们将每个视频表示为
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号