基于半监督学习和混合数据集的儿童步态异常识别模型的开发与性能分析

《Chemosensors》:Development and Performance Analysis of a Semi-Supervised Gait Recognition Model for Pediatric Abnormalities Using a Hybrid Dataset Xiaoneng Song, Kun Qian and Sida Tang

【字体: 时间:2026年03月07日 来源:Chemosensors 3.7

编辑推荐:

  本文提出了一种新型视频半监督异常步态识别模型(AGRM),其核心是在3D ResNet架构基础上集成Mean Teacher模块(MTM)和空间分层池化模块(SHPM),并利用自采集的儿童步态视频与公开数据集CASIA-B构建的混合数据进行训练与验证。模型在二分类(正常/异常)和三分类(正常/膝内翻、膝外翻)任务中表现出良好的性能,其中三分类任务准确率达70.5%,宏F1分数为0.718。消融实验证实了SHPM与MTM的有效性,Grad-CAM可视化显示模型能有效关注下肢关节区域。该工作为解决临床标记数据稀缺下的儿科步态评估提供了一种有前景的低成本、视频基智能化筛查工具。

  
引言
儿科步态异常与肌肉骨骼功能障碍及更高的损伤风险密切相关,凸显了开发早期、可及性筛查工具的紧迫性。传统的步态识别技术在处理大规模高维数据、保持完整时空关联性方面存在局限,容易导致特征退化和分类精度不佳。常见的深度学习架构在监督场景下表现良好,但在处理无标签数据时面临诸多挑战,包括从无标签数据中学习的限制、样本多样性不足、领域偏移、类别不平衡以及缺乏任务特定指导等。针对这些问题,近期研究采用了如Mean Teacher等半监督学习框架来利用无标签数据提升模型鲁棒性。本研究提出的AGRM(异常步态识别模块)旨在作为一个低成本的视频基筛查支持工具,用于在社区或学校环境中早期识别潜在的腿部排列相关步态异常,辅助分诊,但其目的并非提供临床诊断。
方法
2.1 异常步态识别模型
模型基于3D ResNet架构,并集成了MTM训练策略。在3D ResNet结构中,将最大池化更新为SHPM(空间分层池化模块)。整个模型处理数据,生成视频张量、标签及添加噪声的修改后视频张量。视频张量输入学生模型,带噪声视频张量输入教师模型。通过标签一致性训练计算一致性损失以更新模型权重。特征分类由SHPM完成。若基于同一输入、由教师和学生模型预测计算出的置信度高于特定值,则视为高效伪标签,并将该数据输入与已标记数据集一起作为教师模型的新监督数据集。当所有无标签数据都获得标签后,过程结束。AGRM的详细架构展示在图1(伪标签添加和训练监督流程图)中。
2.2 单人行走视频数据集
SPWVD数据集收集自860名幼儿园儿童。参与者人口统计学特征被记录,但未用作模型输入特征。构建了一个用于腿部排列建模的类别平衡注释子集。视频在光照充足、背景干扰小的室内走廊录制,摄像机置于行走路径终点,直接面向受试者。本研究考虑二分类和三分类任务。对于二分类任务,阳性类别(异常步态)的定义遵循《实用诊断学》中的描述。对于腿部排列相关的步态类别,标签基于《实用诊断学》中描述的客观解剖学排列标准定义:膝内翻定义为自然站立时内踝可并拢而内侧股骨髁间距离>0;膝外翻定义为内侧股骨髁可并拢而内踝间距离>0。三类定义为正常/膝内翻/膝外翻;二分类任务中,“异常”包括膝内翻和膝外翻。分类和编码由资深专业人士协作完成。三类设置的代表性示例见图2。
2.3 CASIA-B 视频数据集
CASIA-B数据集被用作无标签数据以支持半监督学习。考虑到CASIA-B包含在不同条件下捕获的成人步态序列,我们对无标签子集进行配置以减少视角引起的领域偏移。具体而言,我们仅采样与SPWVD视角几何一致的0°和180°视角(即正面/背面视图),这有助于确保无标签数据主要贡献通用的步态运动正则化,而非引入额外的视角混杂。如图3所示,我们随机选择来自124个个体的364个0°和180°视角的行走视频片段构成无标签集。为防止数据泄露,SPWVD按受试者级别以64/16/20的比例划分为训练/验证/测试集。
2.4 Mean Teacher 模块
MTM是一种旨在增强神经网络模型泛化能力的半监督学习方法,特别适用于标记数据稀缺的场景。该框架包含两个神经网络模型:教师模型和学生模型。教师模型的参数不通过反向传播直接学习,而是使用学生模型参数的指数移动平均(EMA)进行更新。学生模型以常规方式训练,直接从标记数据中学习。在每次迭代中,将学生模型的预测与教师模型对无标签数据的伪标签进行比较。这种一致性正则化确保模型学习到稳定、耐噪声的表征,从而在数据稀缺情况下提升泛化能力。特征聚合通过将池化块集成到更高级别的表征中来实现,以捕获每个块的基本特征并保留关键的时空信息。该模块在多个层级上采用分层操作。半监督学习分为两个阶段:第一阶段使用标记数据进行监督学习,获得初始模型,然后利用该模型预测无标签数据的伪标签;第二阶段将标记数据与带伪标签的无标签数据混合形成扩展训练集,用于训练模型。模型的目标函数如公式(1)-(3)所示。
结果与贡献
本研究的主要贡献在于:
(1)提出的AGRM框架:构建了一个集成了Mean Teacher半监督学习策略和SHPM的视频基步态识别模型,其以3D ResNet为主干,旨在充分利用标记和无标签步态数据。
(2)SHPM的作用:SHPM通过分层聚合时空特征,显著增强了模型对步态动态中细粒度多尺度特征的捕获能力,从而提升了异常步态分类的准确性。
(3)混合数据集的构建与评估:通过结合自收集的儿科步态视频数据集(SPWVD)与公共CASIA-B数据集,在二分类和三分类任务上评估了模型性能,验证了其准确性和跨领域泛化能力。在三分类任务中,AGRM达到了70.5%的准确率、72.1%的宏精确率、71.5%的宏召回率以及0.718的宏F1分数;在二分类任务中,精确率和召回率分别为80.3%和79.2%。
(4)模型可解释性验证:通过Grad-CAM可视化技术,确认了模型对下肢区域(尤其是膝关节)的针对性关注,这与步态异常的病理解剖位置相一致,增强了模型决策的可信度。
综上所述,这项研究开发的AGRM在识别儿科步态异常方面展示了稳健的性能和泛化能力,并有效捕获了关键的病理步态特征,为在临床和社区环境中进行早期步态筛查提供了一种有前景的智能化工具。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号