视频引导的半监督学习与空间分层池化异常步态识别模块：助力儿童腿部对线异常的社区筛查

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Chemosensors》：A Mathematical Model of Cysteine-Driven Metabolic Adaptation to Hypoxia in Ovarian Cancer José A. Rodrigues, Sofia C. Nunes, Cristiano Ramos, Luis G. Gon?alves and Jacinta Serpa

【字体：大中小】 时间：2026年03月07日 来源：Chemosensors 3.7

编辑推荐：

　　本文针对儿科步态异常的早期筛查需求，提出了一种基于视频的、集成了Mean Teacher模块（MTM）与空间分层池化模块（SHPM）的半监督异常步态识别模块（AGRM）。该模型利用3D ResNet骨干网络，有效结合了自建的儿童步态视频数据集和CASIA-B公共数据集，以半监督学习方式解决了标注数据稀缺的挑战。通过在二分类（正常/异常）和三分类（正常/膝内翻/膝外翻）任务上的验证，AGRM展现了良好的识别性能，其梯度加权类激活映射（Grad-CAM）可视化进一步验证了模型对下肢关键区域（特别是膝关节）的关注，增强了结果的可解释性。研究为临床及社区环境下低成本、可推广的儿科步态评估提供了有前景的智能工具。

引言

儿童步态异常与肌肉骨骼功能障碍和损伤风险增加密切相关，凸显了开发早期、便捷筛查工具的紧迫性。传统步态识别技术在处理大规模高维数据、保留完整时空相关性方面存在局限，易导致特征退化与分类精度不足。常见的深度学习架构在无标签数据场景下面临学习受限、样本多样性不足、领域偏移等挑战。为应对这些挑战，半监督学习框架（如Mean Teacher方法）与多尺度特征提取策略被证明能有效利用未标注数据并提升模型鲁棒性。

方法

本文提出的异常步态识别模型（AGRM）基于3D ResNet架构构建，并整合了全连接层与MTM训练策略。在3D ResNet内部，我们以空间分层池化模块（SHPM）替代了最大池化层。该集成模型用于处理和生成视频张量、标签及添加噪声的修改后视频张量。学生模型接收原始视频张量，教师模型接收含噪声的视频张量。通过标签一致性训练计算一致性损失，并据此更新模型权重。特征分类由SHPM完成，实现了模型的学习过程。在训练阶段，当基于同一输入计算出的、来自师生模型的预测置信度高于特定阈值时，该数据及其伪标签将与已标注数据集一同构成教师模型的新监督数据集。此过程循环直至所有未标注数据被标记。模型架构详细展示了伪标签添加和训练监督流程。

数据集

研究使用了两个主要数据集。第一个是单人行走进视频数据集（SPWVD），采集自860名学龄前儿童。视频在光照充足、背景干扰少的室内走廊录制，摄像机正对受试者，记录完整的20米往返行走。研究定义了二分类（异常/正常）和三分类（正常/膝内翻/膝外翻）任务。标签由骨科医生和运动科学博士等高级专业人员根据客观解剖对线标准协同确定，具体示例如图所示。第二个是CASIA-B数据集，作为未标注数据用于支持半监督学习。为减少视角引起的域偏移，仅采样与SPWVD视角几何一致的0°和180°视角序列，如图所示。SPWVD按受试者以64/16/20的比例划分为训练/验证/测试集，确保无受试者重叠。

Mean Teacher模块（MTM）

MTM是一种旨在提升神经网络模型泛化能力的半监督学习方法，尤其适用于标注数据稀缺的场景。该框架包含一个学生模型和一个教师模型。教师模型的参数不通过反向传播直接学习，而是通过学生模型参数的指数移动平均（EMA）进行更新，从而作为学生训练过程中的稳定参考，平滑学习过程并减少过拟合。学生模型则以常规方式从标注数据中学习。在每次迭代中，比较学生模型的预测与教师模型对未标注数据生成的伪标签，通过一致性正则化确保模型学习到稳定、耐噪声的特征表示，从而提升泛化能力。

空间分层池化模块（SHPM）

特征聚合通过将池化块整合到更高级别的表示中来实现，这些表示捕获了每个块的基本特征并有助于保留关键的时空信息。该模块在多个层级上采用分层操作，每个层级使用不同的聚类大小或步幅。聚合后的特征随后传递至全连接层以进行进一步的分类和计算。

半监督学习流程

训练分为两个阶段。第一阶段（预训练）使用标注数据进行监督学习，得到一个初始模型，随后该模型采用半监督学习为未标注数据预测伪标签。第二阶段，将带有伪标签的未标注数据与原始标注数据混合，形成一个扩展的训练数据集。利用该更新后的数据集训练模型，期间教师模型的参数和权重通过EMA更新，以更好地适应标注和伪标注数据。该建模过程的目标函数如公式所示，具体包括总损失最小化、学生模型的监督损失（如交叉熵损失）以及教师与学生模型输出之间的一致性损失。

结果与讨论

在三分类任务中，AGRM达到了70.5%的准确率、72.1%的宏精确率、71.5%的宏召回率以及0.718的宏F1分数；在二分类任务中，其精确率和召回率分别为80.3%和79.2%。消融实验表明，SHPM显著增强了时空特征的聚合，捕捉了细粒度的步态动态特征，而MTM在标注数据受限的情况下改善了模型的泛化能力。Grad-CAM可视化证实了模型对下肢区域（特别是膝关节）的针对性关注，这与步态异常的病理部位相符。

结论

本研究开发的AGRM在识别儿科步态异常方面表现出稳健的性能和良好的泛化能力，同时能有效捕捉关键的病理步态特征。这种基于视频的智能方法为临床和社区场景下的早期步态筛查提供了一个有前景的工具，有助于解决儿科肌肉骨骼评估可及性不足的障碍。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号