《Biomedical Signal Processing and Control》:A multimodal deep learning framework for hemiplegic gait recognition using skeleton and wearable sensor data
编辑推荐:
本研究提出一种多模态融合框架用于偏瘫步态识别,结合深度相机获取的骨骼数据、足底压力传感器和惯性测量单元数据,通过注意力机制增强特征表达和门控融合策略整合多源数据,并引入中心损失优化特征学习。实验表明,该方法在48名受试者数据上达到92.58%的准确率,优于单模态及双模态方法,且正面视角骨骼数据表现最佳,模型关注踝部及足部传感器特征。
钟胜兰|梅占勇|李志|江楠|王梅玲|伊万诺夫·卡门
成都理工大学计算机科学与网络安全学院,中国成都610059
摘要 准确识别异常步态模式(如偏瘫步态)对于支持神经系统、肌肉或骨骼疾病的诊断和康复评估至关重要。现有的基于单模态数据的识别方法往往难以捕捉运动功能障碍的复杂特征,从而导致准确性和鲁棒性有限。为了解决这个问题,我们提出了一种多模态融合框架,用于偏瘫步态识别,该框架采用基于注意力的特征增强和门控融合策略,将深度相机的骨骼数据与基于鞋垫的惯性和足底压力数据结合起来。此外,还引入了中心损失函数以促进特征学习。实验结果表明,所提出的方法准确率达到92.58%,F1分数达到93.86%,在准确性上比我们的单模态基线方法高出5个以上百分点,并且在双模态组合的基础上进一步提高了性能。结果还表明,从正面视角获取的骨骼数据在多种视图中最具表现力。进一步的可解释性分析显示,模型关注的是来自脚踝和脚部的传感器数据特征。总之,本研究展示了多模态感知和数据融合在偏瘫步态识别中的有效性,为自动化临床步态评估的传感器配置和建模方法提供了新的视角。源代码可在
https://github.com/pumpkin-zsl/hemiplegia-gait 获取。
引言 偏瘫是中风和创伤性脑损伤等神经系统疾病的常见后遗症,其特征是一侧身体出现运动障碍和肌肉无力[1]。它显著影响患者的日常活动和生活质量,导致医疗资源使用增加,并给家庭和社会带来沉重的经济负担。步态异常是偏瘫患者最明显的临床表现之一[2],其准确和客观的评估在临床诊断和康复计划中起着至关重要的作用。传统的步态评估方法主要依赖于视觉观察或标准化量表,如Berg平衡量表(BBS)[3]。这些方法存在一些局限性,包括主观性、程序复杂性以及对细微步态异常的敏感性较低[4]、[5]。此外,随着人口老龄化和中风幸存者数量的增加,对步态监测的需求也在增长,以支持长期康复管理。然而,传统的劳动密集型评估受到有限临床资源的限制,难以在多样化的医疗环境中实现可扩展和可访问的评估。因此,需要自动化的仪器化步态评估方法,以提供更客观、高效和可扩展的解决方案。
近年来,深度学习技术在步态分析方面显示出巨大潜力,能够从原始数据中自动学习到具有区分性的表示。现有方法大致可以分为基于视觉的方法[6]、[7]、[8]和基于可穿戴传感器的方法[5]、[10]、[11]、[12]。在基于视觉的方法中,骨骼表示因能有效抽象人体结构和运动模式而变得尤为突出。深度相机(如Kinect [13]和RealSense [14])使得无需标记或专门的实验室设置即可实时进行3D关节跟踪,从而使获取此类骨骼数据变得更加容易。它们的低成本和易于部署的特点使其特别适合临床步态评估。然而,环境因素(如光照变化和遮挡)可能会影响骨骼跟踪的准确性[15]、[16],可能导致关键点估计的缺失或错误,从而影响步态分析的可靠性。基于可穿戴传感器的方法主要利用惯性测量单元(IMUs)[17]、[18]和压力传感器[19]、[20]在行走过程中直接测量生物力学信号。IMUs通常放置在下肢或脚部,通过测量加速度和角速度来捕捉动态运动,特别是在摆动阶段。压力传感器通常嵌入在鞋垫中,记录站立阶段的足底负荷分布和时间特性。它们的便携性和低成本使其适合在现实世界环境中进行连续步态监测。然而,可穿戴传感器数据可能会受到运动伪影、传感器放置和校准漂移的影响,从而可能影响测量可靠性。单一的感知模式往往难以全面捕捉步态的复杂特征。因此,多模态传感器融合已成为实现更完整和可靠步态特征描述的重要方法。
目前,大多数步态分析的多模态研究主要集中在可穿戴传感器组合上,如IMUs和压力传感器[11]、[21]、[22],而没有充分利用骨骼数据在捕捉全身协调方面的互补价值。尽管最近有一些研究调查了骨骼数据与其他感知模式的整合[23]、[24]、[25],但这些研究仍然有限,主要关注双模态设置。鉴于偏瘫步态在多个生物力学维度上表现出异常[26],整合骨骼、惯性和足底压力数据有助于进行更全面的评估。具体来说,从深度相机获得的骨骼序列主要反映了全局运动模式,如关节轨迹和躯干姿势。这些宏观变化对于表征偏瘫中常见的步态协调缺陷和补偿运动具有信息价值[27]。相比之下,惯性测量提供了高频的片段级运动信息,而这些信息仅凭骨骼序列无法可靠地获得,因为它们的帧率有限且容易受到遮挡的影响[23]。足底压力数据进一步补充了这些模式,通过捕捉负荷不对称性和压力分布的变化[28],而这些是骨骼和惯性数据无法测量的。尽管这些模态具有明显的互补优势,但骨骼、惯性和足底压力数据在异常步态识别中的系统整合仍大多未被充分探索。此外,相关研究中的多模态融合策略仍然主要依赖于相对简单的技术,如特征串联或加权融合,这些技术无法适应性地建模不同模态之间的复杂关系和不同模态的贡献。因此,如何有效利用异构传感器数据并开发出用于准确识别异常步态模式的鲁棒多模态融合方法仍然是一个常见挑战。这些局限性导致了多模态感知在异常步态识别中的潜力未能得到充分利用。
为了解决上述局限性,本研究提出了一种新颖的多模态深度学习框架,用于偏瘫步态识别。所提出的方法创新地将基于视觉的骨骼序列与惯性和足底压力数据相结合,旨在通过协作建模异构传感器数据来克服单模态方法的限制。本研究的主要贡献如下:
(1) 我们提出了一种多模态步态数据收集方法,结合了深度相机和嵌入了IMUs和压力传感器的传感器鞋垫,实现了低负担、低成本的非侵入式监测,适用于家庭和社区环境。基于这种设置,我们从48名参与者那里收集了步态数据,其中包括19名偏瘫患者和29名健康对照组。
(2) 我们提出了一种多模态融合框架,用于偏瘫步态识别,其中包含注意力机制以增强每种模态内的关键特征学习,以及一个门控融合模块以有效整合骨骼、惯性和足底压力数据。还采用了中心损失函数以促进特征学习。
(3) 实验表明,我们的多模态方法准确率达到92.58%,优于单模态基线,并且在双模态配置的基础上进一步改进。此外,正面视角的骨骼数据在三种相机视图中的表现最佳。这些发现为优化临床步态分析中的传感器配置和建模框架提供了宝贵的指导。
章节片段 基于骨骼数据的方法 基于骨骼的步态分析方法将人体运动表示为关节轨迹序列,并分析其时空动态以表征步态模式。可以通过基于标记的运动捕捉系统[29]、[30]、基于RGB视频的姿态估计算法[31]、[32]和深度相机[33]、[34]来获取骨骼序列。基于标记的运动捕捉系统可以提供高精度的3D关节轨迹,但它们成本高昂,校准程序复杂,
方法 在这项研究中,我们提出了一个基于深度学习的多模态框架,用于偏瘫步态识别,旨在探索整合骨骼序列、惯性测量和足底压力数据以识别异常步态的潜力。整个数据处理流程如图1所示。首先,使用深度相机和定制设计的传感器鞋垫收集步态数据。从每次试验中收集的长序列步态数据被分割成较短的样本,这些
模型训练设置 为了更可靠地估计模型的泛化能力,采用了五折交叉验证策略,并按受试者进行分割,确保同一受试者的所有样本只分配到一个折中。每次迭代中,一个折用于测试,其余四个折用于训练。这个过程重复五次,以确保每个折都曾作为测试集。表2总结了每次迭代中的样本数量和受试者数量。
结论与未来工作 为了解决单模态信息在偏瘫步态识别中的局限性以及现有感知解决方案在成本和部署灵活性方面的限制,我们提出了一种实用的感知方案,将带有IMUs和压力传感器的传感器鞋垫与深度相机相结合。基于收集的传感器数据,我们设计了一个多分支特征提取网络,该网络包含了注意力机制和门控融合策略,并应用了中心
CRediT作者贡献声明 钟胜兰: 撰写 – 审稿与编辑,撰写 – 原稿,方法论,调查。梅占勇: 撰写 – 审稿与编辑,监督,调查,概念化。李志: 资源,调查,数据管理。江楠: 资源,数据管理。王梅玲: 资源,项目管理。伊万诺夫·卡门: 软件,资源。
资金来源 本工作得到了四川省科学技术厅重点项目 (资助编号:2023YFG0271);成都理工大学人工智能研究基金 (资助编号:2025AI017);2024年成都医学院第二轮临床科学研究基金 (资助编号:24LHBBYY1-07)以及保加利亚国家科学基金 (资助编号:KП-06-Н77/13-14.12.2023)的支持。
利益冲突声明 作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢 我们衷心感谢所有参与步态实验的参与者们的宝贵贡献。我们还要感谢林超、易思佳、梅子杰、曾辉、毛玲龙和何彤在数据收集方面提供的帮助。