《Biomedical Signal Processing and Control》:EMamba: A Mamba-based framework for EMG gesture recognition via discriminative heatmap representations
编辑推荐:
为解决肌电图(EMG)信号非平稳、个体差异大、长时程建模计算复杂等难题,研究人员提出了EMamba框架。该研究将拓扑保持的EMG热图表示与混合ResNet-SSM架构相结合,在Ninapro等多个数据集上验证了其识别准确率的提升、推理延迟的降低以及对截肢和健全受试者的强跨受试者泛化能力,为可穿戴人机交互系统提供了高效解决方案。
想象一下,未来你只需动动手指,无需触碰任何设备,就能操控身边的智能家居、玩转虚拟现实,甚至指挥一台精密的机械臂为你服务。这并非遥不可及的科幻场景,其核心之一在于准确解读我们肌肉收缩时产生的生物电信号——表面肌电图(sEMG)。然而,读懂肌肉的“电语言”充满挑战:sEMG信号天生“善变”(非平稳),人与人之间差异巨大(主体间变异性),还容易被噪声干扰。传统的识别方法,无论是依赖手工特征的传统机器学习,还是结合卷积与循环神经网络的深度学习模型,在面对长序列信号建模时,要么计算开销巨大,要么难以有效捕捉长期依赖关系,尤其在追求实时、低功耗的可穿戴应用场景中捉襟见肘。此外,如何将多通道的EMG信号转换成既能保留电极间空间拓扑结构(即电极的物理排布关系),又能突出不同手势判别性特征的表示形式,也是一大难点。
为此,由Kexin Zhang, Yinlong Liu, Manuel Ferre, Francisco J. Badesa组成的团队在《Biomedical Signal Processing and Control》期刊上发表了题为“EMamba: A Mamba-based framework for EMG gesture recognition via discriminative heatmap representations”的研究论文。他们提出了一种名为EMamba的创新框架,巧妙地将一种新型的、能保持拓扑结构的EMG热图表示方法,与基于最新Mamba架构的状态空间模型(SSM)相结合,旨在同时攻克特征表示和高效长序列建模两大难题,为实时、精准的肌电手势识别铺平道路。
为了验证EMamba框架,研究者们主要运用了以下几项关键技术方法:首先,提出了一种新颖的EMG到热图的转换方法,该方法从原始信号中提取均方根(RMS)、平均绝对值(MAV)和标准差(STD)等经典时域特征,并将它们按通道和时序窗口组织成二维矩阵,再进行归一化和图像化处理,生成能保留通道间空间拓扑关系的判别性热图。其次,构建了EMamba模型主干,其核心是集成了残差网络(ResNet)块与状态空间模型(SSM)块的混合模块。其中,SSM部分采用了创新的二维选择性扫描(2D-Selective-Scan, SS2D)机制,能够以线性计算复杂度高效建模图像序列中的长程依赖关系。模型在多个公开sEMG数据集(包括Ninapro DB1, DB3, DB4, DB5和MYO数据集)上进行了训练与评估,这些数据集中既包含健全受试者,也包含截肢受试者,确保了评估的全面性。
研究结果显示,EMamba框架在多个方面表现优异:
4.1.1. 组件分析:消融实验证实,EMamba模型中的核心组件——ResNet-SSM模块对性能提升至关重要。实验在DB1、DB4、DB5数据集上,使用不同的分析窗口长度(100ms至250ms)进行测试。结果表明,包含ResNet-SSM模块的架构在所有设置下均显著优于不含该模块的版本,准确率提升范围在5.3%到14.3%之间。这证明了该模块在建模时空特征方面的有效性。
4.1.2. 参数分析:研究者比较了两种不同深度配置的EMamba模型:[2, 2, 2, 2]和[2, 4, 2, 2]。结果表明,较浅的[2, 2, 2, 2]配置在多数情况下能取得最佳或极具竞争力的性能,表明所提出的拓扑感知热图和状态空间建模已足以捕捉关键判别模式,无需过度堆叠网络深度。同时,250ms的窗口尺寸通常能带来最佳的分类准确率,例如在DB5数据集上达到87.66%。
与现有方法对比:在Ninapro DB1、DB4、DB5等数据集上,EMamba在识别准确率上超越了多种先进的基线模型,包括基于卷积神经网络(CNN)、长短时记忆网络(LSTM)、Transformer以及传统机器学习方法的模型。特别是在更具挑战性的跨受试者留一法(Leave-One-Subject-Out, LOSO)验证设置下,EMamba展现了优异的泛化能力,其准确率显著高于对比模型,证明了其对个体差异的鲁棒性。
计算效率分析:得益于状态空间模型的线性计算复杂度O(N),EMamba在保持高精度的同时,实现了较低的推理延迟。在实验硬件上,其单次推理时间在1.70ms到1.82ms之间,远低于许多基于Transformer的模型,显示出其在实时可穿戴系统中的应用潜力。
跨数据集与跨群体泛化:研究特别在包含截肢受试者的DB3数据集上进行了评估。EMamba在此数据集上也取得了有竞争力的结果,表明其提出的方法对于肌电信号模式可能发生显著变化的截肢者群体同样具有适用性,这对于面向所有人的普适性人机交互接口开发具有重要意义。
综上所述,本研究通过系统性的实验,得出了明确的结论。EMamba框架成功地将一种新颖的、判别性的拓扑感知EMG热图表示,与一个高效的、基于Mamba的混合ResNet-SSM架构相结合。这种方法不仅生成了更能表征手势特性的输入表示,还通过状态空间模型以线性复杂度有效地捕捉了EMG信号中的长程时空依赖性。广泛的实验验证表明,该框架在Ninapro DB1、DB3、DB4、DB5及MYO等多个数据集上,针对健全和截肢受试者,均实现了更高的手势识别准确率、更低的推理延迟以及强大的跨受试者泛化性能。
在讨论部分,作者强调了本工作的三大主要贡献:一是提出了保持通道间空间结构的拓扑感知EMG热图表征方法;二是构建了整合选择性状态空间建模的混合ResNet-SSM框架,实现了高效的线性复杂度长序列建模;三是通过在包含多类受试者的多个数据集上进行广泛实验,全面验证了方法的有效性、高效性和泛化能力。这些结果共同表明,拓扑感知的表征与状态空间建模为可穿戴人机交互系统中的肌电手势识别,提供了一个既有效又高效的解决方案。该研究不仅为肌电模式识别领域提供了新的技术思路,也为开发下一代实时、自然、普适的人机交互界面奠定了坚实的基础。未来,研究者计划进一步探索模型在不同传感器配置、更复杂手势序列以及在线学习场景下的应用,以推动其走向实际部署。