《Array》:MAXGait: A Hybrid Mamba-Attentions Solution for Soft Biometrics Analysis using Gait Patterns
编辑推荐:
近期序列建模的进展催生了强大的架构用于发现不同数据类型中的模式;然而,对于如三维(3D)骨架步态信号这类数据,重量级Transformer(Transformer)显得过于冗余。受此不匹配现象驱动,研究人员寻求在时序表达能力与计算效率间取得平衡的模型。本文提出
近期序列建模的进展催生了强大的架构用于发现不同数据类型中的模式;然而,对于如三维(3D)骨架步态信号这类数据,重量级Transformer(Transformer)显得过于冗余。受此不匹配现象驱动,研究人员寻求在时序表达能力与计算效率间取得平衡的模型。本文提出MAXGait——一种用于软生物特征推断的轻量级网络,可从3D关节坐标序列中预测年龄与性别。MAXGait基于Mamba构建,利用其选择性状态空间(Selective State-Space)动力学高效捕获关节轨迹中的长距离依赖关系。区别于原始设计,MAXGait采用紧凑拓扑结构,在严格资源约束下保持精度。为增强表征能力,研究人员开发了多层次聚焦注意力(Multi-Hierarchical Focusing Attention, MHFA),可联合建模骨架中的微动(micro-motions)与全局步态周期。大量实验表明,在扩展3D骨架序列的年龄—性别分类任务上,MAXGait与当前最优(State-Of-The-Art, SOTA)基线具有竞争力。具体而言,在自定义整理的Nano3Dgait数据集上采用受试者重叠协议(subject-overlapping protocol),MAXGait总体准确率(Overall Accuracy)和宏F1(macro-F1)分别达72.77%和72.5%;在OUMVLP-Mesh上分别为83.15%和66.17%;在CASIA-B上分别为88.62%和84%。相比参数量相近的普通Mamba(vanilla Mamba),MAXGait效率提升超20%且参数量更小,同时保持强劲预测性能。然而,组间样本量显著失衡仍对无偏性能构成严峻挑战,在严重代表性不足条件下最低每类F1值降至33%。
论文解读:MAXGait——基于混合Mamba-Attention的3D步态软生物特征分析
研究背景与意义
步态(Gait)作为行为生物特征具有远距离可采集、无需主动配合、难伪造及兼容现有监控设备(CCTV)等优势,可用于推断年龄、性别等软生物特征(Soft Biometrics),在刑侦嫌疑人刻画、医疗健康评估、人群分析及个性化营销中有应用价值。传统基于外观的方法如步态能量图(Gait Energy Image, GEI)易受光照、衣着、携带物及遮挡影响;二维(2D)骨架对视角敏感。三维(3D)骨架序列基于关节运动学编码,能更好抵抗外观变化并降低视角敏感性。深度学习中Transformer擅长捕获全局上下文但计算量大,不适合结构化时序步态信号;Mamba基于选择性状态空间模型(Structured State Space Sequence Model, S4 / S6)具线性复杂度,适合长时序建模,但现有Mamba实现仍较复杂。此外,尚无研究将Mamba用于步态年龄与性别分类。为此,研究人员提出轻量级MAXGait网络及多层次聚焦注意力(Multi-Hierarchical Focusing Attention, MHFA)机制,填补该空白。
本文发表于《Array》。
主要关键技术方法
研究人员自建Nano3Dgait数据集(120名受试者,1370条3D骨架序列,由RGB视频经HybrIK从SMPL模型重建得到24关节3D坐标),并按64:16:20划分训练验证测试集(含受试者重叠协议)。采用公开数据集CASIA-B(转3D关键点,仅性别分类)和OUMVLP-Mesh(SMPL格式3D坐标,年龄+性别)。预处理中提取单/双完整步态周期(左右踝间距曲线经正弦拟合或B样条平滑检测波谷-波谷段),截取中间60帧(不足取起始),每帧24关节的(x,y,z)拼接为60×72张量。MAXGait主体由三个残差Mamba块(Residual Mamba Block,含批归一化BatchNorm、膨胀卷积与选择性扫描状态空间模块Selective Scan SSM、残差连接)后接MHFA-FFN块(MHFA基于多头潜注意力Multi-Head Latent Attention, MLA改进,先做低秩压缩再分组建模局部细粒度特征再聚合做全局注意力,配旋转位置编码Rotary Position Embedding, RoPE及前馈网络Feed-Forward Network, FFN,残差连接),全局平均池化后经全连接层与Softmax输出六类(儿童男/女、成人男/女、老年男/女)或二类(性别)。损失函数为交叉熵(Cross-Entropy Loss),优化器为Adam,加入Dropout防过拟合。通过消融实验、与SOTA骨架基模型(GaitFormer、GaitMixer、PoseGait、Gait-Tr、GaitAGE)及传统机器学习、RNN系列对比验证。
研究结果
3. Nano3Dgait数据集
研究人员采集多视角行走视频经HybrIK重建为SMPL格式24关节3D坐标,统计显示成年组样本最多(70例),儿童27例,老年23例,男女大致均衡。通过踝距周期分析与统计确定输入为60帧(约2个步态周期),构建了可供公开获取的小规模多样化3D步态软生物特征数据集。
4. 提出方案(Proposed Solution)
MAXGait架构含三层残差Mamba块(每层先BatchNorm,线性层扩维4倍后沿通道拆分,一路经1D卷积与Swish激活送入SSM得隐藏态ht=A-tht-1+B-tx't,输出ot=Ctht,再压缩回原维并与输入做残差相加)捕获长时时序依赖;其后接MHFA模块对Mamba输出做低秩联合压缩生成K/V(来自CKV·?KVTX)与Q(来自CQ·?QTX),融入解耦RoPE后先分组局部缩放点积注意力(Scaled Dot-Product Attention)捕获关节局部时空微动,再融合做全局注意力捕获整体步态周期模式,经FFN与残差归一一化。复杂度分析显示Mamba部分O(T·D),MHFA部分O(T2·dhead),整体轻量,参数量仅0.23M,次于GaitMixer(0.13M)但远小于GaitFormer(2.21M)、PoseGait(14.10M)等。
5. 评估(Evaluations)
5.1 数据集与协议
在Nano3Dgait(六类年龄-性别,subject-overlapping)、CASIA-B(二类性别)、OUMVLP-Mesh(六类年龄-性别,subject-disjoint)三数据集评测,采用Accuracy、Precision、Recall、Macro-F1及训练时间。
5.2 不同数据集上MAXGait基准表现
Nano3Dgait上Accuracy 72.77%、Macro-F172.5%;CASIA-B性别二分类Accuracy 88.62%(男93%/女75%,受性别不平衡影响);OUMVLP-Mesh Accuracy 83.15%、Macro-F166.17%(老年人F1仅33%–36%受样本极少影响)。大体量均衡数据集提升总体精度但暴露类别不均衡问题。
5.3 性能比较
相比传统ML(kNN、NB、RF、SVM、GBDT)及RNN系列(LSTM/GRU/RNN,~50% Acc),MAXGait显著更优(72.77% Acc);相比SOTA骨架模型,Gait-Tr最近(71.90% Acc)但训练耗时约32倍(7256s vs 230s),其余SOTA均低于57%。MAXGait以极少参数量和短训练时间匹敌或超越SOTA。
5.4 消融研究(Ablation Studies)
去残差Mamba块Accuracy跌至54.89%,证明Mamba是核心时序提取器;去MHFA-FFN块跌至69.41%,说明需补空间交互信息;去RoPE微降(70.81%),去FFN明显降(51.90%)。组件顺序实验中,三Mamba块后接MHFA(RRRM)效果最佳(72.99%),先注意力后Mamba性能递减。纯Transformer(62.99% Acc,快107s)与纯Mamba(60.80% Acc,367s)均不及MAXGait(72.77% Acc,289s),MAXGait比纯Mamba快约21%且精度大幅提升。
5.5 MHFA注意力可视化
局部注意力热图呈垂直线带(特定帧对所有帧),全局注意力呈斜向网格(高阶帧间依赖)。不同年龄段/性别注意力分布不同:儿童注意力覆盖广且模式独特,成人男性关键事件间隔长于女性,女性注意力强度常更高,印证MHFA能区分年龄性别步态差异。
5.6 错误分析
主要误判源于类别不平衡——OUMVLP-Mesh老人(<5%)易判为成人致低F1;CASIA-B女性少致女准确率偏低(75% vs 男93%)。均衡子集(Nano3Dgait各年龄性别有代表)组间性能差距缩小。
5.7 讨论
研究人员指出:(1) MAXGait可用原始最小处理3D坐标达竞争性能且训练高效;(2) Mamba对原始含噪时序数据建模能力关键;(3) MHFA可视化揭示随年龄成熟及性别差异的步态模式变化;(4) 成人样本过代表征限制其他年龄组学习;(5) Nano3Dgait小规模致subject-independent跨折波动大(±11.37% Acc),后续拟扩大受试者数以支持严格subject-disjoint评估。
结论(翻译浓缩)
本文提出MAXGait——一种专为3D骨架步态序列年龄与性别分类设计的轻量级网络,结合Mamba选择性状态空间高效建模长时依赖与提出的MHFA双尺度(局部-全局)注意力增强空间表征。在自建Nano3Dgait及公开CASIA-B、OUMVLP-Mesh数据集上验证其匹敌或超越SOTA骨架模型的分类性能,且参数量少(0.23M)、训练耗时显著降低(较近等性能Gait-Tr约快30倍)。消融证实Mamba骨干与MHFA模块协同贡献。研究表明直接用原始3D关节坐标可获可靠软生物特征推断,未来将通过类别重平衡、扩大Nano3Dgait受试者规模及提取更具判别性步态特征进一步提升泛化与可解释性。