步态识别因其独特性而在远距离人类识别方面具有巨大潜力。步态识别在安全保护、犯罪追踪和法医学领域有许多应用。步态识别已经研究了20多年,并且越来越受到关注。然而,现实世界的步态识别面临许多挑战,尤其是在涉及不同视角下的步态序列匹配的跨视图场景中。
在步态识别领域已经做出了大量努力来解决跨视图匹配问题。目前,数据驱动方法[1]、[2]、[3]、[4]在该领域占主导地位,在实验室和实际数据集[5]、[6]、[7]、[8]、[9]、[10]中取得了显著成果。这些方法大多使用2D轮廓来表示人类步态,在大规模跨视图数据集上训练后表现良好。然而,视角和服装的变化会显著改变同一个人轮廓的外观,导致类内方差往往超过类间方差,如图1(a)所示。为了解决这个问题,最近的研究探索了伪3D(例如SMPL [7]、[11]或[12])和2.5D(例如深度图和点云[9])表示方法。然而,伪3D方法由于身体估计精度低而遇到困难,而基于2.5D的方法缺乏完整的身体表示。
上述步态识别方法遵循图1(a)所示的类似2D到2D的匹配范式,其中将2D探针与2D样本集中的每个序列进行匹配以检索相应的身份。总体而言,我们认为2D到2D匹配范式存在三个固有挑战:1)2D到2D的数据驱动方法高度依赖于跨视图训练数据。收集标记化的步态识别数据成本很高;2)2D到2D匹配范式依赖于最近邻搜索进行身份匹配,使得检索时间取决于样本集的大小;这可能导致计算延迟,限制了实时应用;3)2D到2D匹配范式不可避免地进行大量的跨视图匹配,导致错误率较高。
本文探讨了以2D到3D作为匹配范式的步态识别,如图1(b)所示。对于面部识别,3D研究还处于早期阶段[13],而2D(2.5D)到3D的匹配已经得到了实际应用(例如高端智能手机中的3D面部识别)。对于步态识别,2D到3D的匹配研究才刚刚开始;一个关键障碍是获得一个完整的高精度3D人体模型具有挑战性。因此,为了生成一个完整的高精度3D人体模型,我们使用了一种设计良好的点云注册方法来融合来自三个深度相机的身体点云。鉴于深度相机的毫米级空间和距离分辨率以及注册的几何约束,3D身体也达到了毫米级的精度。这个高精度的3D身体(通常超过160,000个点)能够捕捉到详细的人体特征,从而可以从任何视角投影出真实的轮廓。一个完整的高精度3D人体模型可以在图2中看到。
接下来,我们提出了一种以2D到3D作为匹配范式的新型跨视图步态识别框架,名为GaitNet-G3D,它实现了更有效的跨视图匹配和更高效的步态识别。与2D到2D匹配范式不同,我们提出的2D到3D匹配范式在推理阶段用3D样本集替换了2D样本集。如图2所示,3D身体可以从任何角度查看,将跨视图步态识别简化为单一视图识别任务。GaitNet-G3D具有更强大的单一视图特征提取网络,并像现有工作一样在2D轮廓上进行训练,以学习不受协变量影响的步态特征。为了加速推理,GaitNet-G3D包含了一个新颖的视图识别分支,该分支可以预测视角,允许3D样本集从选定的视角进行投影,而不是从所有视角随机投影,从而减少了推理和检索时间。由于3D样本集只包含少数几个完整3D身体的序列,因此匹配速度比传统的2D到2D匹配过程更高效。
然而,目前没有现有的数据集提供具有精确和完整3D身体的3D样本集用于步态分析。为了解决这个问题,我们引入了CCGR-3D,这是第一个具有高质量、完整3D样本集的步态数据集。不同之处在于,CCGR-3D不仅包括标准的协变量设置(即视角、服装和携带条件变化),还引入了一种称为全身服装变化(FBCL)的独特设置。FBCL捕获了同一受试者从头到脚穿着不同服装的序列,包括帽子、上衣、裤子和鞋子——这是先前数据集中未考虑的细节,这些数据集通常只考虑服装变化,而不考虑鞋子和头饰。
通过广泛的实验,我们得出以下发现:1)使用3D样本集可以显著提高跨视图步态识别效果,将跨视图匹配简化为单一视图步态识别;2)GaitNet-G3D在训练数据中需要的跨视图数据对较少,减少了对跨视图训练数据的依赖;3)使用3D样本集时的检索时间比使用大型2D样本集时更高效;4)我们提出的GaitNet-G3D在CCGR-3D数据集上取得了SOTA(state-of-the-art)结果,并且在全身服装变化的情况下表现出稳健的性能;5)FBCL对现有的步态表示方法带来了重大挑战;基于解析和RGB的方法受到了显著影响。
•我们通过点云融合获得了高精度的3D样本集,收集了第一个包含3D样本集的步态数据集CCGR-3D,并提出了一种简单而高效的基线模型GaitNet-G3D。
•我们提出了第一个2D到3D匹配范式,通过利用3D先验来减轻跨视图挑战,从而实现单一视图匹配。
•我们的3D样本集减少了使用大型样本集进行匹配时的高延迟,并最小化了了对大量跨视图训练数据的依赖。
•我们首次揭示了全身服装变化(FBCL)对不同方法的影响和挑战。CCGR-3D中的FBCL设置为进一步探索稳健的步态识别提供了基础。
传统的2D到2D匹配场景。2D到2D匹配范式主要关注检索,即在获得一个人的2D步态序列后,通过监控视频流来检索该人。这种2D到2D匹配范式简单易实现,不需要预注册,但面临跨视图挑战。
新型的2D到3D匹配场景。我们提出了一种2D到3D步态匹配范式,具有多种潜在应用:1)智慧城市监控。当所有公民在3D步态数据库中注册后,将实现下一代智能监控,提供在公共空间中的强大、准确的识别能力;2)安全环境。银行、建筑区和机场等关键场所可以在3D样本集中注册授权人员,如果未注册的人员进入限制区域,则会发出警报;3)帮助弱势群体。可以在3D样本集中注册年幼的孩子和患有阿尔茨海默病的老年人,以便在他们走失或需要帮助时提供警报。
两种场景共存。与面部识别一样,2D到2D和2D到3D适用于不同的需求。在步态识别中,这两种场景具有独特且互补的应用。