MFID-200:一个多模态足迹数据集以及用于识别的时空提示Transformer模型

《Patient Education and Counseling》:MFID-200: A Multimodal Footprint Dataset and Spatial–Temporal Prompted Transformer for Identification

【字体: 时间:2026年03月26日 来源:Patient Education and Counseling 3.1

编辑推荐:

  构建了MFID-200多模态足迹数据集,包含单压力、连续压力和光学足迹,提供 comprehensive statistical analysis。提出STPT模型,结合空间图建模、混合编码器和提示Transformer,显著提升连续压力足迹识别性能,并公开数据集和基线模型。

  
Xudong Zhou|Yan Zhang|Xuchen Fan|Nian Wang|Wenxia Bao
安徽大学电子与信息工程学院,合肥,230039,中国,

摘要

随着深度学习的快速发展,生物特征识别技术(如面部和指纹识别)取得了显著进展。然而,作为重要的人类生物特征之一,足迹在智能识别应用中仍面临挑战,这主要是由于长期以来缺乏公开可用的标准化数据集。为了填补这一空白,我们构建了一个多模态足迹数据集(MFID-200),其中包含了200名受试者的单压力、序列压力和光学足迹信息,总共有大约157,600个足迹。我们还对MFID-200进行了全面的统计分析,包括数据分布、足迹差异和基本足迹特征。此外,基于MFID-200,我们提出了一种新颖的空间-时间提示Transformer(STPT)用于序列压力足迹识别。STPT通过集成拓扑图建模、混合数值-语言编码器和提示学习框架,共同编码空间特征、足迹显式属性和时间特征。广泛的实验表明,STPT能够全面建模常被忽视的足迹特征,实现先进的识别精度,并建立了一个可复制的基线。MFID-200数据集和基线模型可在https://github.com/MFIDteam/MFID-200公开获取。

引言

近年来,生物特征识别技术取得了显著成功,指纹和面部识别技术的广泛应用深刻改变了我们的日常生活。在各种人类生物特征中,足迹因其难以隐藏和广泛的应用场景(包括公共安全、刑事调查和医疗领域)而受到越来越多研究人员的关注[2]。在公共安全领域,可以在关键地点的入口安装足迹收集设备,实时收集足迹信息。收集到的足迹可以由足迹识别系统快速识别,当检测到数据库之外的足迹样本时,系统会发出警报。在刑事调查中,法医专家可以使用足迹分析模型分析犯罪现场的足迹,并预测个体的关键属性(如身高、年龄和体重),并利用足迹识别模型从数据库中检索最相似的记录。在医疗领域,序列压力足迹的步态特征和压力变化可用于健康监测。通过分析实时足迹数据,可以实现糖尿病足和中风等疾病的早期诊断和及时干预。然而,大多数现有的足迹识别和分析方法依赖于手动提取的特征和主观判断。基于深度学习的模型受到大规模足迹数据集有限可用性的限制,难以获得足够的训练样本。因此,在实际场景中大规模部署基于深度学习的足迹识别和分析系统仍然具有挑战性。
面部、指纹和人员重新识别技术的快速进步在很大程度上得益于高质量公共数据集的发布。例如,PubFig面部数据库[3]的发布为面部识别任务提供了标准化的实验平台,显著加速了识别算法的进步。相比之下,目前尚不存在用于足迹识别的标准化公共数据集,这严重限制了该领域的大规模研究和可复现实验。为了填补这一空白,我们构建了多模态足迹数据集MFID-200,如图1所示。MFID-200包含了200名受试者的三种类型的足迹:单压力足迹(涵盖六种鞋类)、序列压力足迹(在正常和负重行走条件下记录)和光学足迹。该数据集包含超过23,000张图像和大约157,600个足迹,附带完整的数据标签,包括年龄、性别、身高、体重和鞋码。作为标准化足迹数据集的发布,MFID-200可以为足迹识别和其他相关任务的进一步研究提供一个全面的实验平台。
除了构建标准化数据集外,有效的足迹识别算法对于推进足迹识别技术也至关重要。然而,大多数现有方法仅采用通用的计算机视觉模型来提取足迹特征,而没有充分利用足迹中嵌入的判别信息,这限制了识别性能。例如,DouN-GNN[4]采用图神经网络进行少样本足迹识别,仅关注压力信息,而忽略了更具判别性的结构和物理属性。在先前研究[5]的基础上,我们观察到单个足迹的空间特征主要由压力分布、结构信息(如几何形状和区域关系)和物理属性(如脚长和脚宽)定义。相比之下,序列足迹还包含额外的时间特征,包括步态属性(如步长和步宽)以及连续足迹之间的长距离时间依赖性。为了克服这些限制并充分利用这些特征,我们引入了空间-时间提示Transformer(STPT)用于序列压力足迹识别。STPT通过图更新策略从单个足迹中提取空间特征,通过混合数值-语言编码器编码足迹显式属性,并使用提示引导的Transformer框架捕获序列足迹中的时间特征。这些足迹特征的联合建模显著提高了学习特征的质量和识别性能。此外,STPT的引入为展示MFID-200的实用性提供了一个强有力的基线,并为未来的研究建立了可复制的实验框架。
基于上述讨论,标准化足迹数据集的缺乏和现有算法的局限性激发了我们的工作。在本文中,我们构建了MFID-200,这是第一个具有全面标签的大规模多模态足迹数据集。基于MFID-200,我们提出了一个名为STPT的基线足迹识别模型,该模型能够建模足迹的完整空间和时间特征,增强了生成特征的判别能力。广泛的分析和实验验证了足迹识别任务的可靠性、所提出的MFID-200数据集的有效性以及STPT的卓越识别性能。
  • 我们构建了MFID-200,这是一个包含单压力、序列压力和光学足迹的大规模多模态足迹数据集。我们进行了全面的数据分析,包括受试者属性、数据分布、足迹差异和基本足迹特征。
  • 我们提出了一种用于序列压力足迹识别的空间-时间提示Transformer(STPT),它结合了基于拓扑图的空间建模、显式足迹属性的混合数值-语言编码和提示引导的时间特征聚合,以提取高质量的足迹特征。
  • 我们通过广泛的实验证明,STPT在鞋类变化的情况下实现了先进的识别性能。此外,其模块化设计允许通过直接微调特定模块灵活适应单压力或光学足迹识别任务。

部分摘录

行人和生物特征识别数据集

近年来,基于深度学习的识别任务取得了显著进展,这在很大程度上得益于大规模和标准化数据集的构建。行人重新识别(re-ID[6])旨在通过多个摄像头识别目标个体。在re-ID发展的早期阶段,VIPeR[7]数据集(包含1,264张在不同视角和光照条件下捕获的行人图像)为re-ID研究奠定了坚实的基础。

足迹收集过程

我们提供了一个完整的框架和实验程序来确保足迹数据收集的严谨性,如图2所示。三种足迹模式的收集设备如下:单压力足迹收集设备(图2(a))、序列压力足迹收集设备(图2(b))和光学足迹收集设备(图2(c))。整个收集工作流程包括六个连续步骤:(1)信息输入;(2)

提出方法概述

对MFID-200数据集中的三种足迹模式的分析表明,序列压力足迹不仅捕获了每个个体足迹的空间信息,还嵌入了行走过程中生成的时间信息,因此包含了最具信息量的足迹线索。为了充分利用序列压力足迹中嵌入的空间和时间信息,我们提出了一种新颖的空间-时间提示Transformer(STPT)用于序列压力足迹识别。

数据集

为了将MFID-200数据集适配到足迹识别任务中,我们根据以下规则将多模态足迹样本划分为图库集、训练集和查询集。
图库集。(1)序列压力足迹图库集:为每个受试者随机选择两个处于“赤脚”-“正常行走”状态的序列压力足迹作为图库。(2)单压力足迹图库集:随机选择两个处于“赤脚”状态的单压力足迹

局限性和未来工作

局限性。尽管我们提出了大规模多模态足迹数据集(MFID-200),但仍有一些问题需要进一步研究。首先,数据集在受试者性别和年龄方面存在分布偏差,这可能会影响深度学习模型的训练。其次,由于序列压力收集设备的硬件限制,收集到的样本在行走姿势和轨迹上缺乏多样性,这可能会阻碍泛化能力

结论

在这项工作中,我们介绍了MFID-200,这是第一个公开可用的大规模多模态足迹数据集,其中包含了200名受试者的序列压力、单压力和光学足迹数据。我们提供了数据集的全面统计分析和描述,包括数据分布、足迹差异和基本足迹特征,从而将MFID-200确立为足迹研究的标准化基准。基于这个数据集,我们提出了

CRediT作者贡献声明

Xudong Zhou:撰写——原始草案、可视化、软件、方法论。Yan Zhang:撰写——审阅与编辑、软件、形式分析、概念化。Xuchen Fan:可视化、监督、概念化。Nian Wang:撰写——审阅与编辑、资金获取、数据管理。Wenxia Bao:撰写——审阅与编辑、验证、调查、概念化。

利益冲突声明

我们声明与提交的工作没有任何商业或关联利益冲突。

致谢

本工作得到了中国国家重点研发计划(2018YFC0807302)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号