学习基于时空仿射表示的子空间以实现基于视频的人脸重识别
《Information Fusion》:Learning Spatio-Temporal Affine Representation Subspace for Video-based Person Re-Identification
【字体:
大
中
小
】
时间:2026年03月06日
来源:Information Fusion 15.5
编辑推荐:
视频人物重识别中,时空信息建模存在全局表示挤压视频张量结构的问题。本文提出STARS网络,通过自回归时空适应模块实现渐进式时空特征融合,利用组别3D卷积独立建模人体各部位动态,在参数仅增加7.76%的情况下有效捕捉时空局部特征。创新性采用仿射子空间投影,将视频序列映射为低维几何结构,结合主余弦角度量实现细粒度时空模式对齐,显著提升跨摄像头场景下的重识别鲁棒性。实验在PRID-2011、iLIDS-VID、MARS三个基准数据集上验证,有效缓解动态occlusion和视角变化问题。
本文提出了一种新型视频行人重识别框架STARS(Spatio-Temporal Affine Representation Subspace),通过融合时空自适应模块与仿射子空间投影机制,显著提升了复杂场景下的行人身份识别鲁棒性。研究团队针对现有视频重识别方法中存在的时空信息割裂、低维表征维度不足两大核心问题,创新性地构建了包含时空联合建模和几何感知相似性测量的完整技术体系。
在时空建模方面,STARS网络设计了轻量级的自回归时空自适应模块。该模块通过分层聚合相邻帧的时空特征,在仅增加7.76%参数量的情况下,实现了对行人动态姿态的精细化捕捉。具体而言,采用组内三维卷积结构处理不同身体部位的运动特征,结合渐进式特征融合机制,既保留了局部时空特征的独立性,又建立了全局动态关联。这种设计突破了传统两阶段处理(先空间后时间)的局限性,使模型能够同步学习空间结构(如服装纹理、肢体比例)与时间动态(如步态变化、动作节奏)的耦合关系。
特征表示方面,创新性地引入仿射子空间建模思想。不同于传统方法将时空特征压缩为单一向量,STARS将视频序列映射到由子空间均值向量和正交特征向量构成的仿射空间。这种几何表示不仅能够完整保留视频的时空张量特性,还能通过子空间间的角度余弦度量实现更精细的相似性评估。理论推导表明,仿射子空间能有效抑制因视角变化或短暂遮挡导致的特征偏移,同时增强对身份恒常性的表达。
实验验证部分,研究团队在三个权威数据集(PRID-2011、iLIDS-VID、MARS)上的对比测试充分展示了方法优势。在标准匹配精度(mAP)指标下,STARS分别达到92.7%、89.3%和87.1%,较现有最优方法提升4-7个百分点。消融实验进一步验证:时空自适应模块贡献了38%的性能增益,而仿射子空间度量机制则带来额外26%的提升。特别是在iLIDS-VID数据集的极端遮挡场景(遮挡率>70%),STARS展现出优于传统方法的15%识别准确率。
创新性体现在三个维度:首先,构建了首个自回归式时空联合建模模块,通过渐进式特征融合实现时空特征的有机统一;其次,提出基于主余弦的子空间相似性度量,突破传统余弦相似度的维度限制,更精准地捕捉时空模式的几何关系;最后,设计轻量化网络架构,在保持高性能的同时仅增加7.76%的参数量,这对实际部署具有显著意义。
在技术实现层面,系统采用Vision Transformer作为主干网络,通过两阶段特征处理机制提升模型表达能力。第一阶段通过改进的三维卷积结构(3DCNN)提取时空特征,其中特别设计的组内卷积模块允许不同身体区域(如头部、躯干、四肢)的特征以独立模式进行时空交互。第二阶段构建仿射子空间投影器,将时序特征流映射到低维子空间,通过计算子空间间的最大公约线方向和最小夹角,实现跨视频的几何对齐。
该方法的优势具体表现在:1)时空一致性增强,通过自回归机制建立时间步长间的关联性,有效缓解视频序列中的瞬时遮挡问题;2)几何感知度量,利用主余弦计算不仅考虑特征向量方向的一致性,还评估子空间分布的几何相似性,对视角变化具有更强适应性;3)结构化特征表示,仿射子空间同时编码了身份相关的静态特征(子空间均值)和动态模式(特征向量),为多模态特征融合提供新范式。
在工程实现上,研究团队优化了计算效率,通过引入轻量级注意力机制和共享参数设计,使整体推理速度比现有ViT基线模型提升约18%。特别设计的参数共享策略,使得不同身体部位的特征提取网络复用率高达73%,显著降低计算开销。实验还表明,该方法在长时序视频(>100帧)中性能衰减较小,验证了其时间扩展性。
实际应用验证部分,研究团队在智慧安防场景中进行了部署测试。在商场监控视频库中,STARS系统实现了98.2%的跨摄像头行人追踪准确率,较传统方法提升23.6%。在动态环境下(行人移动速度>2m/s),系统仍保持89.4%的识别率,这得益于时空自适应模块对运动轨迹的建模能力。在隐私保护方面,提出的子空间投影机制能有效分离身份特征与时空背景信息,使数据脱敏处理效率提升40%。
未来研究方向中,团队计划将该方法拓展至多模态场景(如视频+音频+文本)。初步实验显示,在融合行人步态声纹和语音特征时,STARS框架的跨模态识别准确率提升达31.2%。此外,针对三维动作捕捉数据的处理优化也是重点,目前已完成三维卷积模块的初步设计,预期将进一步提升复杂运动场景下的识别能力。
本研究为视频重识别领域提供了新的技术范式,其核心价值在于建立时空特征的几何语义空间,这种建模方式不仅提升了匹配精度,更重要的是为后续的跨模态学习和多任务处理奠定了基础。在智慧城市、无人零售等实际应用中,STARS系统展现出良好的泛化能力和工程可行性,特别是在高密度人群监控场景中,对行人身份的持续跟踪准确率达到96.8%,显著优于现有方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号