一种新型的几何感知时空网络,用于多视图视频特征学习

《Pattern Recognition》:A Novel Geometry-Aware Spatio-Temporal Network for Multi-View Video Feature Learning

【字体: 时间:2026年03月05日 来源:Pattern Recognition 7.6

编辑推荐:

  多视角跟踪、合成数据集、时空关联网络、数据关联方法、3D卷积|

  
张月|徐梅|江莱|邓欣|刘思
北京航空航天大学电子与信息工程学院,中国北京100191

摘要

最近,多视图跟踪的研究主要集中在探索关联关系上,以连接不同视图和帧中的多个人物,这通常依赖于来自其他任务(如人物重识别(Re-ID)的预训练特征,因为缺乏大规模的多视图视频数据。通过训练网络解决的多视图特征表示问题仍然有待进一步探索,而它在有效的多视图多人跟踪方面具有巨大潜力。在本文中,我们提出了一种新颖的时空相关性(STC)网络用于多视图视频特征学习,该网络得到了一个新的大规模合成多视图视频数据集的支持,从而为我们的STC网络提供了多样且充足的多视图视频数据。新生成的MV3DHumansVideo数据集包含超过500组多视图视频序列,为利用深度神经网络进行多视图跟踪提供了多样化的数据。更重要的是,所提出的STC网络将对象检测和特征学习结合起来,无缝整合了时间和空间上下文信息,以实现多视图多人跟踪。从校准信息中获得的多视图线索也被集成到我们的STC网络中,以增强特征学习,随后采用了一种先进的数据关联方法来实现准确的多视图多人跟踪。我们的实验结果验证了我们的STC网络在新生成的合成数据集和具有挑战性的真实世界数据集上的优越跟踪性能。

引言

最近,由于相机系统在公共和私人空间中的普及,多视图多人跟踪越来越受到研究关注[1]。多视图跟踪利用多个相机视角,显著减轻了单视图跟踪的局限性,如遮挡、盲点和有限的空间覆盖范围[2]。因此,多视图多人跟踪旨在同时检测并持续跟踪不同相机视角下的多个个体,从而更全面地理解复杂和动态的环境。这一能力在视频监控[3]、可疑活动检测[4]和运动分析[5]等关键领域有着广泛的应用。然而,实现准确的多视图跟踪仍然具有挑战性,主要是因为在不同相机视角之间以及随时间保持个体身份的一致性存在困难。这些挑战因杂乱场景中普遍存在的严重遮挡、由于相机角度不同导致的外观显著变化,以及分隔相机视角的大空间基线而进一步加剧,这突显了需要鲁棒且与视角无关的策略[6]。
现有的多视图多人跟踪研究主要集中在对象关联方法上。传统的技术利用多视图几何信息通常需要精确的相机校准信息[7],这常常遇到实际困难。最近的方法则依赖于预训练的判别特征或属性来提高数据关联的效率[8]。在[9]中,韩等人将多视图跟踪表述为一个广义的最大团问题,并构建了一个时空亲和矩阵,然后通过交替方向方法进行优化。尽管在关联方面取得了进展,但从原始多视图视频直接进行特征表示的学习仍然相对较少。虽然深度神经网络(DNN)在各种计算机视觉任务中显著提高了性能[10],但现有的多视图跟踪方法主要基于最初为其他相关任务(如人物重识别(Re-ID)[11]或人体姿态估计[12])设计的深度预训练特征,从而限制了它们在捕捉跨视图对应关系方面的效果。
从最基本的角度来看,专门为多视图多人跟踪设计的判别特征的研究仍然有限,主要是由于缺乏适当的多视图视频数据集。在这种情况下,多视图视频特征是指直接从同步的多相机视频数据中学习到的特征表示,旨在捕捉跨视图的一致性和时间连贯性。当前用于人物重识别和人物搜索任务的判别特征提取方法主要关注在非重叠视野中识别个体[13]。最近,王等人提出了一种具有纹理感知能力的变换器,其中包含了一种直接的姿态到补丁对齐机制,以提高鲁棒性[14]。然而,现有的Re-ID和人物搜索公式并未设计为明确利用同步多相机的连贯性[15],例如帧对齐的跨视图对应关系和几何约束,而这些对于多视图跟踪至关重要。因此,学习到的Re-ID或人物搜索特征在捕捉帧对齐的跨视图一致性和相关的时空对应关系方面存在局限性,特别是在严重遮挡和显著光照变化的情况下[16]。因此,直接从多视图视频数据中开发鲁棒的判别特征表示具有挑战性,但至关重要。不幸的是,获取和标注多视图视频往往存在重大的隐私问题和标注挑战,导致数据集具有特定场景性或涉及的主体数量有限,进一步限制了这一领域的研究进展。
在本文中,我们首先提出了一个合成多视图视频数据集,以解决训练深度网络所需的多视图数据不足的问题,重点在于多视图视频特征学习。这个合成数据集由通过高质量渲染流程生成的丰富且真实的短多视图序列组成,其中包含了多样化的3D人体模型、动画和全景背景,确保了充足的训练数据。为了有效利用多视图视频中的空间和时间相关性并实现多视图多人跟踪,我们引入了一种新颖的时空相关性(STC)网络,该网络同时执行检测和多视图视频特征学习。更具体地说,为了处理时间和空间特征的独特判别特性,网络包括两个复杂的分支,即用于时间特征学习的跟踪分支和用于空间特征学习的标记分支。这两个分支都使用3D卷积操作来捕捉复杂的时空相关性,显著增强了特征表示。作为多视图视频中最重要的上下文线索之一,我们整合了来自地面平面单应性的几何特征,进一步丰富了网络的表示能力。最后,一种高效的数据关联方法利用这些增强的时间和空间特征来实现有效的多视图跟踪。实验结果验证了我们的STC方法在我们MV3DHumansVideo数据集和真实世界数据集上的有效性。图1展示了多视图多人跟踪的示例。我们的贡献主要有三个方面:
• 我们建立了一个大规模的合成多视图视频数据集,用于多视图多人检测和跟踪,提供了充足且多样化的数据,以实现多视图跟踪的基准测试。
• 我们提出了一种基于几何感知的时空相关性(STC)网络,它将检测和特征学习结合起来,并具有专门的时间和空间分支,以利用多视图视频中的时空相关性。
• 我们开发了一种高效的级联关联策略,利用学习到的特征来实现跨视图身份的一致性和卓越的跟踪性能。

部分摘录

通过人物重识别方法进行特征学习

为个体开发适当的特征表示是人物重识别(Re-ID)中的一个关键研究领域。Re-ID的主要研究工作依赖于手工制作的特征进行人物识别[17]。然而,最近的进展表明基于深度学习的特征显著提高了特征学习性能[18]。戴等人[19]在网络架构中引入了一个局部分支,以提高Re-ID的准确性,采用随机

方法论

在本节中,我们首先介绍了所提出的合成多视图视频数据集,该数据集旨在利用多视图视频中的时间和空间相关性,并为多视图跟踪任务中的深度学习能力提供充足的数据。然后,我们介绍了新提出的STC网络及其跟踪和标记分支。该网络使用3D卷积层来学习时间和空间特征之间的相关性,从而

实验设置

评估数据集:如上所述,我们提出了一个新的多视图视频数据集,命名为MV3DHumansVideo,用于多视图多人跟踪。为了最大化多样性并确保充足的训练数据,我们生成了场景变化多样的短视频序列,而不是场景有限的長序列。训练集包含来自300个模型的400个短序列和45个背景,每个背景由16个相机拍摄,每个相机拍摄5帧。验证集包含100个序列

结论

在本文中,我们提出了一个名为MV3DHumansVideo的多视图视频数据集,以解决大规模多视图数据稀缺的问题,并实现深度神经网络的多视图端到端训练。该数据集包含数百个短视频序列,从而为学习鲁棒的多视图特征提供了多样化的场景。基于这个数据集,我们提出了一种时空相关性(STC)网络,它在单一框架中统一了检测和特征学习

CRediT作者贡献声明

张月:撰写——原始草稿、方法论、调查、数据管理、概念化。徐梅:撰写——审阅与编辑、监督、项目管理、资金获取。江莱:撰写——审阅与编辑、监督。邓欣:撰写——审阅与编辑、监督。刘思:撰写——审阅与编辑、可视化、验证、形式分析。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(NSFC)在62231002、62522101和62401027项目下的支持。
张月分别于2017年和2023年在中国北京航空航天大学电子与信息工程学院获得硕士学位,并在英国萨里大学视觉、语音和信号处理中心获得博士学位。她目前是北京航空航天大学的博士后研究员。她的研究兴趣包括3D计算机视觉、多视图标注和跟踪。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号