MFOG-net：基于多尺度时空特征的优化视频目标检测网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：MFOG-net: Optimized video object detection network based on multi-scale spatiotemporal features

【字体：大中小】 时间：2026年03月15日 来源：Neurocomputing 6.5

编辑推荐：

　　视频目标检测面临运动模糊、遮挡和定位误差等挑战，本文提出MFOG-Net轻量级时空优化网络，通过多帧残差融合（MTRF）缓解遮挡问题，光流引导特征融合（OFFG）提升快速运动目标定位，并行跨路径提取（PCE）增强全局局部语义推理。实验表明，在ImageNet VID和UA-DETRAC数据集上，MFOG-Net分别达到84.6% mAP和89.73% mAP@0.5，优于多项SOTA方法。

郭庆晓|万淑珍|吕晨浩|芮柯

中国三峡大学水电工程智能视觉监测重点实验室，中国宜昌，443002

摘要

由于运动模糊、物体遮挡以及快速移动目标导致的定位误差，视频物体检测仍然具有挑战性。为了解决这些问题，我们提出了MFOG-Net，这是一个轻量级的时空优化网络，能够增强跨帧特征表示能力。MFOG-Net整合了三个关键模块：多帧时间残差融合（MTRF）模块用于缓解部分遮挡问题；光流特征引导（OFFG）模块用于在快速运动下提高定位精度；并行交叉路径提取（PCE）模块用于加强全局-局部上下文推理。在两个基准测试上的实验表明了我们方法的有效性：MFOG-Net在ImageNet VID上的mAP达到了84.6%，在UA-DETRAC上的mAP@0.5达到了89.73%，优于多种现有方法。

引言

视频物体检测[1]是计算机视觉[2]领域中一个重要且具有挑战性的任务。它的目标是在视频序列的每一帧中准确定位和分类目标物体。与基于图像的物体检测不同，视频物体检测必须处理时间信息，因为物体可能会经历各种复杂的变化，如运动模糊、遮挡、尺度变化和光照变化。这些复杂性使得视频物体检测成为一个更具挑战性的问题，需要模型有效地利用时间信息来提高检测精度和鲁棒性。

近年来，深度学习的进步推动了基于图像的物体检测[3]的显著进展，诸如YOLO[4]、SSD[5]和Faster R-CNN[6]等框架在标准基准测试中表现出色。然而，将这些方法直接应用于视频数据往往会导致次优的结果，因为它们未能充分利用视频帧之间的时间连续性和运动模式。为了解决这个问题，研究人员提出了各种方法，通过特征聚合[7]、循环神经网络[8]和光流整合[9]等技术来结合时间信息。这些方法旨在利用视频序列中丰富的时间上下文来提高检测性能。

考虑到相邻视频帧中物体的高时间连贯性，许多研究通过聚合光流特征[9]来提高视频物体检测的准确性。例如，FGFA[10]利用光流对齐多个相邻帧的特征，然后聚合这些特征以形成更强大的特征表示。同样，IFF-NET[11]通过整合特征流来优化视频物体检测过程。因此，光流估计[9]是研究相邻帧之间物体运动信息的关键技术。尽管这些网络可以从视频序列中有效提取光流信息，但由于引入了额外的计算步骤，它们增加了计算复杂性，并且在某种程度上依赖于光流估计的准确性。

在视频处理和动作识别领域，充分利用相邻帧之间的时空连续性是提高算法性能的关键策略之一。多项研究探讨了分析相邻帧如何改进视频理解任务。例如，时间分割网络（TSN）[12]采样并分析视频序列中的多个相邻帧，以捕捉动作的时间动态，从而在动作识别任务中表现出色。此外，MEGA[13]通过考虑全局和局部信息之间的关系来增强特征表示。尽管这些方法取得了令人满意的成功，但在面对动态变化、遮挡和不同光照条件时，它们在视频中的物体检测任务中难以达到预期结果。为了解决这些问题，我们提出了一种基于多帧融合和光流引导的改进方法。为了解决运动模糊和遮挡问题，我们引入了多帧时间残差融合（MTRF）模块，该模块整合了当前帧和相邻帧的特征。这种整合捕获了多帧上下文信息，同时保留了关键细节，从而增强了特征表达能力。此外，为了更准确地捕捉快速移动物体的运动信息，我们设计了光流特征引导（OFFG）模块。该模块将光流图与当前帧的特征沿通道维度连接起来并融合它们，生成一个加权掩码，有效提高了运动模糊场景下的检测精度。光流图提供了方向和速度信息，使网络能够更准确地定位目标位置。最后，我们引入了并行交叉路径提取（PCE）模块，以确保全面获取局部和全局信息，从而减少误检测并增强模型的鲁棒性。本文的主要贡献如下：

•

为了促进当前帧的特征学习和表示，我们设计了MTRF模块。该模块融合了相邻帧的特征，有效减轻了运动模糊、物体遮挡、姿态变化和光照变化等问题带来的干扰。

•

为了高效地将运动信息与图像特征整合起来，我们开发了OFFG模块。该模块增强了运动信息的提取和物体的定位，帮助模型更好地理解目标的动态行为。

•

为了增强语义特征的表示，我们设计了PCE模块。利用通道和空间注意力机制，该模块增强了特征表示，减少了复杂场景中的误检测和信息丢失，并提高了网络对视频目标的敏感性。

•

我们在ImageNet VID数据集上评估了所提出的MFOG-Net。与其他几种检测方法相比，实验结果表明，MFOG-Net在处理复杂视频场景时表现出强大的泛化能力和出色的检测性能。

部分内容摘录

光流

近年来，光流图在视频物体检测中的应用取得了显著进展[9]，特别是在捕获和处理时空信息方面。光流技术的本质在于通过估计图像序列中的像素运动来推断物体的动态行为，从而使模型能够更好地理解视频中目标和背景之间的变化。

方法论

在本节中，我们将详细介绍我们提出的用于视频物体检测的MFOG-Net。首先，在3.1节中，我们介绍了MFOG-Net的架构和具体细节。随后，3.2节多帧时间残差融合模块、3.3节光流特征引导模块、3.4节并行交叉路径提取模块分别详细阐述了多帧时间残差融合（MTRF）模块、光流特征引导（OFFG）模块和并行交叉路径提取模块。

实验环境

为了评估所提出的方法，我们在ImageNet VID[31]和UA-DETRAC[32]数据集上进行了实验。ImageNet VID数据集包含30个物体类别，包括3862个带有真实注释的训练视频片段、555个验证片段和937个未标记的测试片段。由于测试集的注释不是公开可用的，我们遵循惯例使用验证集进行评估，并且所有比较方法采用相同的数据分割以确保公平性。

结论

在这项工作中，我们提出了MFOG-Net，这是一个多模块的时空优化框架，旨在改善复杂场景下的视频物体检测。虽然MTRF、OFFG和PCE模块共同增强了时间融合、运动建模和多尺度特征表示，但仍存在一些局限性。首先，光流引导融合的整合引入了额外的计算成本，这可能会阻碍其在实时或边缘设备中的应用。

CRediT作者贡献声明

郭庆晓：撰写 – 审稿与编辑，撰写 – 原稿，软件，方法论，形式分析，概念化。万淑珍：撰写 – 审稿与编辑，撰写 – 原稿，验证，监督，项目管理，方法论，调查。吕晨浩：软件，方法论，数据管理，概念化。芮柯：软件，方法论，调查，数据管理。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

万淑珍报告称获得了国家自然科学基金的支持。如果有其他作者，他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

这项工作部分得到了中国国家自然科学基金（项目编号41901341）的支持，同时也得到了中国三峡大学教育部三峡库区生态与环境工程研究中心开放基金项目（项目编号KF2023-11）的支持。

郭庆晓在中国三峡大学获得了学士学位和硕士学位。他的研究兴趣主要集中在计算机视觉领域，包括图像处理、物体识别和深度学习模型的优化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号