编辑推荐:
小目标运动检测面临背景复杂、像素稀少等挑战,传统HRC模型存在方向响应受限和定位滞后问题。本文提出生物启发式MDDC-STMD视觉系统,通过双光感受器对称电路增强 omnidirectional 运动响应,设计STMD与LPTC互补子模块,结合补偿通道优化时空特征提取,在低采样率、高动态场景中实现精准定位,并构建包含真实与合成数据的大场景检测基准。
作者:游天顺 | 刘明 | 董立泉 | 杨鹏
北京工业大学光学与光子学院,北京,100081,中国
摘要
在广阔的视野和复杂的背景下检测小型移动目标是一项极具挑战性的任务,因为目标像素数量较少,且会受到背景噪声的干扰。令人惊讶的是,尽管目标仅占视野的一小部分,果蝇的视觉系统仍能准确检测到配偶并在快速飞行中追踪猎物。这种对小型目标的敏锐感知能力得益于一种称为“小型目标运动检测器”(STMD)的特化神经元。现有的基于Hassenstein-Reichardt相关器的STMD模型严重依赖视觉对比度,而这种相关器的时延策略导致检测结果滞后于当前帧的实际位置。在本文中,我们开发了一种具有运动方向解码补偿机制的生物启发式视觉系统。具体而言,所提出的视觉神经网络包括两个互补的子模块和一个补偿通道。第一个子模块通过神经元方向解码提取目标的空间和时间运动模式;第二个子模块捕获小型目标运动信息,其输出通过补偿通道与第一个子模块的信号结合,从而提高检测率并减少类似小型目标的背景噪声的干扰。实验结果表明,基于运动方向解码补偿的视觉系统在区分复杂场景中的小型移动目标方面优于现有方法。
引言
动态视觉,也称为运动感知,是具有视觉能力的动物的自然能力(Wang等人,2019年),它利用光感受系统检测物体运动以实现环境互动。与静态图像处理不同,动态视觉专注于视野(FOV)或感受野(RF)内的二维时空信息处理和整合,以估计运动方向(Fu,2023年;Wang等人,2022a年)。作为动物和人类导航及运动控制的核心生物能力,动态视觉也为复杂环境中的仿生视觉系统提供了强大的导航框架(Zhang等人,2024年)。开发有效的动态视觉系统受益于神经计算科学,该科学研究生物系统如何高效处理视觉信号以提取多种运动线索(Wang等人,2016年)。
在中型和大型物体上,动态视觉检测已取得显著进展(Liu等人,2016年;Redmon等人,2016年)。传统的运动检测方法分为两类:基于外观的方法,利用机器学习或深度学习模型从单张图像中提取高级语义特征,然后在帧间匹配这些特征(Liu等人,2019年;Liu和Zhu,2018年);以及基于运动的方法,通过背景减除、帧间差异或光流等方法估计物体运动(Zhu等人,2022年;Zhan等人,2007年;Agarwal等人,2016年)。然而,基于外观的方法由于分辨率限制和特征提取过程中的退化而难以处理小型目标;基于运动的方法则优先处理显著物体,通常将小型移动目标视为噪声(Cheng等人,2023年)。当检测远距离或早期阶段的运动目标时,这一挑战尤为突出,因为这些目标通常表现为与背景照明对比度极低、结构特征几乎不可见的单像素或少数像素的光点(Xu等人,2023年)。这种场景定义了小型目标运动检测(STMD)(Fu,2023年),其应用范围包括遥感(Chen等人,2024c年)、反无人机系统(Ashraf等人,2021年)和红外小型目标检测(ISTD)(Chen等人,2024b年)。最近的STMD进展采用了结合时空信息的运动感知架构,包括特征分解、循环/卷积时间建模(Chen等人,2024b年)、帧间模式对齐(Chen等人,2024c年)、语义运动先验(Chen等人,2025年)和多域表示学习(Duan等人,2024年)。然而,这些方法仍受限于基准数据集在分辨率和视野方面的限制,从而在现实世界的宽视野应用中存在可扩展性差距。
近几十年来,人们对昆虫视觉系统的神经架构、层间信息传输和运动反馈机制有了深入理解(Borst和Groschner,2023年),果蝇已成为研究运动感知策略的首选模型(Borst等人,2020年)。果蝇中的小型目标运动检测器(STMD)路径解释了昆虫对小型移动目标的异常敏感度,因为STMD神经元对窄场刺激(小型目标)表现出峰值响应,同时对宽场背景运动抑制响应(Tanaka,2022年;Wiederman和O’Carroll,2013年)。这一生物机制启发了小型目标运动检测的计算方法。当前的生物启发式模型主要依赖于Hassenstein-Reichardt相关器(HRC)框架(Yang和Clandinin,2018年),该框架将某一时间点的空间强度与随后时间点的相邻空间强度相关联,生成局部运动信号,这些信号可以组合成全局神经表示模式,为后续处理提供运动信息。
然而,HRC存在两个关键限制。首先,其优先方向的时间延迟路径(实现为低通滤波器)仅对优先方向的运动产生正信号,而对非优先或零方向的运动没有响应(Yang和Clandinin,2018年),这本质上限制了检测仅限于优先方向的目标,并且总是错过其他方向的运动目标。其次,通过时间延迟的空间响应对齐实现的信号增强机制在检测到的小型移动目标位置与其实际位置之间引入了较大的空间误差,特别是在低采样频率的视频序列中,从而无法实现精确定位(Xu等人,2023年)。
为了解决这些限制,我们提出了一种基于运动方向解码补偿的STMD视觉系统(MDDC-STMD)。该框架结合了一种新颖的双光感受器镜像对称电路模型和运动方向解码补偿机制,在不同目标亮度、低采样率和大场景复杂环境中实现了更好的定向和定位性能。上层模型通过从光感受器到STMD神经元的分层处理模拟果蝇的ON/OFF运动视觉路径,在小型目标位置产生高强度响应。下层由两个互补的子模块(STMD和LPTC)以及一个补偿通道组成。STMD模块捕获空间运动信息,并通过我们的双光感受器镜像对称电路增强HRC对全向小型目标运动的响应,以适应亮度变化。LPTC模块通过神经元方向解码提取运动模式。我们的MDDC机制独特地结合了长期空间信息(STMD)和短期运动状态(LPTC),利用补偿通道在时空动态之间减少响应延迟。这种双路径对称的HRC设计和MDDC区域补偿通过最小化背景运动干扰提高了准确性,而CUDA加速的多维通道解码提高了计算效率。
本文的贡献可以总结如下:
- 我们采用了一种双光感受器镜像对称电路模型来增强HRC,确保在低光照背景下对不同亮度的小型移动目标产生全范围的运动响应刺激。此外,我们加入了一个时间延迟反馈机制来放大HRC的响应,从而过滤掉背景噪声。
- 我们设计了一个新的LPTC子模块,通过多方向和多尺度的神经元群体解码来推断当前时间的小型目标运动模式,补偿STMD对小型目标位置的延迟响应。
- 我们提供了一个半合成数据集,用于在广阔视野下针对复杂背景进行基于运动的小型目标检测。该数据集包括各种场景中的真实和人工设置的目标,涵盖天空、植被、建筑物和道路。
章节片段
基本运动检测
在脊椎动物和无脊椎动物中,运动计算是通过在局部视野区域内生成方向选择性信号的神经电路完成的(Barlow和Hill,1963年;Hubel等人,1959年;Von Reichardt,1961年)。有三个主要的计算模型解决了这个问题:Hassenstein-Reichardt相关器(HRC)(Hassenstein和Reichardt,1956年)、Barlow-Levick模型(Barlow和Levick,1965年)以及运动能量模型(Adelson和Bergen,1985年),统称为基本模型
先验知识
果蝇的运动检测采用了平行的ON(亮边缘)和OFF(暗边缘)路径,如图1(a)所示。视觉处理从光感受器开始,这些光感受器与单极细胞(L1/L2)形成突触连接,其中L1主要驱动ON路径(L1 → Mi1 → Tm3 → T4),L2驱动OFF路径(L2 → Tm1 → Tm2 → T5)(Behnia等人,2014年)。这两种路径都执行两个关键操作:空间输入之间的差分延迟和非线性相关,以计算运动方向(图1
数据集
在宽视野高分辨率图像中检测小型移动目标是一项极小的对象检测挑战。由于数据集稀缺,我们构建了一个半合成的基准数据集,用于在复杂背景下进行基于运动的小型目标检测。该数据集结合了真实和合成目标,这些目标具有不同的亮度、速度和大小(2 × 2至20 × 20像素,占据图像面积的),这些目标在各种真实世界场景(天空、森林、建筑物、道路)中移动。视频
限制与进一步分析
所提出的MDDC-STMD检测模型的有效性已在三个不同的基准数据集上得到了严格验证,证明了其在不同场景、目标特征和传感器配置下的稳健性能。这种增强显著提高了生物启发式STMD模型在各种操作场景下的检测鲁棒性和准确性。
然而,我们模型背后的运动特征提取范式容易引入误报
结论
本研究提出了MDDC-STMD,这是一种基于生物启发的视觉神经网络,用于在复杂自然背景下的大视野中检测小型移动目标。我们的架构包括四个依次排列的神经层,这些层通过前馈连接提取目标位置和运动信息,并结合了新颖的运动方向解码补偿(MDDC)模块。与之前的基于STMD的模型不同,MDDC使用LPTC神经元
CRediT作者贡献声明
游天顺:撰写——原始草稿、软件、方法论、概念化。刘明:监督、正式分析、数据管理。董立泉:监督、资源管理、数据管理。杨鹏:可视化、验证、软件。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。