面向真实世界复杂动态自然环境的鲁棒小型运动目标检测：果蝇启发的视觉神经通路建模

《Biomimetics》：Robust Detection of Small Moving Objects Against Real-World Complex Dynamic Natural Environments: Drosophila-Inspired Visual Neural Pathway Modeling Sheng Zhang, Ke Li and Zhonghua Luo

【字体：大中小】 时间：2026年05月10日 来源：Biomimetics 3.9

编辑推荐：

　　：目前，小型运动目标检测仍然是一个极具挑战性的问题，主要归因于四个关键因素：有限的像素覆盖、模糊的纹理特征、与背景中类似小型目标的特征难以区分（即假阳性）以及易受环境噪声干扰。果蝇视觉系统对小型运动目标具有显著敏感性，这源自一类名为“小叶柱状11”（Lobu

：目前，小型运动目标检测仍然是一个极具挑战性的问题，主要归因于四个关键因素：有限的像素覆盖、模糊的纹理特征、与背景中类似小型目标的特征难以区分（即假阳性）以及易受环境噪声干扰。果蝇视觉系统对小型运动目标具有显著敏感性，这源自一类名为“小叶柱状11”（Lobula Columnar 11, LC11）的特殊神经元，为解决这一挑战提供了灵感。现有的生物启发视觉模型已取得一定进展，但面对真实世界复杂动态自然环境的检测性能仍需进一步提高。为解决在真实世界复杂动态自然环境中对小型运动目标检测精度有限的挑战，本文提出了一种受果蝇视觉小型目标运动敏感性（Drosophila Vision Small Object Motion Sensitivity, DVSOMS）机制启发的运动小型目标检测（Motion Small Object Detection, MSOD）模型，即DVSOMS-MSOD。该模型包含四个阶段：第一阶段是视觉刺激的初步处理，视觉刺激被感知、转换为灰度并模糊化。第二阶段是运动神经通路，视觉信号首先分解为并行的ON和OFF神经通路信号；然后，在髓质和小叶复合体之间引入神经反馈机制，并将完整的哈森斯坦-赖卡特相关器（Hassenstein–Reichardt Correlator, HRC）整合到小叶复合体中；最后，利用LC11神经元检测小型运动目标并提取其位置信息。第三阶段是对比度神经通路，视觉信号首先由中心局部邻域和周围局部邻域处理，然后计算局部对比度信息。第四阶段是运动与对比度神经通路的整合，蘑菇体利用小型运动目标的位置信息生成运动轨迹，随后利用局部对比度信息和运动轨迹生成对比度轨迹，以更精细地检测小型运动目标。在真实世界复杂动态自然环境数据集上，与用于运动目标检测的传统机器学习方法相比，所提模型在检测性能和输出质量上分别提高了77.82%和78.70%，同时运行时间减少了10.60%。与用于小型运动目标检测的生物启发视觉模型相比，所提模型在检测准确率和检测性能上分别提高了28.24%和43.15%，但运行时间增加了43.40%。所提模型在检测性能、输出质量和检测准确率方面展示出一定优势；然而，其实时性能仍有待进一步优化。

论文解读：面向真实世界复杂动态自然环境的小型运动目标鲁棒检测研究

一、研究背景、问题与研究意义

小型运动目标检测是计算机视觉领域的核心技术，在智能监控、自动驾驶和无人机跟踪等领域有着广泛应用。然而，由于小型目标像素覆盖少、纹理细节严重丢失、易受背景杂波和噪声影响，其检测仍然是极具挑战性的难题。传统的机器学习方法在此问题上存在局限。与此形成鲜明对比的是，模式生物果蝇（Drosophila）凭借其高效、紧凑的视觉神经系统，展现出对小型运动目标的卓越敏感性，这为开发新型检测模型提供了宝贵的生物学启示。

在果蝇视觉神经系统中，一种名为“小叶柱状11”（LC11）的神经元对昏暗的小型运动目标表现出精细的选择性。果蝇的完整视觉神经通路包括视网膜、视叶和中央脑，在检测小型目标中扮演关键角色。然而，尽管已有许多仿生模型针对宽场运动、碰撞检测等任务，但针对小型运动目标检测的模型，尤其是基于LC11神经元的研究，仍不够深入，在面对真实世界复杂动态环境时，其检测性能、抗背景干扰能力和环境噪声抑制能力均有待提升。针对此现状，本研究提出了一种融合神经反馈机制和平行运动-对比度通路的DVSOMS-MSOD模型，旨在实现对复杂动态自然环境中小型运动目标的鲁棒检测。此项研究已发表在《Biomimetics》期刊上。

二、主要关键技术方法

本研究构建了DVSOMS-MSOD模型，其结构模拟了果蝇的三层视觉神经回路，包括视网膜神经层、视叶神经层和中央脑神经层。模型采用分层感知策略，核心技术创新包括：首先，提出改进的时域带通滤波器，以更精确地模拟LMC神经元的高亮度变化敏感性。其次，在髓质和小叶复合体之间引入神经反馈机制，以有效抑制环境噪声，并将完整的HRC通路嵌入小叶复合体，以增强对小目标的感知与检测能力。最后，在中央脑的蘑菇体处融合运动通路和对比度视觉神经通路，有效抑制背景假阳性干扰。实验使用Matlab R2016a平台，在搭载Intel Core i7-8700处理器的硬件上运行，合成连续视觉刺激序列由Vision Egg 1.1.1生成，并引入了基于真实校园场景的全景图像作为复杂环境背景，其中嵌入了虚拟的小型运动目标。

三、研究结果与结论

1. DVSOMS-MSOD模型中各神经层的贡献分析

研究人员通过对比分析基本的小目标运动检测器（elementary STMD, ESTMD）模型和DVSOMS-MSOD模型中各神经层相关神经元的响应信号，评估了各层的作用。实验在包含一个小型运动目标和三个环境背景伪小目标的视觉刺激序列上进行。结果显示，DVSOMS-MSOD模型的视网膜层输出经过平滑处理。与ESTMD模型相比，DVSOMS-MSOD模型在LMC神经元响应中采用了改进的时域带通滤波器，并通过侧抑制处理有效抑制了背景响应。在视叶层，模型实现了从亮度变化中分解出ON/OFF通路信号，并进行了二级侧抑制以实现尺寸选择性。关键的是，虽然ESTMD模型中的STMD神经元和DVSOMS-MSOD模型中的LC11神经元都对小型运动目标表现出强响应，但同样会错误地响应背景伪目标。DVSOMS-MSOD模型的创新之处在于其蘑菇体层能够利用对比度信息。实验数据显示，蘑菇体通过整合运动轨迹和局部对比度信息，生成的响应信号能有效抑制背景伪小目标。定量分析表明，DVSOMS-MSOD模型的信噪比（SNR）和视觉噪声（VN）表现均优于ESTMD模型，背景抑制能力更强，其检测准确率（78.29%）也高于ESTMD（60.43%）和LC11（71.71%）模型。

2. 与传统机器学习方法的对比分析

研究人员选取了12组基于真实校园全景图构建的复杂环境背景序列，将DVSOMS-MSOD模型与五种传统运动目标检测方法进行了对比。评价指标包括精确率（Pr）、召回率（Rc）、F₁值、SNR、VN和处理时间。结果表明，DVSOMS-MSOD模型在所有三种检测性能指标（Pr, Rc, F₁）上均取得相对最优结果，平均提升分别为95.59%、42.70%和95.18%，整体检测性能提升77.82%。在输出质量上，模型在SNR和VN指标上表现最佳，整体输出质量提升78.70%。在实时性方面，DVSOMS-MSOD模型的运行时间优于三种传统方法，但不及另外两种，平均运行时间减少10.60%。

3. 与生物启发视觉模型的对比分析

研究人员进一步将DVSOMS-MSOD模型与ESTMD模型和果蝇视觉神经通路模型（DVNPM）在变化的目标参数下进行对比。参数包括目标宽度、高度、尺寸、亮度和运动速度。结果显示，在目标与背景运动方向相反的情况下，DVSOMS-MSOD模型在绝大多数参数变化范围内，其检测性能（以检测准确率衡量）均优于ESTMD和DVNPM模型。具体而言，在目标宽度、高度、尺寸、亮度和运动速度变化的五组实验中，DVSOMS-MSOD模型相较于ESTMD模型平均检测准确率提升38.03%，相较于DVNPM模型平均提升18.45%，整体提升28.24%。在检测性能指标（Pr, Rc, F₁）上，DVSOMS-MSOD模型同样表现最优，整体检测性能提升43.15%。然而，由于模型引入了神经反馈、对比度通路及融合模块，其运行时间相较于ESTMD和DVNPM模型平均增加了43.40%，实时性有所下降。

四、讨论与结论总结

讨论部分总结：

在真实世界复杂动态环境中实现小型运动目标的鲁棒检测是计算机视觉领域的重大挑战。果蝇视觉系统中的LC11神经元为此提供了一个出色的生物学范例。本研究基于对LC11神经元及蘑菇体神经回路的系统分析，提出了DVSOMS-MSOD三层计算架构，集成了优化的时域带通滤波器、循环神经反馈机制、完整的HRC计算模块以及运动与对比度通路在蘑菇体的功能整合，有效抑制了背景引起的伪小目标，在复杂动态环境中显著提升了检测保真度。通过三层互补性实验验证了模型的有效性。研究也承认了模型的局限性：首先，模型功能专一于小型运动目标，无法泛化至正常尺寸目标；其次，所假设的对比度通路的神经解剖学证据尚未完全确立，其存在仍待进一步研究；最后，评估使用的合成视频数据集在纹理细节、光照交互、运动模式及背景动态性方面与真实世界存在差距，可能限制了模型在实际场景中的适用性验证。未来工作将致力于构建大规模真实世界全景数据集，并进行系统性的域偏移分析。

研究结论翻译：

本研究提出的DVSOMS-MSOD模型，利用果蝇的LC11神经元和蘑菇体，为真实世界复杂动态环境中的小型运动目标检测提供了一个基于生物学原理的解决方案。与传统的机器学习方法和现有的生物启发视觉模型相比，所提出的DVSOMS-MSOD模型在检测性能、输出质量和准确率方面取得了显著改善，同时保持了良好的运行效率。这些收益源于两种协同的神经计算：（1）由完整HRC和髓质-小叶复合体反馈实现的LC11介导的运动敏感性，用于检测小型运动目标；（2）蘑菇体驱动的运动轨迹与局部对比度信息整合，以抑制背景杂波并消除假阳性。尽管支持蘑菇体整合运动和对比度通路的神经解剖学证据仍有待完全确立，但对比度通路在抑制背景干扰和消除虚假小目标方面的有效性已得到经验验证。与其他生物启发视觉模型相比相对较高的计算成本，反映了并行ON/OFF处理和反馈机制的生物学保真度。这项研究拓宽了果蝇视觉神经机制研究的维度，为神经形态智能、计算机视觉和神经科学的跨学科融合提供了新的理论框架和技术途径。

热点排行