视觉运动与亮度特征融合驱动的仿生小运动物体检测模型

【字体：大中小】 时间：2026年03月03日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　本期推荐一篇深入探讨昆虫视觉启发的计算模型研究。该文针对小运动物体检测的挑战，提出一种结合视觉运动与亮度特征的仿生模型。模型模拟了果蝇、食蚜蝇和蜻蜓等飞虫的神经机制，证实了视觉运动（EMD/STMD）与亮度（ON/OFF通道）特征协同可显著提升微小运动物体在复杂背景下的检测效率与鲁棒性，并展现了超敏锐检测能力。这项研究为人工视觉系统（如无人机检测、机器人视觉）提供了新颖的生物启发式解决方案。

2.1. 特征组合模型

受经典的基础小目标运动检测器（ESTMD）模型启发，研究者开发了一种名为运动-亮度小物体检测器（ml-SOD）的模型。与仅关联物体两个边缘亮度信号的ESTMD不同，ml-SOD的核心假设是：将物体前导边缘的视觉运动特征与其后随边缘的亮度特征在相同的视网膜对应位置上进行关联，对于提升检测性能至关重要。该模型包含两条平行通路，分别用于检测暗色和亮色的小运动物体。信号处理流程分为三个阶段：第一阶段模拟从视网膜到T4/T5细胞的神经处理，提取横跨整个视野的、不分方向的视觉运动信号；第二阶段在视叶中，将延迟的视觉运动信号与极性相反的、未经延迟的亮度信号在相同视网膜位置进行非线性组合（相乘）；第三阶段则模拟视叶柱状（LC）细胞，对小感受野的输入进行时空平滑整合。该模型不依赖于视觉运动的方向，这与对微小物体敏感的LC细胞具有运动选择性但无方向性的生理事实相符。

2.2. 超敏锐检测及对物体大小与速度的选择性

利用人工刺激测试表明，ml-SOD模型对运动物体的大小和速度表现出选择性偏好。无论物体是暗是亮，模型都存在一个使其检测性能最优的偏好物体尺寸和运动速度。这种选择性源于视觉运动与亮度特征的组合，并可通过改变特征组合的参数（如时间延迟τ_LP2和视叶单元的感受野大小）进行调节。令人惊讶的是，模型能够检测到小于模型复眼空间分辨率（Δφ = 6像素）的微小物体，表现出一种“超敏锐物体检测”能力。这种能力并非源于空间分离信号的比较，而是视网膜高斯模糊预处理与下游特征组合机制协同作用的结果。当微小物体的尺寸与速度近似满足关系 S = V × τ 时，模型检测效果最佳。

2.3. 在运动背景下对高对比度小运动物体的鲁棒检测

运动背景是物体检测的一大挑战。研究表明，当背景运动较快时，与目标尺寸、速度相似的背景纹理会被EMD捕获，并混入目标的视觉运动特征中，导致模型性能下降。然而，如果通过给物体添加白色边框等方式增强其局部对比度，形成高对比度物体，ml-SOD模型在第二阶段和第三阶段的表现将得到显著提升，能够在所测试的全部背景速度下有效检测目标。这种改进并非源于物体尺寸的增大，而是由于视觉运动信号对对比度具有平方依赖性，高对比度显著放大了目标的视觉运动特征，使其在运动背景干扰中凸显出来。因此，只要小运动物体的对比度足够高，ml-SOD模型对运动背景的干扰就表现出很强的鲁棒性。

2.4. 与ESTMD模型的比较

为了公平比较，研究构建了一个仅保留ON与延迟OFF亮度信号相乘关联机制的“纯净”ESTMD模型。在静止背景下，两个模型在物体尺寸、速度和亮度调谐曲线方面表现出定性上的相似性。然而，在运动背景下，两者表现出根本性差异。ml-SOD模型在所有测试的背景速度下都表现良好，而ESTMD模型在背景速度超出一定范围后性能急剧下降（F-measure无法达到0.5）。此外，在包含闪烁噪声点的静态背景测试中，ml-SOD模型在整个闪烁频率范围内都保持接近1.0的高F-measure，表现出对闪烁不敏感的稳健特性，这与对微小运动物体敏感的LC细胞的生理特性相似。这些结果表明，结合视觉运动特征赋予了ml-SOD模型抵抗由背景运动引起的干扰噪声的能力。

2.5. 用三臂检测器替代EMD不会导致模型性能下降

近期研究表明，果蝇T4/T5细胞检测视觉运动的方式可以用具有三个空间分离输入的三臂检测器模型来描述。研究探讨了将ml-SOD模型中所有的两臂EMD替换为三臂检测器（记为ml-SOD）后的性能。在静止背景下，虽然第一阶段检测微小物体位置的准确性略低于两臂版本，但在第二阶段，无论使用哪种运动检测器，模型的性能几乎相同。ml-SOD模型同样具备超敏锐检测能力。在运动背景和高对比度物体的场景下，通过引入自适应阈值滤除噪声，ml-SOD模型的性能得到增强，并且在所有测试的背景速度下均优于ESTMD模型。总之，用三臂检测器替代EMD，ml-SOD模型的性能在质上保持不变。

2.6. 模型对真实世界视频序列的鲁棒性

研究使用RIST（含暗色物体）和IR（红外，含暗淡的飞行器亮色物体）两个真实世界数据集评估模型。对比模型包括ml-SOD、ml-SOD、ESTMD和包含中心-周边拮抗等完整机制的ESTMD。结果表明，在处理完整的视频序列时，ml-SOD模型在两个数据集上均表现最佳，其次是ml-SOD模型。即使在低误报率下，ml-SOD模型的检测率也显著高于基于ESTMD的模型。模型处理速度快，在第二阶段对RIST和IR数据集的帧率分别超过90 fps和160 fps。研究表明，相比于依赖亮度特征的ESTMD模型，ml-SOD模型在真实世界视频序列的小运动物体检测任务中更具鲁棒性和高效性。面对自然场景变化时，两臂EMD版本性能优于三臂版本，主要原因可能是三臂模型中施加抑制性除法效应的输入对运动背景的干扰更敏感。

3.1. 特征组合模型变体的预测

从算法角度看，ml-SOD模型预测了两种可能的网络连接变体。第一种变体提出，时间延迟τ_LP2可能不仅出现在视觉运动通路，也可能出现在亮度信号通路，只要分别编码物体前导边缘和后随边缘的两种信号最终能在同一视网膜位置相遇。第二种变体提出，小物体检测甚至可以仅由视觉运动信号互补完成。该变体通过组合相邻视网膜位置上极性相反的视觉运动信号来检测小运动物体，可称为mm-SOD，其检测效果应与原版ml-SOD模型等效。从果蝇视觉系统的角度看，这些模型变体对应的解剖结构尚不明确。考虑到果蝇中外髓和视叶板的多数输出汇聚到视叶，预测ml-SOD模型第三阶段的神经底物对应于对小物体敏感的视叶柱状细胞。未来通过改进果蝇遗传工具对特定视觉回路进行功能操控，有望验证这些预测。例如，ml-SOD模型预测，阻断T4/T5细胞突触输出的运动盲果蝇将无法检测独立运动的小物体。

3.2. 与仿生模型的比较

在已有的昆虫视觉启发模型中，只有级联的EMD-ESTMD模型涉及视觉运动。尽管该模型在形式上与ml-SOD的一个变体相似，但两者有本质不同。级联模型是不完整的，其方向选择性仅涉及四个基本方向之一，且不清楚其如何检测频繁改变方向的小物体。而ml-SOD模型及其变体首先捕获物体不分方向的视觉运动特征。ESTMD及基于ESTMD的模型通常需要结合额外的机制来产生垂直于小物体运动方向上的尺寸选择性。本研究则专注于开发和剖析一个最小模型。很少有昆虫启发模型被证明在真实世界小物体检测数据集上有效。相比之下，ml-SOD模型使用两个完整数据集进行了验证。另一类模型受人类视觉系统视网膜大细胞通路功能启发，使用时空调滤波器组提取运动强度，与深度学习网络协同工作。这与ml-SOD模型无需任何学习或训练即可独立检测小物体形成对比。

3.3. 研究的局限性

模型的主要缺点在于无法检测静态物体。因此，具有间歇性运动的小物体一旦停止运动就无法被检测，尽管在物体恢复运动后检测也会恢复。这是由于缺乏视觉运动，而这是ml-SOD模型的关键。未来可能通过为模型添加一个并行的追踪机制来克服此问题。任何物体在远处观看时都呈现为小目标。尽管本研究未涉及因深度变化导致的物体尺寸可变的检测问题，但推测需要一个包含多个并行模块的自适应模型。该模型应能根据输入场景，在正常物体检测模块和微小物体检测模块之间切换。总而言之，本研究开发了一个最小模型，以结合小运动物体所具有的两个特征：视觉运动和亮度。通过剖析模型对小于模型眼空间分辨率的微小物体的检测性能，证明了模型具备超敏锐物体检测能力。与现有仅依赖亮度特征的模型相比，即使在使用具有自然场景变化的全长真实世界视频序列测试时，该模型对运动背景干扰的抵抗力也更强。这些特性与运动检测器具有两个还是三个空间分离输入无关。

热点排行