《PLOS Biology》:BehaveAI enables rapid detection and classification of objects and behavior from motion
编辑推荐:
这篇综述介绍了一款生物启发式视频分析框架BehaveAI,它创新性地通过“颜色-运动”编码策略将静态与运动信息整合,将物体运动的方向、速度和加速度转化为彩色梯度,使得人类标注者和预训练卷积神经网络(CNN)都能直观解读运动模式。该框架显著提升了复杂自然场景中运动目标的检测鲁棒性,能可靠分类动物及单细胞生物行为,并采用分层模型结构优化检测与分类效率。结合半监督标注工作流,它能大幅降低标注所需工作量,仅需少量标注数据即可在常规计算机上快速训练出可靠模型,且计算轻量,支持在树莓派等低端边缘设备上实时运行,为生命科学及医学研究提供了高效、易用的开源工具。
引言
视频承载了丰富的时空信息,能记录物体在何处、做什么,这使其在科学研究及社会各领域变得不可或缺。尽管卷积神经网络(CNN)在静态图像分析中取得了革命性进展,但在复杂无约束场景中,高效、准确地量化运动信息以进行目标检测与分类,仍然是一个重大的计算挑战。现有工具大多将视频分析视为一系列独立的图像处理任务,忽视了运动这一关键线索。例如,伪装动物在静止时难以察觉,但一旦移动便极易被检测到。此外,许多行为分类任务严重依赖于运动模式,而现有的姿态估计工具虽能获取肢体运动时空数据,却难以直接解读行为,且通常需要复杂耗时的下游处理流程。
颜色-运动编码策略与框架结构
受哺乳动物视觉系统中腹侧流(处理形状、颜色、物体识别,即“是什么”)和背侧流(处理运动、空间关系,即“在哪里”和“如何做”)分离但整合处理的启发,BehaveAI框架提出了新颖的“颜色-运动”编码策略。该框架将视频输入分为并行的“静态”流和“运动”流进行处理。
- •
运动流编码:核心创新在于将物体的运动(方向、速度、加速度)转化为假彩色梯度。这不同于运动历史图像、轮廓形状变化或基于光流的运动学方法。该策略提供了随时间推移的颜色梯度信息,不同颜色代表不同的时间回溯,从而在单帧内就能呈现加速度和减速度的空间模式。这种方法计算量极轻,并将运动解读的任务转移给了预训练的CNN,同时保留了高分辨率的空间细节。框架提供两种主要的运动策略:
- 1.
指数模式:计算当前帧与之前帧的绝对差值,并经过指数平滑处理,在不同颜色通道中显示不同的时间范围。移动物体会产生白色的“差异”图像,并留下从白色到蓝色、绿色、红色的渐变拖尾。此模式能更好地传达单帧内的速度变化。
- 2.
序列模式:使用离散帧,用颜色编码前三帧的差异(白色、蓝色、绿色和红色分别代表回溯的时间),适合在短时间范围内分类运动,并能保留更多先前帧的空间信息(例如,飞行动物的特征翅膀形状会在所有四帧中保持可见)。
分类器结构与工作流程
- •
分类器:框架采用最新的YOLO11等深度学习架构,支持并行和分层处理。用户可以定义“主要”类别(在整个帧中搜索目标)和可选的“次要”类别(对主要检测器裁剪出的区域进行进一步分类,如确定性别)。这种结构允许根据任务需要,灵活地让运动流或静态流负责检测和分类,以优化效率。
- •
半监督标注:标注工具提供了用户友好的界面,支持初始手动标注和后续的半监督“自动标注”。用户先进行少量手动标注,训练初始模型后,模型可预测后续帧的标注,用户只需审核并修正错误即可。这种工作流结合运动信息显著性的提升,能极大减少标注所需的工作量。例如,草地蛾案例中,仅用61分钟标注548帧,就训练出高性能模型。
- •
个体追踪:使用卡尔曼滤波器对检测到的个体进行追踪,即使在路径交叉时也能保持身份,并输出每个个体的速度、航向等信息。
案例研究展示的框架优势
通过一系列具有挑战性的案例研究,BehaveAI框架证明了其在目标检测与行为分类方面的卓越性能:
- 1.
运动显著性提升检测鲁棒性:对于在复杂自然背景中难以察觉的目标,运动信息大幅提升了信噪比。
- •
草地蛾:这种蛾子在静态帧中几乎不可见且存在运动模糊,但在运动流中高度显著。基于运动的模型精确度和召回率分别达到0.966和0.969(验证推断98.3%正确),远优于静态模型的0.792和0.544。
- •
海蟑螂:这种等足类动物具有高度伪装性,静态时难以检测,移动时则变得显著。运动模型在检测移动个体时表现优异,但无法检测静止个体。
- 2.
直接基于运动模式进行行为分类:无需复杂的个体追踪或姿态估计,即可直接分类行为。
- •
精子运动:框架能够根据精子头部的运动轨迹,可靠地区分对称运动(导致快速直线运动)、不对称运动(导致缓慢绕圈探索运动)和弱运动(抖动、振动等)三种类型,精确度和召回率分别为0.793和0.801。这避免了在复杂、充满碎片的视频中对单个精子进行困难追踪的需要。
- •
旗语蝇:能够有效区分飞行、求爱展示和行走等行为,而这些行为在静态帧中可能完全相同(例如,“飞行”和“展示”在静态帧中看起来一样,但在运动中不同)。
- 3.
在静态帧相同的情况下分类行为:运动信息使得区分静态姿势相同但行为不同的个体成为可能。
- •
鸽子行为:一只静止的鸽子在静态帧中可能与正在理毛或行走的鸽子姿势完全相同,但运动信息能轻易将它们区分开。
- 4.
对低空间分辨率的高耐受性:运动模型在目标尺寸大幅缩小时仍能保持良好性能。草地蛾缩放测试表明,当目标平均尺寸小至4.3像素时,运动模型的精确度和召回率仍高于0.945和0.949,而静态模型性能则显著下降。
- 5.
高效计算与边缘部署:“颜色-运动”编码策略计算效率极高。框架可在树莓派5等低端设备上实现实时(9-11 fps)检测与分类,在无GPU加速的标准笔记本电脑上也能达到30-31 fps的处理速度,展示了其在嵌入式远程场景中的应用潜力。
讨论与未来方向
BehaveAI框架将创新的“颜色-运动”策略与前沿深度学习架构相结合,为基于运动的物体检测和行为分类提供了准确、灵活、易用且高效的计算方案。其主要优势在于:利用运动显著性,能够以更小的标注数据集达到可比或更优的性能;支持分层处理,优化任务流程;通过半监督标注大幅提升标注效率;计算轻量,支持边缘部署,降低了使用门槛和成本。
该框架目前专注于检测与分类,未来可探索集成分割、姿态估计和定向边界框标注等功能。此外,“颜色-运动”策略在机器人、自动驾驶等机器视觉领域量化物体加减速的应用潜力也值得探索。BehaveAI作为一个免费开源软件包发布,其灵活的结构也便于集成未来的深度学习新进展。