《Computers and Electronics in Agriculture》:Real-time frame-level fish feeding behavior detection using a lightweight CNN-TCN architecture
编辑推荐:
高效实时鱼类投喂行为检测模型研究:提出CNN-TCN架构结合三阶段投喂schema,在保持99%以上准确率的同时实现1029帧/秒处理速度,验证灰度输入有效性并降低光流依赖。
邵宗尧|李大鹏|马旭发|Abdulkadir Bay?r|Joachim Loo|王春芳
武汉大学遥感与信息工程学院,中国湖北武汉430079
摘要
水产养殖,特别是鱼类养殖,是一个对全球粮食安全至关重要的快速发展的行业,其中高效的喂养管理对于经济和环境的可持续性至关重要。实时监测鱼的喂养行为可以实现智能喂养控制,从而减少浪费并优化生长。在这里,我们提出了基于帧级的模型,通过将卷积神经网络(CNN)与时间卷积网络(TCN)结合来自视频数据的方法来实现实时鱼喂养行为的检测。CNN从每个视频帧中提取空间特征,而TCN通过堆叠的扩张因果残差块聚合时间依赖性,从而能够可靠地识别随时间变化的喂养行为。这些模型使用灰度和/或光流帧作为输入,与基线CNN模型和CNN/MobileNet + GRU模型进行了评估。结果表明,灰度CNN-TCN模型取得了最佳性能,准确率、精确度、召回率、F1分数和ROC-AUC均超过了0.99,同时保持了实时推理能力,达到每秒1029帧的速度和平均7.77毫秒的延迟,并且计算开销适中。此外,仅使用灰度帧输入就足以捕捉鱼的喂养行为,这表明常用的光流可能是CNN-TCN的多余输入。为了使模型训练和推理保持同步,我们提出了一个包括喂食前阶段(B)、喂食后阶段(A)和后续推理阶段(S)的三阶段喂养方案。B-A-S方案允许自动样本标记,并为循环水产养殖系统中的实时和智能喂养控制提供了基础。研究结果表明,所提出的灰度CNN-TCN模型结合B-A-S喂养方案,提供了一种有效且计算效率高的方法,用于细粒度鱼喂养行为的检测,支持实时模型训练和推理,从而增强了水产养殖系统中智能喂养控制的工具箱。
引言
水产养殖已成为全球粮食安全越来越关键的领域,鱼类养殖是增长最快的行业之一(Verdegem等人,2023年)。在水产养殖行业中,喂养管理被广泛认为是影响经济效率和环境可持续性的关键因素(Zhang等人,2025年;Zhou等人,2019年)。先前的研究报告指出,鱼饲料本身可能占总生产成本的70%,这突显了节约饲料实践的重要性(Ansari等人,2021年;Magondu等人,2025年)。此外,过度喂养会导致饲料浪费、运营成本增加以及由于未食用的残留物造成的水污染,而喂养不足则会限制鱼的生长并降低总体产量(Ansari等人,2021年;Zhang等人,2023a)。传统的喂养方法主要依赖于人工观察,这种方法本质上是主观的、劳动密集型的,不适合大规模操作(El Shal等人,2021年)。因此,开发用于监测鱼喂养行为并根据实际需求投放饲料的自动化系统(通常称为智能喂养)已成为研究人员和行业实践者的优先事项。循环水产养殖系统(RAS)的最新进展提供了改进的基础设施,以创造更可控的高密度养殖环境(Du等人,2023年;Wang等人,2022年;Zhao等人,2016年)。在RAS中,可以部署在线视频监控来监测鱼的喂养状态,从而实现实时和智能的喂养器操作指导。
从视频中提取自动喂养行为算法的发展已成为一个重要的研究焦点,旨在使喂养器能够响应鱼的实际喂养需求,从而提高运营效率和环境可持续性(Adegboye等人,2020年;Hu等人,2022年)。在这方面,传统上用于渔业安全监控的摄像头越来越多地被用来分析鱼的行为和检测喂养活动,这得益于计算机视觉技术的进步(Li等人,2020年;Zhang等人,2022年)。早期的研究依赖于手工制作的视觉特征,如图像纹理和帧间差异来量化鱼的喂养强度或食欲,但这些方法往往对光照变化和环境噪声敏感,导致泛化能力有限(Chen等人,2017年;Gao等人,2025年;Zhou等人,2019年)。随着人工智能的发展,特别是深度学习在视频分析中的应用,各种模型已被应用于鱼喂养行为的识别。这些应用采用了卷积神经网络(CNN)(Dong等人,2024年;Feng等人,2024年)、三维CNN(3D CNN)(Feng等人,2022年;Ubina等人,2021年;Wang,2023年)、YOLO系列(Feng等人,2025年;Zhao等人,2022年)、循环神经网络(RNN,例如门控循环单元或GRU)(Son和Jeong,2024年)以及Transformer架构(Iqbal等人,2025年)来捕捉鱼行为中的空间和/或时间模式。
尽管有这些鱼喂养强度模型的应用,实时智能喂养控制仍受到多种挑战的阻碍,包括喂养强度检测准确性不足、计算复杂性高以及对大型训练数据集的依赖。基于CNN的方法从图像中学习区分性空间特征,与传统基于特征的方法相比,能够以更高的准确性和鲁棒性进行喂养强度分级,但通常缺乏显式的时间信息(Huang等人,2022年;Zakaria等人,2023年;Zhou等人,2019年)。基于Splash的深度学习方法已被提出来减轻表面反射和背景干扰的影响;然而,它们的性能高度依赖于优化器的选择和超参数调整,这需要广泛的测试和专家经验(Wu等人,2024年),从而限制了它们在实时喂养控制场景中的可转移性。多模态方法在噪声条件下显示出更高的鲁棒性,但代价是系统复杂性和计算开销的增加(Cui等人,2025年)。正如先前的研究所指出的,鱼的喂养行为本质上是短暂且依赖于上下文的,需要能够区分连续帧之间的微妙运动的模型(M?l?y等人,2019年;Wang等人,2023年;Zhao等人,2016年)。因此,越来越多的研究试图通过基于RNN的架构整合时间特征。然而,传统的基于RNN的方法,如LSTM和GRU,缺乏并行计算能力,并且计算要求高(Son和Jeong,2024年)。最后,Transformer架构需要大型数据集进行训练和精确的时间对齐,这在RAS环境中的实际部署中提出了挑战(Sha和Li,2022年;Zeng等人,2023年)。
为了解决这些挑战,本研究提出了一种结合CNN和因果时间卷积网络(TCN)的架构,用于帧级鱼喂养识别。CNN作为骨干从视频帧中提取空间特征,而TCN层使用扩张的因果时间卷积来明确捕获时间依赖性,保持计算效率并防止信息从未来帧中泄露。与LSTM或GRU等RNN不同,TCN能够在保持建模长距离依赖性的同时实现并行训练。与基于Transformer的模型相比,CNN-TCN更加紧凑,可训练参数显著较少,可能适用于资源受限条件下需要实时检测鱼喂养行为的水产养殖环境。据我们所知,CNN-TCN架构尚未应用于帧级鱼喂养行为的检测。本工作的关键贡献包括:
•我们提出了一种轻量级的CNN-TCN架构,它可以同时捕获空间和时间特征,用于帧级鱼喂养行为的检测。该架构与传统的CNN和基于GRU的时间模型进行了比较,无论是预测准确性还是计算效率方面,CNN-TCN模型都表现最佳,同时保持的计算成本与其他模型相当甚至更低。因此,所提出的CNN-TCN架构为智能喂养控制提供了坚实的基础。
•我们引入了一个三阶段喂养方案,包括喂食前阶段(B)、喂食后阶段(A)和后续推理阶段(S),以实现自动样本标记并支持实时模型训练和推理。喂养方案的引入为实时鱼喂养检测提供了一种结构化的方法,无需手动样本标记。
•我们研究了当TCN作为瓶颈层时,结合光流对模型性能的影响。与大多数强调光流重要性的先前研究相反,我们发现当包含TCN模块时,光流并不是必需的。
•并行CNN-TCN架构被证明可以实际用于实时检测鱼喂养行为,支持水产养殖中的智能喂养管理。
我们首先概述了一个将因果时间逻辑整合到鱼喂养行为识别中的CNN-TCN架构。然后,我们与一些基线CNN和CNN/MobileNet + GRU模型进行了比较评估,突出了不同时间建模策略的优势和劣势。最后,我们通过帧级喂养行为的检测展示了CNN-TCN模型的有效性,表明它们支持使用所提出的时间配置B-A-S进行实时训练和智能喂养控制。我们得出结论,这些发现推进了自动化喂养监控的发展,并为在水产养殖中实际部署智能喂养系统奠定了基础。
实验设置
实验在华中农业大学的智能水产养殖实验室进行,采用循环水产养殖系统(RAS)条件,实验对象是大型口黑鲈(Micropterus salmoides)。每个生产单元由一个直径0.8米、深度0.6米的池塘组成,养有41条鱼(平均体重33克,平均长度10厘米),这些鱼喂食了实验性的大型口黑鲈饲料。饲料是浮动的类型,直径为2-4毫米,颜色为深棕色。水温为
使用CNN-TCN和比较模型进行鱼喂养识别
建模时间依赖性的需求可能源于惯性和偶尔的干扰,这可能导致鱼在喂养阶段(阶段A)和非喂养阶段(阶段B)表现出意外的行为。例如,即使在没有喂食的情况下,鱼也可能由于突然的外部刺激而表现出聚集行为。相反,鱼在喂养过程中偶尔会暂停或保持不活跃,导致尽管仍然饥饿但聚集程度较低
从生物学角度看待喂养行为
喂养行为是由潜在的生物学机制驱动的。在饥饿期间,食欲促进激素(如神经肽Y(NPY)的水平会增加,从而产生强烈的进食冲动并促进积极的觅食行为(Assan等人,2021年;Volkoff和R?nnestad,2020年)。相反,在饱腹后,食欲抑制激素(包括胆囊收缩素(CCK)和肽YY(PYY)的水平会上升,抑制食欲并减少食物摄入(Batterham等人,2006年;Moris等人,2022年)。
结论
智能喂养控制是水产养殖中的一个关键目标,因为饲料约占总运营成本的70%。准确检测喂养行为是实现这一目标的第一步,特别是在提供自动化喂养管理所需灵活基础设施的循环水产养殖系统(RAS)中。当前研究使用视频流中的基于帧的鱼喂养检测,并强调了几个关键发现:
•一种混合
CRediT作者贡献声明
邵宗尧:软件、方法论、调查、形式分析、数据整理。李大鹏:写作——审稿与编辑、方法论、调查、形式分析。马旭发:写作——审稿与编辑、软件、资源获取。Abdulkadir Bay?r:写作——审稿与编辑、调查。Joachim Loo:写作——审稿与编辑、概念化。王春芳:写作——初稿撰写、验证、项目管理、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本研究由中国国家重点研发计划资助,项目编号为2024YFE0112200。