水产养殖中，双分支互学习方法用于多模态到单模态鱼类摄食强度的识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biosystems Engineering》：Dual-branch mutual learning for multi-modal to single-modal fish feeding intensity recognition in aquaculture

【字体：大中小】 时间：2026年05月10日 来源：Biosystems Engineering 5.3

编辑推荐：

　　孟翠|赵金正|梅新豪|李大亮|曾丽华萨里大学视觉、语音与信号处理中心（CVSSP），英国吉尔福德，GU2 7XH **摘要** 鱼类摄食强度识别（FFIR）对于优化水产养殖管理至关重要，直接影响饲料效率和生产的可持续性。以往基于视觉的方法在受控环境中显示出良好的效

　　孟翠|赵金正|梅新豪|李大亮|曾丽华
萨里大学视觉、语音与信号处理中心（CVSSP），英国吉尔福德，GU2 7XH

**摘要**
鱼类摄食强度识别（FFIR）对于优化水产养殖管理至关重要，直接影响饲料效率和生产的可持续性。以往基于视觉的方法在受控环境中显示出良好的效果，但在实际的水产养殖环境中面临挑战，包括水质浑浊、光照变化和表面反射等问题。基于声学的方法因其非侵入性、成本效益以及在视觉系统失效的浑浊条件下的稳健性而提供了有吸引力的替代方案。然而，基于音频的方法通常由于缺乏空间行为模式和视觉摄食线索而表现不佳。尽管跨模态知识蒸馏可以将视觉知识转移到声学模型中，但它减少了对在浑浊水产养殖环境中性能下降的基于摄像机的系统的依赖。然而，现有的方法存在单向知识转移和单分支架构的问题，这导致了声学特定学习和跨模态学习目标之间的冲突。为了解决这些挑战，我们提出了AquaMutual，一个跨模态知识蒸馏框架，能够在多模态教师网络和仅基于音频的学生网络之间实现双向学习，特别设计以满足商业水产养殖设施的稳健性和低维护要求。AquaMutual采用双分支策略，将学生网络分为专门处理音频的分支和模拟视觉的分支，并通过多样化损失连接起来以最小化特征干扰。此外，我们引入了Feed-Light Attention（FiLA），这是一种轻量级的跨注意力机制，适用于资源受限的生产环境中的边缘计算部署。实验结果显示，mAP达到了92.4%，准确率为90.7%，分别比基线方法提高了9.8%和10.2%，将音视频性能差距从11.8%减少到1.6%。在多个具有商业价值的物种上的实际验证证实了其在典型生产条件下的稳健泛化能力，包括水质浑浊、充氧噪声和高 stocking density。仅基于音频的性能与视觉方法相当或超过视觉方法，使AquaMutual成为密集型水产养殖系统中自动化喂养管理的实用且低维护的传感解决方案。

**引言**
鱼类摄食强度识别（FFIR）对于优化水产养殖管理至关重要，直接影响饲料效率和生产的可持续性（Li等人，2020年）。FFIR系统自动监测鱼类的摄食行为和食欲水平，以确定最佳的喂养时间和数量，取代了传统的手动观察方法，后者既费力又主观（An等人，2021年；Zhou等人，2018年）。随着全球水产养殖生产的扩张，饲料成本占运营成本的高达60%，准确的喂养行为监测使农民能够优化饲料转化率并改善鱼类福利（Assan等人，2021年）。此外，有效的喂养管理减少了排放到生态系统中的过剩营养物质，支持环境可持续性和产业发展（Cui等人，2025年；Cui等人，2025年；Cui等人，2025年；Wu等人，2026年）。计算机视觉技术彻底改变了鱼类摄食强度识别，通过图像处理和深度学习技术实现了鱼类行为的自动化分析（Barbedo，2022年；Cui，2025年）。早期的基于视觉的系统利用运动检测和背景减除来识别摄食活动，Zhou等人（2019年）率先使用卷积神经网络在受控实验室条件下实现了90%的摄食状态识别准确率。后续研究通过架构创新展示了显著的性能提升。Dong等人（2024年）开发了一个集成的三流网络模型，结合了时间、空间和统计特征，实现了99.3%的珠斑石斑鱼摄食强度区分准确率。Yang等人（2021年）提出了基于EfficientNet-B2的双注意力网络，用于短期鱼群摄食行为分析，展示了捕捉感兴趣区域之间空间关系的改进。先进的深度学习架构进一步增强了识别能力。Hu等人（2025年）提出了一个鱼类摄食行为识别模型DCA-MVIT，具有增强的特征提取能力，并实现了97.76%的识别准确率。Zhang等人（2025年）开发了一个MFE-MobileViTv3模型，仅使用0.96M参数就实现了96.7%的鱼类摄食行为识别准确率，使其适用于通过集成频率通道注意力和多头自注意力机制在移动和边缘设备上的部署。Hu等人（2021年）使用深度学习和低成本设备开发了适用于混合混养环境的实时非破坏性鱼类行为检测系统，而Wang等人（2021年）则通过基于双流3D卷积神经网络融合RGB和光流数据实现了鱼类行为的自动识别。尽管取得了这些成就，但由于水质浑浊、光照条件变化和表面反射以及高昂的维护成本，基于视觉的方法在商业水产养殖环境中的部署面临重大挑战（Aung等人，2025年）。基于声学的监测作为视觉系统的有效替代方案出现，因为它不受光照条件和反射干扰的影响（Cui等人，2025年）。最近在声学鱼类监测方面的发展通过先进的信号处理和机器学习技术在摄食行为识别方面取得了进展。Cui等人（2022年）通过引入包含超过3000个标记音频剪辑的AFFIA3K数据集奠定了基于声学研究的基础，并开发了专门的深度学习算法用于鱼类摄食强度评估。Du等人（2023年）通过结合梅尔频谱图和深度学习算法的创新方法推动了该领域的发展，在受控水产养殖环境中实现了摄食强度评估的显著改进。他们的方法成功证明，鱼类摄食活动产生的特征性声学信号（如溅水声、气泡形成和水位位移）可以通过信号处理技术有效捕获和分析。先进的机器学习架构进一步增强了声学识别能力。Zeng等人（2023年）使用声学信号和改进的Swin Transformer架构开发了鱼群摄食行为量化系统，展示了基于注意力的机制在捕录摄食声音中的时间模式识别潜力。Yang等人（2024年）探索了音视频多模态交互融合网络，揭示了声学特征如何补充视觉分析的重要性，并强调了声学信息在全面行为识别中的互补性。尽管取得了这些进展，仅基于音频的方法与基于视觉的方法相比在性能上存在根本性限制。音频信号本质上缺乏丰富的空间行为模式和视觉摄食线索，这些对于准确的强度评估至关重要（Cui等人，2024年）。关于鱼类空间分布、运动动态和摄食姿势的信息缺失限制了声学方法进行细致行为分析的区分能力。当前的基于声学的系统通常比基于视觉的方法准确率低，这限制了它们在商业水产养殖操作中的实际应用（Cui等人，2025年）。跨模态知识蒸馏通过在校训期间将丰富的视觉知识转移到声学模型中，同时保持仅基于音频的推理优势，为 bridging 声学和视觉模式之间的性能差距提供了一个有前景的解决方案（Kwak等人，2025年）。最近的进步通过在不同领域中的知识转移机制展示了改进，使声学学生在不需要视觉传感器的情况下实现了接近基于视觉的方法的性能。然而，现有的跨模态蒸馏方法存在根本性限制。传统的教师-学生范式采用单向知识转移，知识从视觉教师单向流向声学学生，未能利用双向学习的潜力（Moslemi等人，Briskina等人，Dang等人，Li等人，2024年）。Lee等人（2023年）和Ahmad等人（2024年）表明，当网络必须同时保留模态特定的声学特征并模拟跨模态视觉表示时，单分支学生架构会导致学习目标的冲突，从而导致特征干扰和性能不佳。最近的工作探索了互学习框架作为传统不对称蒸馏的替代方案，使网络能够通过双向知识交换同时从彼此那里学习（Su等人，2024年）。双分支架构也作为解决特征冲突的方案出现，其中专门的分支独立处理不同的学习目标。然而，尽管在其他领域取得了这些进步，但互学习和双分支架构在水产养殖监测中的应用仍然大部分未得到探索。Cui等人（2025年）展示了分解式跨模态蒸馏在声学鱼类摄食识别中的有效性，通过静态-动态分支分离实现了改进，但采用了单向知识转移，限制了协作学习的全部潜力。据我们所知，尚无现有工作系统地应用双向跨模态知识蒸馏来专门用于声学-视觉鱼类摄食强度识别，这代表了水产养殖AI社区中的一个研究空白。尽管音视频多模态方法可以实现更高的绝对准确率，但它们在推理过程中需要视觉传感器，这在商业水产养殖中面临水质浑浊、光照变化和高昂维护成本的挑战。因此，这项工作的主要目标不是在绝对性能上超越多模态方法，而是在保持仅基于音频系统的实际部署优势的同时，缩小仅基于音频和音视频方法之间的性能差距。总之，现有方法面临三个关键挑战：（1）单向知识转移限制了协作学习潜力；（2）单分支架构导致声学和视觉学习目标之间的特征冲突；（3）二次注意力复杂性阻碍了实时部署。为了解决这些挑战，我们提出了AquaMutual，一个为商业水产养殖设施中的稳健、低维护声学监测设计的跨模态知识蒸馏框架。该框架在校训期间将视觉行为知识转移到声学模型中，推理期间仅需要水听器输入。它结合了教师和学生网络之间的双向互学习，双分支架构将专门处理音频的分支和模拟视觉的分支分开，以及FiLA（Feed-Light Attention），这是一种适用于边缘计算部署的轻量级融合机制。在受控和商业水产养殖环境中的全面实验验证了其在多个物种和生产条件下的实际适用性。

**问题表述**
核心工程目标是仅使用声学传感实现视觉级别的摄食强度识别，从而在基于摄像机的系统不可靠的商业水产养殖设施中实现稳健、低维护的部署。让我们将输入视频表示为Xv∈RTv×H×W×3，将其对应的转换为梅尔频谱图的音频信号表示为Xa∈RTa×F，其中Tv和Ta分别代表视频和音频的时间维度，H和W是视频的空间维度。

**数据采集和实验系统**
数据采集在中国山东省烟台市的一个循环水产养殖系统中进行，目标物种是Oplegnathus punctatus。实验设置包括一个直径为3米、深度为0.75米的圆形养殖池，其中养有40-100条平均体重约为150克的鱼。水质参数被严格控制以确保自然摄食行为：温度稳定在26±1°C，溶解氧...

**联合教师-学生训练**
训练数据集包含13,421对音频-视频对（80%），其中2800个样本用于验证（10%），2800个样本用于测试（10%）。对于视频处理，我们从每个2秒的片段中随机抽取16帧以保留时间摄食动态。音频输入是覆盖全部时间范围的64个梅尔频率bin的梅尔频谱图。协作优化持续进行，直到两个网络收敛，教师网络通常在20个周期后达到稳定性能。

**总体性能比较**
我们全面评估了AquaMutual与不同模态范式下的最先进方法在鱼类摄食强度识别数据集上的表现。我们的比较包括基于视觉的方法，如S3D（Xie等人，2018年）、I3D（Yang等人，2025年）、3D-ResNet18（Al-Khater和Al-Madeed，2024年）和3D-ViT（Zhang等人，2024年），以及仅基于音频的基线方法，如U-FFIA（Cui等人，2024年）、MFFFI（Du等人，2024年）和MMFINet（Gu等人，2025年）。

**讨论**
缩小声学和视觉摄食强度识别之间的性能差距是在商业水产养殖设施中采用低维护水听器监测的核心工程挑战。改进的摄食强度识别直接支持优化饲料投放，减少饲料浪费并提高密集型水产养殖系统的饲料转化率。AquaMutual将这一差距从11.8%减少到1.6%，证明了声学传感作为可行替代方案的可行性。

**结论**
在本文中，我们介绍了AquaMutual，一个跨模态知识蒸馏框架，旨在通过在训练期间转移视觉知识并在推理期间仅需要音频输入来增强仅基于音频的鱼类摄食强度识别。我们的方法采用双分支架构，将音频特征分为专门处理音频的分支和模拟视觉的分支，FiLA用于高效的跨模态融合，以及双向互学习以实现互惠...

**作者贡献声明**
孟翠：撰写——审稿与编辑、撰写——原始草稿、可视化、方法学、调查、正式分析、数据管理。
赵金正：撰写——审稿与编辑、验证、正式分析。
梅新豪：撰写——审稿与编辑、可视化、方法学。
李大亮：撰写——原始草稿、监督、方法学、正式分析。曾丽华：负责写作、审稿与编辑工作；数据验证、项目监督及管理；研究方法设计；以及资金筹措。

关于利益冲突的声明：作者声明不存在任何可能影响本文研究结果的已知财务利益冲突或个人关系。

致谢：本研究得到了中国国家重点技术研发计划（2023YFD2400600）、国家自然科学基金项目“异步生命周期条件下工业鱼菜共生系统中氮的动态调控机制”（项目编号32373186）以及中国留学基金委员会提供的研究奖学金（项目编号202006350248）的支持。

联系信箱：

粤ICP备09063491号

热点排行