综述：用于从卫星、航空和水下图像中检测海洋脊椎动物和无脊椎动物的深度学习方法：综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Deep Sea Research Part I: Oceanographic Research Papers》：Deep Learning Methods for detecting marine vertebrates and invertebrates from satellite, aerial, and underwater imagery: A review

【字体：大中小】 时间：2026年03月17日 来源：Deep Sea Research Part I: Oceanographic Research Papers 2.3

编辑推荐：

　　海洋动物检测的深度学习方法综述：分析卫星、UAV和AUV数据源下CNN等模型的应用局限与改进方向，提出数据集标准化需求及Transformer等新兴技术潜力。

阿瑟·贝纳德（Arthur Benard）|埃韦尔·尼库埃·阿马萨（Hervé Nikue Amassah）|纪尧姆·费伊洛莱（Guillaume Feuilloley）

Sogeti公司，隶属于Capgemini集团，地址：法国伊西-莱-穆利诺（Issy-les-Moulineaux），邮编92130

摘要

海洋动物的遥感技术在海洋保护和生态学研究中具有极其重要的意义，因为它能够自动收集大量数据。然而，专家们对这类数据的手动分析耗时较长。与人类相比，深度学习模型能够在更短的时间内处理大量的视觉数据，并且能够克服人类观察者中常见的检测偏差问题。某些模型，如卷积神经网络（Convolutional Neural Networks，CNN），已经在某些视觉任务（包括图像分类和物体检测）上超越了人类的能力。然而，对于非专家来说，选择适合现有数据类型的模型、技术和预处理方法可能是一项复杂的任务，而这些选择会显著影响结果的质量和可靠性。在这项研究中，我们对用于检测海洋动物的各种深度学习方法和技术进行了系统性的回顾，讨论了每种方法的优点和局限性，以帮助研究人员为其特定任务选择最合适的方法。我们还整理了可用于海洋动物检测和监测的数据集，并提出了相关挑战及潜在的解决方案。最后，我们探讨了旨在提高海洋动物检测效果的新研究方向和有前景的方法。在本研究中，海洋动物被定义为可以通过卫星、航空（无人机，UAV）和水下图像及视频数据检测或分析的海洋脊椎动物和无脊椎动物。

引言

海洋动物的检测、计数和监测在海洋保护和生态学研究中具有重要意义（Pettorelli等人，2014年）。这些活动使我们能够收集关于动物种群、分布、行为和健康状况的重要信息，这对于制定短期、中期和长期的资源管理和环境保护决策至关重要（Bauer等人，2015年；Martin等人，2016年）。监测海洋动物还可以帮助我们发现种群的趋势和变化，从而成为海洋生态系统生态干扰或健康问题的早期指标（Martin等人，2016年）。这使我们能够更好地理解海洋生态系统，评估人类活动的影响，识别敏感区域、关键栖息地和迁徙走廊，从而有助于实施适当的保护措施（Lehtiniemi等人，2015年；Maxwell等人，2014年；Fleishman等人，2016年）。

航空调查是评估海洋大型动物（marine megafauna）的常用方法（Pollock等人，2006年；Koski等人，2009年）。例如，通过机上观察员进行的航空调查已被用于监测儒艮和海龟（Sobtzick等人，2017年）、软骨鱼类（例如Kiszka等人（2018年的综述）以及鲸类（例如Hammond等人，2017年）等物种的种群。然而，这种方法也存在一些局限性，例如（1）操作阶段需要高水平的专业知识（即经验丰富的飞行员和观察员）；（2）运行成本较高，这在许多情况下限制了调查的进行，也不允许对该区域进行高强度或重复的调查（Cleguer等人，2021年）。

诸如无人机（UAV）、飞机上的摄像头或极高分辨率（VHR）卫星等遥感方法使我们能够在不需要科学家现场参与的情况下收集大量数据。使用无人机可以克服航空调查的一些局限性，因为（1）小型无人机在数据收集阶段所需的专业知识相对较低；（2）无人机运营成本较低，且飞行参数的精确度较高，使得可以在以前未调查过的区域进行调查，同时以较低的成本进行密集和重复的调查（Cleguer等人，2021年）。至于VHR卫星，它们在难以到达的位置获取数据方面具有巨大潜力，但目前的成本仍然很高（Guirado等人，2019年）。

水下监测也被用来研究和了解海洋生态系统。最近，遥控潜水器（ROV）和自主水下航行器（AUV）等遥感方法已成为水下搜索和探索的有吸引力的替代方案，因为它们比有人驾驶的船只更便宜，且能够到达人类无法到达的深度（Rajesh等人，2023年）。与需要人类干预和控制的ROV不同，AUV是自主导航的，能够以极高的精度执行预编程的任务。这些水下无人机配备了大量的先进传感器、摄像头和科学仪器，能够收集大量数据，并以无与伦比的准确性捕捉海底的高分辨率图像（Rajesh等人，2023年）。图1总结了与沿海和海洋环境相关的主要活动以及用于评估这些环境的遥感技术。然而，由检查员手动审查来自卫星、无人机和AUV的遥感图像既昂贵又耗时（Linchant等人，2015年；Smyser等人，2016年；LaRue等人，2022年；Lee等人，2021年）。手动分析还面临一些固有的挑战，如高昂的成本、易出错性以及图像标注所需的大量资源和时间。

得益于技术进步，深度学习模型能够比人类更快地处理大量视觉数据，并且不受重复任务疲劳的影响（Desgarnier等人，2022年）。这些模型还能减少人类观察者中常见的检测偏差（Boulent等人，2023年）。正如Guirado等人（2019年）所指出的，深度学习技术，特别是卷积神经网络（CNN），在图像分类和物体检测等任务上已经超越了人类的表现。这证明了深度学习在海洋生物检测和监测方面的有效性。CNN已被应用于海洋科学中的多项任务，如鱼类物种识别（Lu等人，2020年）、渔业监测（French等人，2020年）以及自然死亡率的估算（Liu等人，2020b）。关于海洋动物检测的遥感和数据分析的文献综述数量有限。现有的综述主要关注特定的数据来源，如水下图像（Er等人，2023a；Moniruzzaman等人，2017年；Vichael A.和Sweny，2023年）或卫星图像（Xu等人，2024年；Dujon等人，2021b；Berg等人，2022年），但没有一篇综述全面涵盖了所有潜在的数据来源及其相应的处理方法。最近出现的方法，如变换器（transformers）和基于视频的模型，其贡献往往被忽视。

本综述旨在通过深入分析用于自动检测海洋动物的深度学习方法来填补这些空白。具体而言，本研究试图回答以下研究问题：1. 在不同的数据或图像来源中，最常用的检测海洋动物的深度学习方法有哪些？2. 有哪些方法可用于视频数据中的海洋动物检测？3. 在将深度学习技术应用于海洋动物检测时会出现哪些挑战，以及有哪些潜在的解决方案？4. 使用深度学习进行海洋动物检测的未来研究方向有哪些？

方法论

在这项综述中，我们遵循了PRISMA指南（Page等人，2021年）。我们找到了50多篇与海洋动物自动检测相关的文章。为了查找这些文章，我们使用了Google Scholar、ArXiv和SCOPUS等搜索引擎。下表展示了我们构建查询的方式。每个列的每一行都与其他列的每一行进行了组合。例如：“Classification UAV Whale”。

深度学习方法概述

深度学习（Deep Learning，DL）是机器学习和人工智能的一个子领域，它使计算机能够通过模仿人类认知的某些方面来从大型数据集中学习（Trigka和Dritsas，2025年）。深度学习能够自动从数据中提取复杂的模式和特征，使其成为许多图像分析领域的强大工具，包括图像分类（Wu等人，2018年）、物体检测（Zou等人，2023年）、分割（Wu等人，2018年）和模式识别（Murty和Devi，

海洋动物检测数据集

通过图像和视频监测和研究海洋动物需要高质量的数据集，这些数据集能够准确捕捉物种多样性、环境变化和成像条件。在过去十年中，已经开发了许多用于检测、分类和分割海洋物种的数据集，这些数据集通常使用航空、水下或无人机图像。这些数据集在物种覆盖范围、数据类型、注释类型和规模方面存在差异。

评估指标

评估海洋动物检测的深度学习模型依赖于计算机视觉中广泛使用的标准指标，包括精确度（precision）、召回率（recall）、平均精确度（mean average precision，mAP）、F1分数（F1 score）、Dice分数，以及效率指标，如每秒帧数（FPS）和浮点运算次数（FLOPs）。这些指标的详细数学定义见附录。

在基于检测的应用中，精确度和召回率常用于评估错误之间的权衡

数据可用性和基准测试的局限性

本综述中发现的一个最关键的局限性是缺乏大型、多样化且公开可用的海洋动物检测数据集。大多数现有研究依赖于专有数据集或本地收集的数据集，这严重限制了研究的可重复性，并阻碍了方法之间的客观比较。因此，不同研究中报告的性能改进往往难以进行一致性的评估。建立开放、标准化的基准数据集将有助于

结论

本综述介绍了基于图像方法的海洋动物检测领域的最新进展。基于CNN的深度学习模型在该领域占据主导地位，YOLO和Faster R-CNN是最常用的检测架构，而ResNet则作为主要的框架。未来的改进可以利用视觉语言模型（VLMs）、视觉变换器（vision transformers）、实例分割技术或集成学习来克服当前模型的局限性。

数据增强和转换

CRediT作者贡献声明

阿瑟·贝纳德（Arthur Benard）：撰写——初稿、资源整理、方法论设计、研究实施、概念构思。埃韦尔·尼库埃·阿马萨（Hervé Nikue Amassah）：撰写——审稿与编辑、初稿撰写、验证、方法论设计、研究实施。纪尧姆·费伊洛莱（Guillaume Feuilloley）：撰写——审稿与编辑、初稿撰写、验证、监督工作、形式化分析、概念构思。

利益冲突声明

作者声明他们没有已知的财务利益冲突或个人关系可能影响本文的研究工作。

致谢

作者感谢Fotouhi博士对手稿提供的有益建议和校对工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号