《Remote Sensing in Ecology and Conservation》:Semi-automated seal detection on the Western Antarctic Peninsula: an unsupervised machine learning approach for detecting ice seals in aerial survey data
编辑推荐:
这篇综述中心思想是:针对西南极半岛(WAP)海冰急剧变化背景下冰封海豹种群监测的挑战,作者团队开发了一种基于规则的无监督机器学习半自动图像分析流程。该方法利用分层聚类和视觉先验知识,通过仅两个可调参数实现海豹检测,在测试集中召回率达到79%±9.1%,并将人工标注工作量减少约94%。该研究为在数据极度不平衡(目标占比<1%)和深度学习面临训练数据稀缺、模型不透明等限制的极地生态遥感监测中,提供了一种高效、可解释的替代方案,是推动大规模、标准化监测以制定关键物种保护策略的重要一步。
研究背景:快速变化的极地环境与监测挑战
过去25年间,西南极半岛(WAP)经历了海冰范围的剧烈变化。自2014年南极海冰范围达到峰值后,后续年份出现了显著的非线性下降,这与远超全球平均的大气变暖同步发生。这些变化导致了海面温度上升、季节性海冰厚度减小、持续时间缩短以及冰川变薄等一系列物理环境剧变,进而引发了生物响应,包括磷虾生物量向南重新分布,以及企鹅和海豹等冰依赖物种适宜栖息地(特别是浮冰)的显著减少。
在WAP的冰依赖海豹物种中,食蟹海豹(Lobodon carcinophaga)是数量最丰富的,其种群估计超过180万,是南极磷虾最重要的有氧消费者之一和关键指示物种。然而,由于它们常年栖息在难以采样的浮冰中,不聚集繁殖,也无固定的登陆点,数据收集极具挑战性。因此,我们对其种群的了解是粗略且过时的,而近年来WAP冰况的快速变化使得这一问题更加突出。
种群指标对于验证理论模型、进而指导管理和保护策略至关重要。遥感技术克服了船舶调查浮冰物种的许多传统困难,但产生了海量数据,手动处理不切实际。尽管深度学习(如卷积神经网络CNN)已被用于检测野生动物,但其存在缺乏透明度、可解释性,且需要大量特定于调查环境的标记训练数据,在生态学领域的应用受到限制。此外,对浮冰海豹的航空调查面临一个特别棘手的属性:目标(海豹)在广阔背景中的极度稀疏性。在浮冰环境中,个体所占面积通常小于调查区域的1%,这构成了一个极度不平衡的分类问题,已知会偏向多数类(背景)的预测性能,并同样会降低人工标注者的注意力和精度。
材料与方法:半自动化、基于规则的检测流程
为应对数据稀疏性、类别不平衡以及深度学习和人工标注的局限性,本研究采用了一种简约的方法来分析2023年在水晶峡和玛格丽特湾上空飞行的航空调查数据。我们提出了一种半自动化、基于规则的图像分析流程,利用无监督机器学习(分层聚类)和极少的参数调优来显著减少人工标注负担。
数据收集:2023年11月中旬繁殖季末期,使用英国南极调查局运营的双水獭飞机进行了专项调查。数据使用Phase One iXU 150中画幅航空相机(RGB三波段)采集,目标飞行高度500米,地面采样距离(GSD) 4.5厘米。在水晶峡和玛格丽特湾共飞行了1041.6公里。图像经过正射校正和地理配准。
海豹检测流程:该方法利用海豹大小、形状和颜色的视觉领域先验知识来指导无监督检测。模型仅有两个可调参数:(i) RGB图像蓝色通道的暗度阈值;(ii) HSV分解中饱和度通道的阈值。该流程的主要阶段包括数据预处理、轮廓提取、HSV转换、过滤和聚类。
- 1.
预处理与轮廓提取:原始图像经过模糊处理以减少噪声。轮廓提取阶段会剔除明显太小(任一维度小于1米)或太大(任一维度大于5米)而不可能是食蟹海豹的区域,从而消除大面积深色水域和碎冰。
- 2.
HSV过滤:为进一步剔除符合形状标准但不是海豹的高饱和度深色区域(如地形投射的阴影),过滤掉高饱和度区域。
- 3.
分层聚类:对剩余的满足暗度阈值的像素执行分层聚类(单链连接法)。少于20像素(<0.05平方米)的簇被视为噪声丢弃。剩余的簇被处理成一系列以潜在海豹为中心的裁剪图像,供人工复核。

- 4.
人工复核:复核者会同时看到特写视图和更广的上下文视图,以利用轨迹或冰洞等线索进行最终分类,并剔除因航空影像前向重叠导致的重复海豹。对于算法处理不佳、标记出过多潜在海豹的异常复杂图像(数量前5%),则进行传统的人工复核。
模型调优与评估:首先由专家对约1/3的图像进行手动复核,建立了包含188个海豹的估计真实值数据集。通过10折交叉验证和参数网格搜索来调优两个阈值,并计算召回率(正确识别的真实正例比例)和精确率(预测为正例中实际正确的比例)。为量化权衡,计算了Fβ分数(β控制召回率相对于精确率的权重)。最终选择β=2,在平衡检测灵敏度与人工复核工作量后,确定了最优阈值。
物种识别与密度估计:由经验丰富的观察员根据体型、长度、颜色、聚集情况和栖息地类型等特征区分物种(食蟹海豹、威德尔海豹、豹海豹)。密度(D?)通过观测到的海豹数量除以调查的冰面积(排除水体等非冰区域像素)来估算,未对影像间的前向重叠进行调整。由于缺乏同期的生物标记数据来估算离水校正因子,本研究未尝试外推至种群数量估计。
结果:高效的检测性能与低密度现状
模型性能:模型的召回率和精确率响应曲面显示参数间存在非线性关系。最终模型在测试集上实现了79%±9.1%的召回率,显著超过了2023数据无辅助人工复核约50%的召回率,同时将需要人工复核的调查区域减少了约94%。F分数响应曲面和精确率-召回率散点图直观展示了不同β值下的权衡。1 gives greater importance to recall. Precision, recall and F-score were computed for every combination of our two tuneable parameters, evaluated over our image subset. The subset consists of the 188 images containing seals supplemented with representative background images. The global maximum on the surface in (a) corresponds to the optimal threshold when β = 4. Similar surfaces can be generated for other β values. While β = 4 yields higher recall, it also results in a significantly higher human review burden. We do not treat β as an internal tuning parameter in this process; rather, it is a final design choice dependent on both the desired application of the model and the available resources. (b) shows a scatter plot created by calculating the recall and precision for all threshold combinations. This provides an additional decision-making tool, aiding in the selection of the desired β based on constraints such as resource availability and required performance. Moving past the peak of the red frontier, the gradient captures how quickly the recall falls off as you seek greater precision. Threshold choices beneath the frontier are strictly suboptimal.">
不同β值下的性能指标显示,β=2时,在测试集上平均召回率为79%,标准差9.1%,自动检测步骤将人工复核区域减少了94%。整个半自动化流程(自动检测加专家复核)的综合召回率保持在79%±9.1%。
密度估计结果:对2023年航拍图像子集(>5500张,约350平方公里)的分析,共识别出758只独立海豹,冰上海豹密度(D?)为2.61只/平方公里。物种识别显示,可确认的个体中食蟹海豹和威德尔海豹数量大致相当,豹海豹很少,另有38%的个体因图像分辨率无法识别。
讨论:方法优势、局限与历史对比
半自动化流程的优势与局限:该流程通过减少搜索区域来缓解数据集固有的不平衡性,从而减少人工复核时间并提高召回率。它将复核者的任务从“在这幅大图中有多少海豹?”(结合目标定位和分类)转变为仅对裁剪图像进行分类,这是一个更简单、更平衡的任务。模型自动阶段的召回率/精确率与包含人工复核的整体方法性能不同,专家复核近乎完美,但成为处理下游裁剪图像的瓶颈。未来研究可探索用众包或二级分类器替代专家复核,这可能允许选择更高的β值,从而可能提高整体召回率。
模型系统性地未能检测到冰上深色阴影区域的海豹,可能是由于海豹与背景对比度较低,以及轮廓提取阶段剔除了可能包含这些海豹的大片深色阴影。处理这些边缘案例需要更多数据。假阳性主要源于冰中的地理特征,开发额外方法剔除这些特征可提高自动阶段的精确率,进一步减少人工输入。虽然当前模型不能推广到其他动物、环境或条件,但采用基于先验知识的方法来处理大数据集的原则是可靠的。对于每个新问题,需要定义和调优新的领域先验,但架构可复用。由于缺乏不同时间或光照条件下的图像,预计模型在黄昏或其他非典型条件下性能会下降,可能需要重新调优相关参数。
以往调查工作的回顾与比较:1999年,作为英国对南极浮冰海豹调查贡献的一部分,进行了观察员航空调查,提供了南极半岛浮冰海豹密度和丰度最全面的已发布评估。其中玛格丽特湾区域的食蟹海豹密度最高,为8.428–20.258只/平方公里。然而,1999年的调查在范围和方法上与2023年不同,包括实时人工观察、包含离水比例校正等。2015年在相同区域进行了另一次航空调查,手动分析得出密度为2.83只/平方公里,但其图像为全色,无法应用本半自动流程。
历次调查在时间、成像平台、标记数据和图像格式上存在差异,影响了数据的可比性。只有2023年的调查使用了与本半自动检测流程兼容的全彩RGB相机。
结论与展望
监测海豹种群至关重要,可以帮助我们更深入地了解WAP生态系统的健康和功能状况。本研究提出的半自动模型,通过使用基于先验知识的方法和无监督机器学习,绕过了深度学习的几个关键障碍:标记数据不足、分类问题不平衡、以及因数据量大和不平衡加剧的人为错误导致的低质量真实值估计。该模型在专家复核后实现了79%±9.1%的召回率,优于无辅助人工复核约50%的召回率,同时将人工输入减少了约94%。
尽管以往的航空调查为了解WAP海豹存在提供了有价值的快照,但方法学上的不一致限制了其评估长期趋势的效用。通过提供一个可扩展、可重复且高效的图像调查处理框架,使得更高频率、标准化的调查变得可行。如果与并发的标记活动相结合,我们可以揭示关键指示物种的种群趋势,并为制定更具响应性和基于证据的极地保护政策迈出关键一步。