基于半监督学习的船舶轨迹分析在非法捕捞检测中的应用研究

《Engineering Applications of Artificial Intelligence》：Semi-supervised vessel trajectory analysis for unregulated fishing activity detection

【字体：大中小】 时间：2026年02月10日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　本文推荐研究人员针对海上非法、未报告和无管制(IUU)捕捞活动检测中标注数据稀缺的难题，开展了一项基于自动识别系统(AIS)数据的半监督机器学习管道研究。该研究通过隐马尔可夫模型(HMM)进行轨迹分割，结合相似性K-means聚类和随机森林/LSTM分类器，实现了对航行、捕捞、闲置等船舶活动的自动分类。最终管道在全局评估集上F1分数达0.5，为缺乏标注资源的海洋执法机构提供了一种可扩展的解决方案。

海洋作为全球贸易和生态系统的重要支撑，正面临着非法、未报告和无管制（Illegal, Unreported and Unregulated, IUU）捕捞、海盗活动和走私等海上犯罪的严峻威胁。每年有超过10万艘船舶在海上作业，对这些船只的活动进行有效监控和监管，对于保障海上安全、保护海洋环境以及维护国际法律和贸易法规至关重要。传统上，海事执法部门依赖卫星技术来追踪船舶动向，其中自动识别系统（Automatic Identification System, AIS）能够实时提供船舶的位置、航速和航向信息，为大规模船舶监控提供了可能。

然而，尽管AIS数据蕴含丰富信息，但利用其进行船舶行为分析面临着一个核心瓶颈：标注数据的稀缺性。目前，高性能的船舶活动分类系统，如基于Transformer的Atlantes架构或深度卷积神经网络（CNNs），虽然取得了强劲的性能（F1分数可达0.88以上），但它们严重依赖于大量由海洋专家手动标注的高质量训练数据。例如，有研究需要超过两打海洋专家参与标注，这个过程既劳动密集型又成本高昂。对于资源有限的发展中地区海事机构而言，获取如此规模的标注数据几乎是不现实的，这极大地限制了先进人工智能技术在现实世界海事监控中的部署和应用。

为了突破这一瓶颈，不列颠哥伦比亚大学统计系的研究团队在《Engineering Applications of Artificial Intelligence》上发表了一项创新研究，提出了一种无需预标注数据集的半监督机器学习管道，用于从AIS数据中分类船舶活动。这项研究旨在开发一种既能够有效识别船舶行为，又无需依赖昂贵人工标注的自动化解决方案，为资源受限的海事监控场景提供新的技术路径。

研究人员为开展此项研究，主要应用了以下几项关键技术方法：首先，利用隐马尔可夫模型（Hidden Markov Model, HMM）对包含经度、纬度、航速和时间差等缩放后的时空特征的船舶轨迹段进行建模，以捕捉船舶运动的概率结构并进行初步的轨迹分割和状态解码。其次，采用基于相似性的K-means聚类算法，对由多个HMM生成的轨迹段表征向量进行分组，从而自动识别出跨船舶的常见行为模式，并为这些模式分配标签。最后，使用监督学习模型，包括随机森林（Random Forest）和长短期记忆网络（Long Short-Term Memory, LSTM），在由无监督方法自动生成的标签上进行训练，最终构建出能够对船舶活动（如航行、捕捞、闲置等）进行分类的分类器。整个流程基于一个包含156,379个AIS点的数据集进行实验验证。

3.1. Model performance

3.1.1. Unsupervised model

通过视觉检查评估无监督模型的性能，结果表明该模型能够有效地对船舶轨迹进行分割，并基于相似的运动模式进行聚类和标记。初始的朴素HMM方法能够识别轨迹的不同部分，但存在标签噪声。经过滑动窗口去噪和分段处理后，获得的轨迹段标签更加清晰和一致。进一步的先进方法（涉及为每个分段训练HMM并基于分段向量表示进行聚类）则实现了更好的效果，能够将不同船舶中相似的运动模式标记为相同的状态编号，表明该模型成功捕捉到了跨船舶的共同行为模式。对聚类结果进行的定量一致性检查显示，不同聚类在速度分布和船舶类型构成上存在显著差异（Kruskal-Wallis H = 18,397.30, p < 0.001；χ2 = 17,557.28, df = 66, p < 0.001），例如，聚类0和2表现出以静止或闲置为主的行为（平均航速<1.1节），聚类1显示出与捕捞活动一致的低速操作（平均3.5节），而聚类3则表现出与航行行为一致的高航速（平均6.5节）。这从客观上证明自动生成的标签对应于有意义的船舶活动模式。

3.1.2. Supervised model

在有监督模型评估方面，随机森林分类器在监督学习测试集上表现优异，F1分数达到0.95，而LSTM模型的F1分数为0.86。混淆矩阵分析显示，随机森林对多数类标签预测准确率高，而LSTM模型虽然总分略低，但对所有4个标签的预测更为均衡，表明其能更好地识别少数类标签，未出现对多数类的过拟合。

3.1.3. Pipeline

对整个端到端管道的评估使用了在管道初始阶段分离出的测试集。评估结果显示，管道整体性能有所下降，随机森林和LSTM的F1分数分别为0.52和0.5。分析表明，这种性能下降主要源于测试集无监督模型由于数据量有限而生成的标签可靠性较低，而非监督模型本身的能力问题。值得注意的是，LSTM在管道测试集上的预测比随机森林更为均衡，表明其可能具有更好的泛化能力。

研究结论与讨论部分指出，这项研究开发的半监督管道为解决海事监控中的标注数据稀缺问题提供了可行的方案。与需要大量标注数据的全监督方法相比，该管道在端到端评估中0.5的F1分数虽然相对较低，但这种性能权衡在缺乏专家标注数据的场景下是可以接受的，因为它使得原本无法实现的自动化分类成为可能。该管道的优势在于其可扩展性和对资源受限环境的适应性，它无需前期的人工标注投入，仅需基本的计算基础设施和原始的AIS数据流即可部署，特别适合发展中国家和地区的海事机构用于监测IUU捕捞等活动。

然而，研究也承认了若干局限性，包括数据集时间覆盖范围短（仅3天）、轨迹长度分布不均、AIS数据本身可能存在伪造或篡改、模型级联导致的误差累积、聚类数目（k=4）选择的主观性以及评估过程中因标签错位和数据量少带来的挑战。这些因素都在一定程度上影响了模型的性能和评估的准确性。

尽管存在这些挑战，该项研究成功地证明了结合可解释轨迹分割与混合船舶类型分类的半监督方法的可行性。通过将HMM与相似性聚类和监督学习相结合，该管道为现实世界的海事监控提供了一种新颖且可扩展的解决方案。未来工作可以通过获取更长时间跨度和更丰富多样的AIS数据、整合多源数据（如卫星图像）以验证AIS真实性、改进模型架构（如引入注意力机制增强LSTM的可解释性）以及开发更稳健的评估协议来进一步优化管道性能，从而更有效地服务于全球海洋治理和可持续发展目标。

热点排行