基于机器学习的分类单元识别中的类别不平衡问题：缓解策略的比较分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Machine Learning with Applications》：On class imbalance in machine learning-based taxa identification: A comparative analysis of mitigation strategies

【字体：大中小】 时间：2026年06月06日 来源：Machine Learning with Applications 4.9

编辑推荐：

　　机器学习在昆虫及其他节肢动物种群自动化监测方面具有变革性潜力，为生物多样性保护提供了重要工具。然而，一个主要挑战持续存在：训练数据中代表性不足的物种导致模型倾向于常见分类单元，并破坏追踪对各种生态研究重要的稀有分类单元的努力。尽管存在类别不平衡缓解策略，但它们

机器学习在昆虫及其他节肢动物种群自动化监测方面具有变革性潜力，为生物多样性保护提供了重要工具。然而，一个主要挑战持续存在：训练数据中代表性不足的物种导致模型倾向于常见分类单元，并破坏追踪对各种生态研究重要的稀有分类单元的努力。尽管存在类别不平衡缓解策略，但它们在真实世界基于图像的生态背景下的有效性，特别是对稀有物种而言，仍然研究不足。在本研究中，研究人员在两种公开可用的大规模昆虫和无脊椎动物图像数据集（FIN-Benthic2和BIOSCAN）上，全面比较了广泛使用的数据级、算法级和混合类别不平衡方法。研究人员使用针对不平衡分类定制的指标，对常见技术进行了广泛的实证研究，包括损失函数自适应、采样策略和集成框架。

关键结果表明，Class Imbalance（CI）损失始终优于替代方案，在稀有物种和常见物种识别之间取得平衡。数据增强和采样方法表现出数据集特定的功效，不存在通用解决方案。混合方法，特别是集成学习，产生了最显著的改进，凸显了针对分类学粒度整合多种策略的价值。使用最新生成模型的图像生成尽管在实验中产生了视觉上合理的图像，但未能提高分类性能。研究人员的发现强调了依赖情境的优化的重要性，同时提供了在生物监测项目中部署稳健自动化系统的可操作指导方针。相关代码已提供以支持可重复性和实现。本研究为生态机器学匀中的一个核心挑战提供了实用解决方案，使稀有物种的更可靠追踪成为可能。

研究背景与问题阐述

生物监测利用活体生物评估环境健康状况，为生态系统功能和污染影响提供关键洞见。人类活动导致环境快速退化，造成物种丧失和生态失衡。昆虫及其他节肢动物作为有效的生物指示剂发挥着重要作用，其中淡水大型无脊椎动物如蜉蝣和石蛾尤为典型。这些生物具有相对较长的寿命、有限的活动能力以及对栖息地条件的高度敏感性等理想特征，使其成为评估淡水生态系统健康的关键工具。传统生物监测依赖分类学专家通过显微镜分析进行手工形态学鉴定，这种方法耗时、昂贵且劳动密集，加之全球分类学专业知识的衰退，进一步限制了其可扩展性。这些挑战推动了自动化解决方案的发展，特别是基于深度卷积神经网络（CNNs）的图像物种识别技术，该技术能够通过学习标记图像数据中的复杂模式来检测细微的形态学差异，为生态研究和生物监测提供了成本效益高的替代方案，尤其适用于散装无脊椎动物样本等具有较大工作量的挑战性样本类型。

然而，生态数据集中一个持续的挑战是类别不平衡（Class Imbalance），即样本在各类别间分布不均。这种不平衡并非仅仅是数据收集的人为产物，而是反映了自然生物多样性模式——生态系统通常由少数常见物种和大量稀有物种组成，形成"长尾"分布。由于这些自然的物种丰度差异，生态图像数据集本质上高度不平衡，每个分类单元的训练样本数量可从数万个到仅数个个体不等。这种偏斜的分布对机器学习分类器构成重大挑战：分类器在训练过程中可能发展出对多数类别的偏向，导致对代表性不足的少数类别预测性能低下。

这种偏倚在稀有物种的识别中尤为成问题，因为这些物种通常具有重要的生态或保护意义，特别是对于稀有、濒危和新出现的分类单元而言，可靠的自动化识别最为迫切。在自动化物种识别系统中，稀有物种的误分类风险最高——即群落中丰度最低的物种——这可能导致假阴性或物种丰富度的低估，直接影响生态系统健康评估和保护决策。近期的研究也表明，在不平衡生物多样性数据上训练的人工智能系统表现出系统的分类学偏向，低估了濒危和不常见物种。另一个关键的管理领域是入侵物种的早期检测：在首次发现时，入侵分类单元在本地群落中按定义是稀有的，而偏向丰富本地分类单元的分类器将系统地压制其识别，从而错失最具成本效益的干预窗口期的管理响应。因此，在有限且不平衡的训练数据条件下可靠检测稀有物种，不仅是机器学习挑战，更是及时保护行动和生物安全行动的直接先决条件。

在如此严重的类别不平衡情境下，过拟合也可能成为严重问题，因为模型仅看到来自稀有类别的有限样本，因此更容易记忆不相关的细节而非发现真正的区分性特征，导致模型的泛化能力降低，特别是对少数类别而言。此外，类别往往粒度非常精细，同时包含相当大的类内方差。当模型必须同时保留对分类鉴定关键的细微形态学特征，同时学习适应物种内部自然变异时，挑战进一步加剧。

尽管该问题的重要性已被认识，许多生态研究通过排除稀有物种、仅使用样本量大致相等的平衡数据集来规避类别不平衡问题。这种人为平衡削弱了模型在真实世界生物监测中的适用性，因为稀有物种正是保护评估和环境变化检测的主要目标。加剧这一局限性的是，包含不平衡数据的研究往往依赖总体准确率（Accuracy）作为主要指标，而这对不平衡数据集具有误导性，因为准确率可通过预测多数类别人为抬高，掩盖无法检测稀有、生态关键物种的缺陷。此外，目前缺乏针对具有严重不平衡的细粒度生态图像分类的多样化机器学习不平衡缓解策略的全面比较分析。这一空白凸显了在生态背景下应用多样化不平衡缓解技术并使用专为不平衡分类设计的指标评估其有效性的迫切需求。

研究设计与方法

本研究开展了一项比较实证分析，评估针对细粒度生态图像分类单元识别的多样化类别不平衡缓解策略，特别关注昆虫和其他节肢动物。研究人员评估了常用的数据级方法（上采样、下采样、增强、生成对抗网络即GANs）、算法级方法（损失函数）和混合方法（集成学习），有意主要聚焦于广泛使用的基线技术而非最新变体。因此，本研究的结论应在所评估的基线不平衡缓解方法的背景下解读，特别是基于GAN的生成增强，且不应推广至未在此测试的更近期方法或基于扩散的生成模型。

研究人员在两种具有严重不平衡性的不同的生态图像数据集上使用专为不平衡分类设计的指标评估了这些方法，为该特定领域中这些成熟方法的相对优势和局限性提供了实证洞见。研究人员指出，据其所知，针对如此严重不平衡条件下的细粒度生态图像分类，此类比较分析此前尚未被呈现。通过基于全面评估提供可操作的指导方针，本研究为开发稳健的人工智能（AI）驱动的生态监测系统贡献了实证证据，通过更可靠地识别脆弱和稀有物种来加强保护工作，从而弥合了通用不平衡缓解方法与其在基于图像的生物多样性监测背景中实际应用之间的差距。

研究采用EfficientNetB0作为基础架构，该架构通过迁移学习在FIN-Benthic2数据集上展现出最优性能。实验设计采用渐进式结构：首先评估算法级方法，比较交叉熵（CE）损失、Focal损失和Class Imbalance（CI）损失；随后评估数据级方法，包括数据增强技术、合成数据生成以及采样策略；最后采用基于Bagging的集成学习作为混合方法。所有实验均使用针对不平衡分类场景设计的指标进行评估，包括Macro F1-score、平衡准确率（BACC）和几何平均数（G-mean），同时报告总体准确率和Matthews相关系数（MCC）。

数据集方面，FIN-Benthic2包含460,004张淡水大型无脊椎动物图像，涵盖39个分类单元，图像数量从490到44,240不等；BIOSCAN-1M昆虫数据集则包含1,106,784个实例，涵盖192个科，从101到259,104个实例不等，二者均呈现典型的长尾分布特征。

研究结果

算法级方法结果表明，CI损失在两个数据集上均持续优于其他损失函数。在FIN-Benthic2上，CI损失在所有指标上均取得最高分；在BIOSCAN上，CI损失保持强劲性能，而Focal损失表现不佳，特别是无法有效分类不常见物种。标准CE损失虽在准确率上最高，但在少数分类单元上的性能较低。

数据增强的效果呈现数据集特异性：在FIN-Benthic2上仅带来边际改善，而在BIOSCAN上则显著提升，尤其是F1-score、BACC和G-mean等指标。合成数据生成方面，研究人员测试了DCGAN、WGAN、ProGAN和StyleGAN3等多种生成模型。虽然StyleGAN3产生了最逼真的视觉图像，但即使这些视觉上合理的合成图像也未能为下游少数类别分类提供一致的收益。在针对Cydnidae和Sepsidae两个少数族的目标增强实验中，合成数据未能改善分类性能，Cydnidae的召回率甚至下降。

采样策略同样呈现数据集特异性。FIN-Benthic2上，组合上下采样策略在G-mean和BACC上表现最均衡；而BIOSCAN上，上采样在所有指标上均实现显著改善，经Wilcoxon符号秩检验确认具有统计显著性（p=0.000488）。

混合方法中，基于Bagging的集成学习一致性地超越了单模型基线。FIN-Benthic2上，Bag-CI-Aug（集成学习结合CI损失和数据增强）方法在所有指标上取得最高分；BIOSCAN上，Bag-CI-US（集成学习结合CI损失和上采样）方法表现最佳。经配对Bootstrap检验，两种最优混合方法的改进均具有统计显著性。

误分类分析揭示了两种主要混淆模式：一是属内和种内的近缘种混淆，如稀有种Polycentropus irroratus被更丰富的P. flavomaculatus吸收；二是跨科混淆，如Capnopsis schilleri被误分类为Amphinemura borealis，表明类别不平衡不仅加剧属内混淆，还可驱动跨科误分类。最优方法Bag-CI-Aug将跨科混淆从63%降至24%，但属内少数种的召回率反而进一步下降。

讨论与结论

本研究提供了针对具有极高类别不平衡比率的基于图像的生态细粒度分类单元识别任务的全面比较实证分析。实验分析表明，多层次策略对于不平衡数据集上的分类学分类高度有效。研究发现，建立强大的基线模型是关键的第一步，但其性能通过实施有针对性的算法级、数据级和混合级别的类别不平衡缓解策略得到实质性增强。这些干预措施一致的性能提升突出表明，不存在单一通用解决方案；相反，量身定制的技术组合才能实现最稳健的结果。

指标选择的重要性是研究的一个关键方面。标准准确率在平衡场景中具有误导性，常常掩盖了对稀有分类单元的差性能。相比之下，专为不平衡设计的设计的指标如Macro F1-score、G-mean和BACC提供了对模型同时分类稀有和常见物种能力的更可靠评估。

算法级策略的评估表明，损失函数的选择对于处理不平衡分类学数据至关重要。CI损失始终优于CE损失和Focal损失，其成功源于动态加权机制，该机制基于稀缺性为稀有类别分配更高优先级，同时降低对良好分类样本的惩罚。这一在训练过程中同时考虑类别稀有性和模型置信度的自适应方法证明高度有效。相比之下，标准CE损失缺乏对代表性不足分类单元的区分能力，而Focal损失被证明对数据集敏感，在BIOSCAN的极端不平衡上表现薄弱，其固定聚焦参数可能抑制少数类别的梯度。

数据级方法的分析揭示了明显的、数据集特定的模式。FIN-Benthic2上数据增强仅带来边际改善，而BIOSCAN上增益显著，这可能因为FIN-Benthic2包含每个标本的多张图像，提供"自然增强"，而BIOSCAN的增强能更大增加图像变异性。生成增强实验揭示了重要局限性：虽然高级GAN架构改善了合成昆虫图像的视觉质量，但即使视觉上强的合成图像也未为下游少数类别分类提供一致收益。这表明视觉真实感本身不足够；合成样本还必须保留分类器所需的区分性分类学线索。

采样策略也产生了针对不同数据集的不同结果。FIN-Benthic2上组合上下采样方法在平衡指标方面表现最佳，而BIOSCAN上上采样提供了所有指标的显著改善。这种变异凸显了数据集结构的重要性：FIN-Benthic2的少数类别有许多图像但来自较少独特标本，因此简单上采样帮助较小；BIOSCAN每个类别有更多独特标本（每个一张图像），因此增强和采样更有帮助，通过在训练期间暴露模型于更大变异来减少过拟合。

混合方法的实验证明了两个主要结果。首先，集成实现一致地超越了其单模型基线，BIOSCAN在平衡敏感指标上显示出比FIN-Benthic2更实质性的改进。其次，数据级和算法级策略在这些集成框架内的整合产生了数据集特定的最优配置。FIN-Benthic2上Bag-CI-Aug方法实现最佳性能；BIOSCAN上Bag-CI-US方法在F1-score和BACC上表现最强。这种最优策略的分歧直接对应于数据级分析中识别的基本数据集结构：FIN-Benthic2显示出评估标准上的 modest 增益，而BIOSCAN揭示了为不平衡情况设计的指标中的显著增强。这些数据集定制的集成配置的上乘性能凸显了经验指导的策略选择的价值，而非生态分类背景中单一混合方法的通用应用。

评估当前生态细粒度分类单元识别中应用的观察结果，研究人员注意到一些先前研究报道了Focal损失的成功使用，但在本研究中它在一个数据集上表现相当、在另一个上表现很弱，表明应根据目标应用探索不同的损失函数。CI损失此前未用于生态研究，但未来研究中不应被忽视。

本研究的结论应主要在不考虑分类等级的情况下，针对严重不平衡条件下的细粒度生态分类进行解读。未来研究方向包括：开发专注于少数类别特征提取的专用架构、设计定制化损失函数及其组合、探索不仅追求视觉真实感而且保留区分性分类学线索的生成增强方法（如基于扩散的模型、少样本条件生成和近期长尾识别方法）、采用自动选择策略的混合方法，以及基于类别分布的动态加权集成机制。同时需注意集成方法相比单模型解决方案增加的计算成本，在资源受限的部署场景中，更轻量的方法可能更具实用性。

联系信箱：

粤ICP备09063491号

热点排行