多角度跨域融合策略：提升自动昆虫鉴定与分级分类效能的实证研究（以猎蝽为例）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Cladistics》：Multi-angle, cross-domain fusion strategy enhances automated insect identification and hierarchical categorization: a case study on assassin bugs (Hemiptera: Reduviidae)

【字体：大中小】 时间：2026年02月13日 来源：Cladistics 6.2

编辑推荐：

　　本综述系统探讨了利用多角度（标准、转盘、生态图像）和跨域（标本与生态图像）融合策略提升昆虫自动识别系统效能的创新方法。研究以形态复杂、多样性高的猎蝽科（Hemiptera: Reduviidae）为模型，构建了包含11,915张专家验证图像的数据集。通过ConvNeXt-B架构评估，证实该策略能显著提升模型的物种识别准确性（提高5.72%）和分级分类能力（将未见物种正确归至属级的比例提高13.53%），并能有效引导模型关注分类学诊断特征，从而提升模型在实验室与野外环境下的跨域适应能力，为开发可靠的自动昆虫鉴定工具提供了实用框架。

引言

自动昆虫识别系统在害虫管理、生物多样性监测、公民科学以及系统学研究中具有重要价值，尤其是在昆虫分类学专家日益稀缺的时代。然而，当前基于深度学习的方法通常依赖于有限角度和简化背景的标准标本照片，这限制了其在多样化实际场景中的泛化能力和有效性。本研究以高度多样化且形态变异复杂的猎蝽科（半翅目：猎蝽科）为模型系统，旨在解决这一局限。

猎蝽科是全球已描述约7500种的世界性类群，是半翅目中物种数第二丰富的科。其高度的形态多样性和广泛的生态适应性，加上在生态摄影中的丰富记录，使其成为评估先进深度学习方法在昆虫识别中有效性的理想模型。有效的昆虫识别模型评估需要测试两个关键能力：跨域适应性和分级分类能力。前者涉及识别具有不同角度和背景的图像，后者则定义为将未见分类群分配至其父级分类阶元的能力。本研究探讨了多角度、跨域融合如何提升昆虫识别系统的性能。

材料与方法

•
类群取样与数据集构建

研究旨在构建一个平衡的数据集，以严格评估跨域融合在自动昆虫识别中的效能。最终数据集包含来自6个亚科、48个属、92个物种的11,915张图像。所有标本均保藏于中国农业大学昆虫博物馆。

数据集包含三种图像类型：
1. 1.
  标准标本图像（Std）：使用专业设备拍摄的标本背、侧、腹面视图，背景简化。
2. 2.
  转盘标本图像（Trb）：使用转盘在受控光照环境下从45°背侧角度连续拍摄的标本图像。
3. 3.
  生态图像（Eco）：从iNaturalist平台获取的野外图像，代表自然环境中具有多变角度、背景和光照条件的昆虫。
  
  从“完整”数据集（覆盖27个物种）中通过子抽样构建了四个训练数据集（Std、Trb、Std+Trb、Std+Trb+Eco），每个数据集物种图像数平衡在约60张。为确保模型在不同数据集上训练后的可比评估，构建了类型平衡的专用“跨域测试”数据集。为评估模型对未见类别的泛化能力，开发了两个分级分类数据集：“属级分级分类”数据集（genus_unseen），包含未见属但属于已训练亚科的物种；“种级分级分类”数据集（species_unseen），包含来自已训练属的未见物种。
•
图像准备、模型评估与性能评估

所有图像均使用预训练的YOLOv8模型进行裁剪和预处理以减少背景干扰。训练时采用综合数据增强策略。模型采用共享的ConvNeXt-B骨干网络和三个独立的分类头（亚科、属、种级），使用标准交叉熵损失训练。模型性能在三个测试数据集（“跨域测试”、genus_unseen、species_unseen）上使用六项性能指标进行评估，涵盖标准分类和分级分类能力，并报告准确率、精确率、召回率和F1分数。
•
神经网络架构选择

使用“完整”数据集评估了七种深度学习架构。ConvNeXt-B和Swin-B模型表现出最优性能，在物种级top-1准确率分别达到99.86%和100%。考虑到ConvNeXt-B在分级分类任务中更一致的表现和稳健的训练稳定性，被选为后续实验的基础模型。
•
多角度、跨域模型训练与评估

使用选定的ConvNeXt-B架构，在四种训练数据集（Std、Trb、Std+Trb、Std+Trb+Eco）上评估视角和背景多样性对泛化和分级分类的影响。采用五折交叉验证，并进行严格的统计分析以验证性能差异。
•
识别错误探索

通过比较各分类群在“跨域测试”数据集上的top-1准确率，以及汇总Std+Trb+Eco模型的误识别结果，分析识别错误模式。为每个分类群计算错误发现率（FDR）和错误否定率（FNR），以量化系统中的总错误流量。
•
多角度、跨域融合机制的可视化与分析

采用均匀流形近似与投影（UMAP）算法分析特征在三个分类等级上的聚类模式。使用梯度加权类激活映射（Grad-CAM）生成类别判别热图，比较模型关注的区域与经典分类学中使用的诊断形态特征。

结果

•
神经网络架构选择

ConvNeXt-B模型在“完整”数据集上的各项测试中均表现出优异且均衡的性能，特别是在分级分类任务中优于Swin-B，因此被选为后续实验的基础模型。
•
多角度、跨域模型性能

在四种训练数据集上训练的模型表现出广泛的性能差异。Std训练模型的表现持续优于Trb训练模型。融合多角度图像（Std+Trb）相比单角度模型（Std或Trb）带来了显著提升。跨域融合模型（Std+Trb+Eco）在所有任务上均取得了最高的top-1准确率，显著优于所有其他模型。评估指标（准确率、精确率、召回率、F1分数）均显示出一致的趋势。

Std和Trb模型在各自训练的图像类型上取得了高成功率，但在未见类型上表现显著下降，其中Std模型表现出更强的鲁棒性。生态图像对所有模型来说都是最具挑战性的类型，其准确率最低，但在训练中纳入生态图像后，其成功率得到显著提升。
•
识别错误
- •
  亚科级：所有亚科均达到95%以上的top-1准确率。Triatominae（仅由Triatoma rubrofasciata代表）具有最高的FDR和FNR，其误识别主要发生在Triatominae与Harpactorinae或Ectrichodiinae之间。
- •
  属级：top-1准确率在87.41%到100%之间。Rhynocoris的准确率最低且最常被误识别，大部分误识别发生在Rhynocoris和Sycanus之间。Sycanus尽管准确率高，但具有最高的FDR。Scipinia显示出第二高的FDR。
- •
  种级：预测错误主要集中在Rhynocoris物种间、Sycanus bifidus，以及Epidaus物种与Cydnocoris russatus之间。R. incertis显示出最低的top-1准确率和最高的FNR。
•
特征空间与关注区域的可视化

UMAP分析显示，随着纳入更多图像角度和生态图像，分类群在特征空间中通常表现出更好的分离，“完整”数据集训练的模型表现出最明显的聚类。然而，即使在Std+Trb+Eco和“完整”模型中，部分分类群仍然存在重叠。

Grad-CAM分析表明，所有模型都持续关注关键的形态区域（头部、前胸背板、足、腹部）。观察到不同分类等级上的关注模式差异：高级别的分类主要利用外周轮廓（足和触角）和更广泛的区域，而更细粒度的分类则越来越多地依赖前胸背板和侧接缘等细微特征。多角度融合模型表现出强大的视角不变性，在不同图像视角下对相同的形态特征保持一致的关注。

讨论

•
多角度融合策略的效率

增加有效训练图像数量通常会提升模型性能。然而，增加角度和生态背景的多样性需要减少训练中包含的标本数量，这带来潜在的权衡。本研究中观察到的性能提升不仅凸显了增强角度和背景的益处，也证明了这些因素可以弥补标本数量减少的影响——这对于一些物种只有有限标本和/或生态图像的实证研究是一个有希望的发现。

仅用转盘图像（Trb）训练的模型始终表现出最低的效率。这不应解释为转盘图像提供的信息少于标准标本照片，差异在于图像选择策略。对于小型训练集，高变异度会降低模型准确性。多个视角提供的互补信息对于增强鲁棒性和泛化能力至关重要。多角度融合通过整合跨视角的互补特征，促进了对全面形态表征的学习，其分层特征学习与基于形态特征的经典分类学相一致。
•
跨域融合：弥合标本与生态学之间的鸿沟

仅在背景受控的标本图像上训练的模型，在识别生态图像时表现显著下降。相反，将生态图像整合到训练数据集中显著增强了模型的跨域泛化能力。倾斜转盘成像协议作为传统标本摄影和生态图像之间的关键桥梁，有效减少了域分布差异，并为标本可用性有限的场景提供了实用解决方案。

在昆虫识别挑战中，出现了两种不同的方法路径：一是开发针对特定应用场景优化的场景专用模型；二是构建具有广泛适应性的通用模型。后一种策略对于生物多样性评估、保护生物学、分类学研究和公民科学计划等复杂应用尤为重要。基于自然历史收藏中丰富的分类学资源，并辅以iNaturalist等社区科学平台提供的生态观测图像库，这种整合方法不仅增强了模型鲁棒性，也最大化了现有生物多样性数据资源的效用。
•
识别错误

对误识别的分析揭示了几种可预测的错误模式，包括：颜色相似性；由于视角导致的形状趋同；相似的诊断特征；以及图像中诊断特征被遮挡。这些错误大多反映了类群之间真实的形态相似性，表明模型在一定程度上学习了符合生物学现实的分类特征。
•
对系统学的意义

自动昆虫识别的价值不仅限于生物多样性监测和公民科学，其直接支持系统学研究的潜力常常被忽视。我们的框架代表了一种强大的、可扩展的工具，可以加速并指导核心的系统学研究。

首先，模型在标本分选上具有实用价值，能够高效地将大量标本初步归类到高级分类阶元，从而解放专家以专注于更复杂的物种界定和描述任务。

其次，模型的错误谱可以作为系统学假设的来源。持续的模型混淆可能暗示潜在的分类学问题，例如显著的形态趋同或非单系谱系的可能性。因此，模型充当了计算透镜的作用，突出显示值得进一步进行系统发育研究的类群。

此外，对错误谱的详细分析可以产生更细致的系统学假设。例如，不对称的误分类率可能指示物种复合体、过于宽泛的物种界定，或是物种本身具有高度的形态变异。

总之，该方法提供了一个可扩展的框架，利用现有的生物馆藏来支持和加速系统学研究。通过提供高效的标本分选和生成可检验的系统发育假设，为在昆虫分类学专家稀缺时代促进系统学工作提供了有前景的工具。

结论

本研究系统评估了多视角、跨域融合策略如何增强昆虫识别模型的跨域适应和分级分类能力。ConvNeXt-B模型被确定为昆虫识别的优选框架。结果表明，即使在训练标本数量减少的情况下，纳入额外视角也能将物种识别准确率提高6%，并将未见物种的属级分类能力提高7%。纳入生态图像进一步将两项任务的模型性能提升了13%。FDR和FNR参数有效量化了每个分类单元的总错误流量，便于针对性的错误分析和数据优化以改进模型。Grad-CAM可视化阐明了模型的决策过程，显示学习到的特征与经典分类学中使用的诊断性形态特征高度一致。这些发现共同证明，多角度、跨域融合是开发具有卓越泛化能力的昆虫识别模型的有效策略。该方法不仅在应用场景中显示出巨大潜力，在系统学研究中也具有重要意义，能够提供高效的标本分选并生成可检验的系统发育假设。

机器学习的日益普及使得通过优化神经网络架构并整合多模态生物数据来提升昆虫识别精度成为可能。未来结合物种描述作为语义提示以及自动化图像采集系统的方法，有望在降低数据收集成本的同时提升模型性能。这种计算与生物数据流的协同组合，代表了构建可扩展、精确分类识别系统的一个重要方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号