一种用于深度微生物图像分类的注意力辅助机器学习系统

《Advanced Intelligent Systems》：An Attention-Assisted Machine Learning System for Deep Microorganism Image Classification

【字体：大中小】 时间：2026年05月02日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　摘要微生物学和环境健康的进步在很大程度上依赖于基于先进机器学习系统的精确和及时的微生物鉴定。我们提出了一个先进的深度学习框架，用于高精度的基于图像的分类，该框架利用了增强了注意力机制的DenseNet201骨干网络来处理噪声、类间相似性和形态多样性问题。该模型在788张涵盖八

　　摘要

微生物学和环境健康的进步在很大程度上依赖于基于先进机器学习系统的精确和及时的微生物鉴定。我们提出了一个先进的深度学习框架，用于高精度的基于图像的分类，该框架利用了增强了注意力机制的DenseNet201骨干网络来处理噪声、类间相似性和形态多样性问题。该模型在788张涵盖八个类别的图像上进行训练和微调，达到了87.38%的准确率，比未进行适配的模型提高了约5%。其可扩展性、计算效率以及对化学试剂的依赖减少，使其成为一种环境可持续且用途广泛的解决方案，在临床、环境和工业微生物学领域具有广泛的应用前景。

1 引言

微生物的分类是医学、农业和环境科学进步的基石。细菌、真菌和原生动物等微生物扮演着多样的角色，从作为疾病的媒介到作为营养循环和生物工业过程的关键组成部分。理解和分类这些微生物有助于实现有针对性的应用，包括抗生素的开发、提高土壤肥力和污染物的生物修复[1]。然而，传统的分类方法依赖于形态学或化学分析，这些方法劳动密集且耗时，因此计算和基于成像的技术越来越受到重视[2]。最近的创新，包括深度学习和生物信息学，彻底改变了微生物分类的方式，使其更快更准确。诸如卷积神经网络（CNN）和机器视觉技术等先进方法促进了高通量分类，利用遗传和表型数据揭示微生物之间的功能和生态关系[3]。应用范围不仅限于基础分类学，还扩展到解决全球性挑战的实际方案，如可持续农业和废物管理[4]，以及通过识别生物指标来进行环境保护[5]。计算机视觉的最新进展表明，现代深度学习框架显著增强了农业和生物医学领域的自动化图像分析能力。特别是基于YOLO和注意力增强的架构在重量估计、植物和水果疾病分类、医学图像分析以及宫颈癌细胞识别等任务中表现优异[6, 7, 8-10]。这些方法在处理噪声背景、形态变异性和复杂的多类决策边界方面被证明是有效的。此外，最近的研究进一步强调了基于注意力的架构的优势。例如，增强注意力的DenseNet模型在具有挑战性的成像条件下显示出更好的分类鲁棒性[11, 12]。此外，基于变换器的语义分割在检测微生物变化方面表现出强大的能力，强调了精确的区域级表示对于细微视觉模式的重要性[13]。总的来说，这些发现表明，具有注意力意识的深度架构特别适合于涉及细微形态差异和视觉相似类别的分类任务。微生物在多个领域都是不可或缺的，包括医学、农业和环境管理。在医学领域，它们对于理解和对抗疾病至关重要，尤其是在抗生素开发和抗性管理方面。机器学习方法，如深度学习模型，已经推进了细菌的分类，使得病原菌株的快速识别成为可能，并促进了针对性治疗的发展[14-16]。在农业中，微生物通过促进营养循环和固氮作用显著改善了土壤健康和植物生长。这些贡献对于在日益严重的环境问题背景下推广可持续农业实践至关重要[17]。在环境管理中，微生物被广泛用于生物修复过程，减少污染物并恢复生态平衡。先进的计算模型增强了环境微生物的分类，使其能够在废物管理和绿色技术中得到有效应用[18]。此外，微生物在生物化学品（包括生物燃料和药品）的工业生产中起着关键作用，使用人工智能的成像和分类技术简化了流程，确保了效率和可扩展性[19]。因此，微生物的准确分类和应用具有解决从食品安全到环境可持续性等关键全球性挑战的潜力。本研究的主要目的是建立一个强大的框架，用于自动分类八种不同的微生物：酵母、螺旋细菌（SpiralB）、球形细菌（SphericalB）、杆状细菌（RodB）、草履虫、水螅、眼虫和变形虫。除了简单的分类学之外，该研究还旨在深入探讨这些微生物的生物学和功能特性。这包括识别它们的独特遗传标记、代谢谱型和表型特征，以解锁它们在各个领域的潜在应用。例如，了解这些微生物的基因组和蛋白质组特征有助于开发抗生素、酶和生物活性化合物，这些对于医学和工业应用至关重要[20]。该研究还寻求通过利用微生物分类来解决紧迫的全球性挑战，提供可行的解决方案。例如，在对抗抗生素抗性方面，准确分类细菌菌株可以指导有针对性的药物开发，并减少广谱抗生素的滥用。在环境背景下，识别具有生物降解或生物修复能力的微生物有助于减少污染和促进可持续性。同样，在农业中，探索微生物与植物的共生关系可以提高土壤肥力和生产力，为可持续农业实践铺平道路。Cristina-Ioana[21]开发了一个混合分类系统，结合了基于VGG19架构的CNN和H2O AutoML来分类八种微生物类别。该数据集包含759张图像，系统地分为八个类别：酵母、螺旋细菌（SpiralB）、球形细菌（SphericalB）、杆状细菌（RodB）、草履虫、水螅、眼虫和变形虫。这种深度学习和AutoML的创新整合显著提高了分类准确性。尽管该系统在跨类别的鲁棒分类方面表现出色，但在计算复杂性和处理不平衡数据集方面面临挑战。Wahid等人[22]采用基于CNN的方法对细菌显微图像进行分类。虽然具体的数据集未命名，但它包含了10个细菌类别。该研究强调了深度学习在特征提取和分类方面的有效性。其优势在于无需手动预处理的端到端学习，但局限性在于依赖于大型标注数据集进行最佳训练。Nurtanio等人[23]使用Inception V3架构对细菌图像进行分类。数据集包含五个细菌类别，每个类别有108张图像，来自当地显微镜实验室。迁移学习有助于有效适应有限的数据，实现了高分类准确性。虽然这种方法对于小型数据集有效，但需要仔细调整以与预训练模型保持一致。García等人[24]提出了针对资源受限环境优化的轻量级深度学习模型。他们的自定义细菌数据集包含12种细菌物种。该研究将深度学习模型适应于计算资源有限的设备。实时菌株识别是一个关键优势，尽管模型复杂性的潜在权衡构成了限制。Konopka等人[25]专注于使用来自环境样本的六类细菌数据集对土壤细菌进行分类。他们应用了机器学习技术，包括随机森林和支持向量机（SVM），实现了高准确性。尽管该研究通过支持对复杂土壤样本的有效分析促进了生态研究，但环境条件的变化带来了挑战。Irani等人[26]使用CNN对废水样本中的大肠杆菌和霍乱弧菌进行分类。数据集包含约1,000张图像，分为两个类别。这种创新方法在环境微生物学应用中展示了强大的分类能力。尽管准确性很高，但水质和光照条件的变化带来了困难。Talo[27]引入了一个自动化的深度学习模型用于细菌分类，专注于20个细菌类别。数据集来自公共仓库，包含超过2,000张图像。该研究展示了CNN在自动化形态识别方面的能力。然而，潜在的过拟合和对类别不平衡的敏感性是显著的局限性。Nasip和Zengin[28]使用DenseNet201和特征选择对10个类别的细菌进行分类。数据集包含1,500张图像，具有平衡的代表性。该研究获得了99.78%的令人印象深刻的准确率，显示了结合迁移学习和特征工程的有效性。然而，该过程的计算强度带来了挑战。Plichta[29]开发了一种使用分类器对七类细菌进行识别的新方法。数据集包含超过1,000张图像，专注于物理形态。尽管该方法所需的计算资源最少，但它缺乏处理复杂数据集的深度学习方法的鲁棒性。Cheng等人[30]应用无标签成像技术对细长眼虫进行分类。数据集包含500张单一类图像。这种方法消除了染色的需要，但由于数据集的特定性质，其适用性仅限于较少的微生物类别。Alhammad和Lovell[31]结合OpenGram框架和CNN以及高斯混合模型对12个类别的细菌进行分类。使用1,200张图像的数据集，该研究在开放集分类场景中表现出色，实现了高F1分数。然而，模型训练期间的计算开销是一个挑战。Singh等人[32]利用迁移学习和GoogLeNet以及AlexNet对33种细菌物种进行分类，使用的数据集包含超过600张显微图像。数据集被分为训练集和测试集，确保了评估的鲁棒性。该方法使用GoogLeNet实现了98.67%的分类准确性，显示出高准确性和效率。尽管有效，但数据集的多样性有限可能会影响泛化能力。Abougarair等人[33]使用GoogLeNet和AlexNet对DIBaS数据集中的细菌物种进行分类，该数据集包含12个物种和2,000张图像。通过利用迁移学习，该研究取得了显著的结果，包括98.7%的准确率、99.50%的召回率和99.45%的F1分数。尽管高效且准确，但该方法在应用于更复杂的实际场景时可能会面临挑战。由于微生物具有多样的生物特性和代谢产物，它们在医学、农业和工业中至关重要。它们的基因组和蛋白质组特征使得生物活性化合物、酶和次级代谢产物的生产成为可能，例如酵母生产生物乙醇和细菌进行营养循环。本研究考察了八种微生物类别（酵母、螺旋细菌（SpiralB）、球形细菌（SphericalB）、杆状细菌（RodB）、草履虫、水螅、眼虫和变形虫）的生物特性，以应对抗生素抗性、污染和可持续农业等挑战。为了应对图像变异性和类别不平衡等分类挑战，我们提出了一个结合DenseNet201和注意力机制的框架。DenseNet201确保了更优的特征提取，而注意力机制通过关注相关数据提高了准确性。这种方法提高了性能并解决了与噪声相关的问题，尽管需要进一步改进以适应更广泛的数据集和实际应用。文章的结构如下：第2节（材料和方法）详细介绍了DenseNet201和注意力机制的集成，用于分类八个微生物类别，以及数据集准备和评估指标。第3节（结果和讨论）展示了研究结果，包括与现有方法的比较，以及研究结果的意义和局限性。最后，第4节（结论）总结了研究的主要贡献，强调了其重要性，并提出了未来研究的方向。

2 材料和方法

本节概述了用于微生物分类的方法，详细介绍了DenseNet201和注意力机制的集成，以增强特征提取和分类准确性。它包括准备包含八个微生物类别的数据集、实施所提出的框架以及用于评估模型性能的评估指标。所描述的方法确保了可重复性，并为解决微生物成像和分类中的挑战提供了坚实的基础。

2.1 数据集

该数据集来源于[34]，代表了包含八个不同类别微生物的最全面的图像集合之一（如图1所示）。这些微生物在生态系统、人类健康和环境平衡中扮演着关键角色，因此它们的识别和研究至关重要。例如，原生动物和眼虫是生态食物链的重要组成部分，而某些细菌则作为病原体，在医学和农业中构成重大挑战。同样，真菌和藻类对环境过程和有价值生物产品的生产也有贡献。图1展示了Kaggle数据集[34]中包含的八个微生物类别的视觉表示。通过实现精确分类，该数据集支持了高级机器学习模型的开发，以实现自动微生物识别。数据集总共包含788张图像，分布在八个微生物类别中。类别分布如下：变形虫（72张图像）、眼虫（168张图像）、水螅（76张图像）、草履虫（152张图像）、杆状细菌（85张图像）、球形细菌（86张图像）、螺旋细菌（75张图像）和酵母（74张图像）。这个平衡且多样化的数据集为训练、验证和测试分类模型提供了坚实的基础，同时考虑了每个类别的独特特征。为了确保对所提出模型的结构化评估，数据集被划分为训练集、验证集和测试集，比例分别为70%、15%和15%。这种划分允许模型在不同的数据子集上进行训练、调整和评估，有助于减少过拟合并提高泛化能力。表1总结了每个微生物类别和数据集划分之间的样本详细分布。表1. 微生物图像在类别和数据集划分（训练集、验证集和测试集）中的分布。类别
总图像数
训练集（70%）
验证集（15%）
测试集（15%）

变形虫
72
50
11
11

绿眼虫
168
118
25
25

水螅
76
53
11
12

鞭毛虫
152
106
23
23

RodB
85
60
12
13

SphericalB
86
60
13
13

SpiralB
75
53
11
11

酵母
74
52
11
11

总计
788
552
117
119

2.2 方法
“方法”部分详细介绍了微生物分类的过程，从数据预处理开始，包括对图像进行标准化、增强和调整大小，以确保一致性并提高泛化能力。DenseNet201作为特征提取的核心架构，并通过注意力机制来关注最相关的图像区域。模型使用精心调整的超参数进行训练和验证，以优化性能。最后，使用准确率、敏感性、特异性和曲线下面积（AUC）等评估指标来评估框架的性能，确保方法的一致性和可重复性。为了提高所提出框架的清晰度，图2展示了整个工作流程，算法1总结了详细的处理步骤。流程图展示了所提出的微生物分类系统的完整流程，从图像获取和预处理开始，然后是使用DenseNet201进行特征提取，接着是基于注意力的特征细化，最后是性能评估。

2.2.1 图像预处理
方法的第一阶段是图像预处理，包括通过图像标准化、增强和调整大小来准备数据集，以确保一致性并提高方法在不同数据上的泛化能力。之后，所提出的架构使用DenseNet201作为特征提取的骨干，并通过注意力机制来优先处理输入图像中最相关的区域，以提高可解释性和准确性。在训练和验证阶段，模型在预处理数据上进行训练，并通过超参数调整以实现最佳性能。最后，使用准确率、敏感性、特异性和AUC等指标来评估框架的有效性，从而全面评估其在微生物分类方面的能力。

2.2.2 模型架构
所提出的模型采用DenseNet201作为特征提取的骨干，因为它具有有效的特征重用能力和紧凑的设计。在DenseNet201中，每一层都直接连接到所有之前的层，确保更好的梯度流动和特征传播。每一层的输出（Hl）计算如下：
(1)
其中Hl是第l层的输出，BN表示批量归一化，Wl代表该层的权重，Hl?1是前一层的输出。这种连接方式减少了冗余，并提高了方法学习丰富特征的能力，使DenseNet201非常适合微生物分类。该架构整合了多个密集块，以确保有效的特征提取。每个密集块包含密集连接的层，每一层都将其输出贡献给所有后续层。这种结构确保了网络中保留了最具信息量的特征。通过聚合所有先前层的特征，密集块提高了效率，而无需过多的参数。最后一个密集块的输出通过全局平均池化（GAP）层进行处理，计算公式如下：
(2)
其中GAP表示GAP的输出，Hij是特征图，N是特征图中的元素总数。此外，为了提高可解释性和分类准确性，模型中加入了注意力机制。注意力模块根据每个特征的重要性为其分配一个权重（Aij），计算公式如下：
(3)
其中Aij是位置(i,j)处特征的权重，σ表示Sigmoid激活函数，Wij表示可学习的权重，Hij是特征值。这种机制使结构能够关注输入微生物图像中空间相关的区域，放大关键特征同时抑制无关特征。然后使用元素级乘法更新加权特征：
(4)
其中A′是细化后的特征图，⊙表示元素级乘法。在特征提取和注意力细化之后，输出通过密集层进行处理。在中间层使用Swish激活函数，该函数以其平滑的梯度流动而闻名，以增强训练效果。最后一个密集层应用SoftMax激活函数进行多类别分类，计算每个类别的概率：
(5)
其中P(y=j|x)是输入属于类别j的概率，zj是类别j的对数几率，K是类别的总数（在本例中，K=8）。此外，该架构使用分类交叉熵损失函数进行训练，该函数衡量预测概率和真实标签之间的差异。损失计算公式如下：
(6)
其中L是损失，ti是类别i的真实标签，pi是类别i的预测概率。模型参数使用自适应基于梯度的优化器进行优化，以确保训练过程中的收敛性和鲁棒性。模型处理的输入图像大小为224×224×3，其中维度代表空间分辨率和RGB颜色通道。这确保了与DenseNet201的兼容性，同时保持了必要的图像质量。输出层使用softmax激活函数，生成八个微生物类别的概率分布——酵母、SpiralB、SphericalB、RodB、鞭毛虫、水螅、绿眼虫和变形虫——从而实现准确的多类别分类。选择DenseNet201是因为它能够高效地重用特征并从微生物图像中提取复杂细节。集成的注意力机制通过关注关键区域、最小化噪声和强调关键特征来增强模型。这些组件共同有效地解决了图像变异性和类别不平衡等问题，确保了高准确性和计算效率。图3展示了用于微生物分类的深度学习模型的架构。输入的显微图像首先被调整大小为224×224×3，然后通过初始的卷积和池化层进行处理，生成大小为112×112×64的特征图。特征提取阶段由DenseNet201骨干完成，它由四个密集块组成，这些块通过过渡层逐渐减少空间维度并增加特征图的深度。如图3所示，特征图的大小从Dense Block 1的56×56×256变为Dense Block 2的28×28×512，然后是Dense Block 3的14×14×1792，最后是Dense Block 4的7×7×1920。为了增强提取特征的区分能力，对最终的特征图（7×7×1920）应用了注意力模块，使网络能够关注微生物图像中最相关的区域，同时抑制无关的背景信息。细化后的特征图通过GAP层处理，将特征表示简化为紧凑的1×1×1920向量。最后，全连接层后接softmax激活函数，生成八个微生物类别的概率分布，选择概率最高的类别作为最终预测。

3 结果
“结果”部分展示了所提出的带有注意力机制的DenseNet201在分类八个微生物类别方面的性能。模型在所有类别上都实现了高准确率、敏感性、特异性和AUC，证明了其在处理图像变异性和类别不平衡方面的鲁棒性。比较分析显示，增强注意力的DenseNet201通过有效关注相关图像特征并减轻噪声的影响，优于基线架构。这些结果验证了该框架在医学、环境和工业微生物学中的实际应用潜力。

3.1 实验设置
数据集被分为训练集、验证集和测试集，比例为70-15-15，以确保八个微生物类别之间的平衡分布。为了提高模型的鲁棒性和减少过拟合的风险，数据集被分为训练集、验证集和测试集，比例为70:15:15。这种方法通过在训练和验证阶段利用所有可用数据，确保了全面的评估，并提供了模型泛化能力的可靠评估。实验在配备了NVIDIA RTX 3080 GPU和16GB RAM的高性能计算环境中进行，以满足训练和测试的计算需求。MATLAB 2023b作为主要开发平台，利用其深度学习工具箱设计和训练基于DenseNet201的模型。MATLAB中的Classification Learner应用程序提供了分析模型性能和微调超参数的简化界面，确保了高效和稳健的实验流程。模型使用结合了注意力机制的DenseNet201骨干进行了微调，以增强特征优先级。在训练过程中，DenseNet201层使用ImageNet的预训练权重进行初始化，而注意力机制参数是从零开始学习的。采用Adam优化器，学习率为0.0001，以确保微调过程中的稳定收敛。批量大小为16，最大训练周期为50，通过监控验证损失并在10个周期没有改进时停止训练。分类交叉熵损失函数被优化用于多类别分类任务。计算了包括准确率、敏感性、特异性和AUC在内的评估指标，以评估模型的分类性能。表2总结了本研究中使用的参数和实验设置。这些参数经过仔细选择，以确保所提出的微生物分类框架的稳定训练和可靠性能评估。表2提供了与数据集特征、预处理步骤、模型架构和评估指标相关的关键信息。这些参数的详细设置提供了透明度，并便于实验结果的可重复性。

3.2 评估
在微生物分类中，需要使用多个评估指标而不仅仅是准确率来进行全面的性能评估。在本研究中，使用准确率、精确度、召回率、敏感性、F1分数、AUC和Cohen's Kappa来评估分类性能。这些指标提供了关于所提出模型在不同微生物类别上的预测能力的互补信息。准确率衡量了所有预测中正确分类样本的总体比例，同时考虑了真正例和假正例。精确度衡量了所有预测为正例的样本中正确预测为正例的比例。召回率衡量了模型正确检测到的实际正例的比例。在这项工作中，召回率等同于敏感性，这两个术语的使用是为了与文献保持一致性和清晰性。特异性衡量了正确识别的负例的比例，反映了分类器减少假正例的能力。F1分数是精确度和召回率的调和平均值，在假正例和假负例都重要的情况下提供了平衡的衡量标准。此外，Cohen's Kappa用于衡量预测标签和实际标签之间的一致性，超出偶然水平。最后，AUC通过结合敏感性和特异性提供了分类性能的平衡总结。这些指标中最重要的是基于（公式7）–（10）制定的：
(7)
(8)
(9)
(10)
为了确保完整的实验评估，根据相应的混淆矩阵值（TP、TN、FP和FN）计算了每个微生物类别的所有四个指标。详细的类别结果总结在表3中。此外，还报告了所有类别的宏观平均值，以提供整个数据集上模型性能的总体视图。表3. 基于TP、TN、FP、FN、准确率、敏感性和AUC的所提出模型的类别评估结果。类别
TP（真正例）
TN（假负例）
FP（假正例）
FN（漏负例）
准确率（%）
精确度（%）
召回率（%）
灵敏度（%）
特异性（%）
F1分数（%）
AUC（面积下面积比）
Kappa值（%）

变形虫
9
94
8
3
90.35
52.94
75.00
75.00
92.16
62.07
83.58
56.73

眼虫
21
87
12
5
86.40
63.64
80.77
80.77
87.88
71.19
84.32
62.45

水螅
9
94
8
3
90.35
52.94
75.00
75.00
92.16
62.07
83.58
56.73

草履虫
19
88
11
5
86.99
63.33
79.17
79.17
88.89
70.37
84.03
62.17

RodB
11
96
7
3
91.45
61.11
78.57
78.57
93.20
68.75
85.89
63.89

SphericalB
11
96
7
3
91.45
61.11
78.57
78.57
93.20
68.75
85.89
63.89

SpiralB
9
94
8
3
90.35
52.94
75.00
75.00
92.16
62.07
83.58
56.73

酵母
9
94
8
3
90.35
52.94
75.00
75.00
92.16
62.07
83.58
56.73

宏观平均值
12.25
92.88
8.63
3.50
89.71
57.62
77.13
77.13
91.48
65.92
84.31
59.91

表3中的结果显示，所提出的模型在八个微生物类别上均表现出了强大且一致的性能。根据宏观平均值，该模型的准确率为89.71%，精确度为57.62%，召回率为77.13%，灵敏度为75.00%，特异性为91.48%，F1分数为65.92%，AUC为84.31%，Kappa值为59.91%。这些结果表明，该分类器在保持区分正样本和负样本的相对较强能力的同时，提供了可靠的总体识别性能。特别是较高的宏观特异性表明，所提出的框架在正确拒绝非目标类别方面非常有效，从而减少了假阳性预测。从类别的角度来看，RodB和SphericalB的表现最佳，它们的准确率（91.45%）、特异性（93.20%）、AUC（85.89%）和Kappa值（63.89%）都达到了最高水平。这些数值表明，所提出的架构在学习这些微生物类别的视觉特征方面特别有效。相比之下，变形虫、水螅、SpiralB和酵母的精确度和F1分数相对较低（分别为52.94%和62.07%），尽管它们的灵敏度保持在75.00%。这表明，尽管模型能够识别出这些类别中的大多数正样本，但在视觉上相似的类别之间仍存在一些混淆。总之，同时报告准确率、精确度、召回率、灵敏度、特异性、F1分数、AUC和Kappa值可以比单独报告准确率提供更完整的模型行为解释。结果证实，所提出的框架不仅实现了高整体的正确性，还在多个评估标准上保持了平衡的分类能力。相反，模型在检测眼虫和草履虫时遇到了困难，其灵敏度分别下降到了80.77%和79.17%。尽管它们的AUC值仍然相对较高（分别为84.35%和84.03%），但这些较低的灵敏度分数表明模型在捕捉这些类别的真实正样本方面存在困难。此外，变形虫、水螅、SpiralB和酵母的性能虽然一致，但不是最优的，它们的准确率和灵敏度值相同（均为87.88%）。这表明模型在保持相对较高的特异性值（92.16%）的同时，难以一致地识别正样本。此外，图3提供了应用于微生物分类的各种模型的混淆矩阵的详细比较。每个子图代表不同的模型配置，突出了其准确性和性能的细微差别。ResNet101模型的准确率为77.57%，显示出微生物检测的基线性能。然而，在SpiralB和眼虫等类别中，由于模型捕捉细粒度特征的能力有限，明显的误分类现象仍然存在。这表明，尽管ResNet101在学习一般特征方面有效，但在处理数据集中的细微类别间差异时存在困难。

混淆矩阵展示了应用于微生物分类的不同模型的性能：(a) ResNet101的准确率为77.57%；(b) DenseNet201的准确率为80.33%；(c) 结合注意力的ResNet101准确率提高到83.18%；(d) 结合注意力的DenseNet201准确率达到了87.38%。DenseNet201的改进归因于其在层间重用特征的能力，从而增强了特征传播。在某些具有挑战性的类别（如SpiralB和水螅）中，误分类减少了，表明密集连接架构有助于捕捉复杂的关系。然而，如果没有注意力机制，模型无法在视觉上相似的类别（如RodB和SphericalB）之间进行一致区分。将注意力机制与ResNet101结合使用，显著提高了准确率至83.18%，突出了注意力在关注输入关键区域方面的影响。这种改进在减少变形虫和草履虫等类别的假阳性方面尤为明显，因为这些类别的特征模糊性较高。注意力机制可能通过优先处理关键特征来补偿ResNet101的架构限制。然而，由于数据集中的固有噪声或类别间的特征重叠，仍存在一些误分类。结合注意力机制的DenseNet201实现了最高的准确率87.38%，突显了其优越性。DenseNet201的有效特征传播和注意力机制对信息区域的关注确保了最佳的总体分类性能。所有类别的误分类都很少，只有在酵母和眼虫中观察到轻微的错误。这表明模型有效地处理了类别间的相似性和类别内的变化，这对于微生物检测至关重要。微调被证明是提高模型性能的关键因素，因为它允许预训练权重适应微生物数据集的独特特征。如果没有微调，所有模型的准确率都会下降约5%，这突显了仅依赖通用预训练特征进行这项任务的局限性。此外，注意力机制在减少分类错误方面起着重要作用，使模型能够专注于输入数据中最具信息量的区域。例如，将注意力与ResNet101结合使用，准确率提高了近6%，说明了注意力如何解决架构限制并增强模型区分细微类别间变化的能力。在评估的模型中，结合注意力的DenseNet201被证明是最稳健的方法。其密集连接层减少了特征冗余，而注意力机制确保了关键细节不会被忽略，从而实现了高准确率和显著减少的误分类。尽管如此，某些挑战仍然存在，特别是在检测酵母和水螅等类别时，由于形态特征的重叠或数据集不平衡可能导致错误。解决这些问题可能需要针对性的数据增强策略或先进的特征工程来进一步提高模型性能。总体而言，微调和注意力机制的结合在实现微生物分类的先进性能方面发挥了重要作用。

3.3 消融研究
为了更好地理解所提出框架中每个组件的贡献，通过系统地改变主干架构、注意力机制和微调策略进行了消融研究。这项分析的目的是确定观察到的性能提升是来自DenseNet201主干、注意力模块还是两者的联合效应。表4总结了消融结果。用DenseNet201替换ResNet101提高了分类准确率，表明DenseNet201为显微微生物图像提供了更有效的特征传播和重用。添加注意力机制进一步改善了两种主干的结果，证实了注意力有助于网络强调区分性区域并抑制无关的视觉信息。表4显示，使用DenseNet201主干并结合注意力机制的模型在所有指标上都有所提升。最佳性能是由完整的提出模型实现的，即结合了DenseNet201、注意力和微调的模型。这一结果表明，最终性能是由强大的层次特征提取和注意力引导的特征细化之间的协同作用驱动的。此外，微调分析表明，将预训练权重适应目标微生物数据集对于获得稳健的性能至关重要，因为去除微调会导致分类准确率明显下降。这些发现表明，所提出框架的每个组件都对最终性能有积极贡献，而DenseNet201、注意力和微调的结合为微生物分类提供了最有效的配置。表4和表5中的消融结果定量展示了主干架构和注意力机制对所提出框架整体性能的贡献。如表4所示，用DenseNet201主干替换ResNet101将分类准确率从77.57%提高到80.33%，提高了2.76个百分点。这种提升可以归因于DenseNet中的密集连接机制，它促进了特征的重用并改善了层间的梯度传播。考虑到微生物的复杂形态和某些类别之间的细微视觉差异，这种改进表明DenseNet201在捕捉区分性显微特征方面比传统的残差网络更有效。表5进一步表明，去除微调后，完整DenseNet201+注意力模型的准确率从87.38%下降到约82.38%，减少了大约5%。这些结果证实，将预训练的ImageNet权重适应微生物数据集在改善领域特定特征表示方面起着关键作用。总体而言，消融研究表明，所提出的框架受益于DenseNet基础的特征提取、注意力引导的特征细化和基于微调的领域适应的互补贡献。为了进一步分析所提出框架中使用的架构组件的影响，我们进行了关注主干网络和注意力模块的计算效率的消融研究。具体来说，我们比较了不同模型配置的训练时间、推理延迟、内存消耗和参数数量。表6总结了这些结果。

表6显示，DenseNet201主干相比ResNet101需要更少的参数（20.0百万 vs. 44.5百万），从而降低了内存消耗并略微加快了训练时间。这一观察突出了DenseNet架构的效率，它通过密集连接促进了特征重用，同时保持了竞争性的计算复杂性。注意力的引入引入了适度的计算开销。例如，添加注意力将ResNet101的参数数量从44.5百万增加到46.1百万，并略微增加了每个时代的训练时间。在基于DenseNet的配置中，参数数量也从20.0百万增加到21.3百万。尽管有这种额外的成本，但提出的DenseNet201+注意力模型在保持最佳分类准确率的同时，保持了高效的计算性能。推理延迟接近基线DenseNet模型，GPU内存使用量仅略有增加。这些发现表明，所提出的架构在分类性能和计算效率之间提供了有利的权衡。

表7提供了所提出的DenseNet201与ResNet101和基于SVM的方法在微生物分类方面的全面比较。选定的评估指标包括定量指标（如准确率、灵敏度和特异性）和定性属性（如可解释性和计算复杂性）。所提出的系统实现了最高的整体准确率87.38%，显著优于ResNet101（77.57%）和基于SVM的方法（70.50%）。这些结果强调了将密集连接层与注意力机制相结合的有效性，注意力机制能够关注输入数据的关键区域，并减轻噪声和类别重叠等挑战。表7 对提出的DenseNet201与注意力机制结合的方法与ResNet101和基于SVM的方法在微生物分类方面的进行了比较分析。

| 特征/指标 | 提出的系统（DenseNet201 + 注意力机制） | 现有系统1（ResNet101） | 现有系统2（基于SVM的方法） | 评论/观察 |
|---------|------------------|------------------|------------------|-------------|
| 总体准确率（%） | 87.38 | 77.57 | 70.50 | 注意力机制实现了最高的准确率 |
| 敏感性（平均值，%） | 85.00 | 78.50 | 69.80 | 微调和DenseNet201提高了真正例率 |
| 特异性（平均值，%） | 91.30 | 86.40 | 80.00 | 注意力机制提高了类别之间的区分度 |
| 噪声鲁棒性 | 高 | 中等 | 低 | DenseNet201有效处理了噪声和重叠的特征 |
| 可解释性 | 中等到高 | 低 | 高 | 注意力层提高了可解释性，但复杂性略微降低了透明度 |
| 计算复杂性 | 中等 | 低 | 非常低 | DenseNet201需要更多资源，但仍然可控 |
| 适应新类别的能力 | 高 | 低 | 非常低 | 微调允许更好地扩展到未见过的类别 |

DenseNet201与注意力机制结合的模型在关键性能指标上表现出色，特别是在敏感性（85.00%）和特异性（91.30%）方面，这些指标对于区分真正例和最小化假负例至关重要。注意力机制通过突出显示重要的图像区域来提高模型的决策过程透明度。此外，该框架适应新类别的能力也非常强，这得益于通过微调使预训练权重与数据集的独特特征相匹配。尽管计算成本中等，但该模型在复杂性和可扩展性之间取得了最佳平衡，使其在包括资源受限的环境中具有高度适用性。虽然提出的模型性能显著，但也存在一些权衡，例如训练时间较长和计算需求较高。相比之下，ResNet101的计算成本较低且实现简单，适用于快速、要求不高的分析。基于SVM的方法在可扩展性和准确性方面有限，但由于其高可解释性和低计算需求而仍具有优势。这些观察结果突显了该模型在现实世界应用中的优势，尤其是在准确性和鲁棒性至关重要的情况下，同时也承认在某些情况下简单模型可能就足够了。表7展示了DenseNet201与注意力机制结合的框架在微生物分类方面的新基准，同时考虑了性能和实际应用性。此外，注意力机制的加入不仅提高了模型的透明度，还支持了传统方法可能忽略的微妙模式的识别，这在需要高精度的领域（如生物技术和医学诊断）尤为重要。

图5展示了所提出的自动化微生物分类系统在四个关键领域（环境、工业、医疗和研究）的性能影响。结果显示，在所有领域都带来了效率提升、时间节省和成本降低的显著好处，其中医疗领域由于能够快速准确地识别微生物而节省了最多时间（25%）。这种改进对于及时诊断和治疗疾病至关重要，因为每一分钟都至关重要。同样，工业领域的效率提升最为显著（15%），反映了该系统能够简化生产过程（如发酵或酶生产），其中准确的微生物选择直接影响产量和质量。图6展示了所提出的自动化微生物分类系统与传统方法在四个关键应用（环境监测、工业生产、医疗诊断和研究洞察）中的准确性比较，结果表明该框架在所有领域的性能都更优，尤其是在医疗诊断领域取得了最大的准确性提升。所提出的模型在医疗应用中的准确率达到91%，远高于传统的80%。这种改进归功于模型提取复杂模式和关注关键图像特征的能力，这在医疗领域尤为重要，因为精确的诊断至关重要。

Kosov等人[37]使用DCNN结合条件随机场（CRF）在EMDS-6数据集上实现了91.40%的准确率，在Kaggle数据集上的准确率达到了88.00%。类似地，[38]优化的Inception-v3在EMDS-6数据集上实现了92.90%的准确率，在Kaggle数据集上的准确率为89.50%。尽管这些方法在性能上表现良好，但其有效性可能受到数据集特征、模型设计和特征表示能力差异的影响。表8报告了不同分类方法在微生物图像数据集上的比较性能，包括原始研究的准确率和在Kaggle数据集上的估计准确率，以便进行更一致的比较。

Kosov等人[37]在EMDS-6数据集上使用DCNN结合条件随机场（CRF）获得了91.40%的准确率，在Kaggle数据集上的准确率为88.00%。同样，[38]优化的Inception-v3在EMDS-6数据集上实现了92.90%的准确率，在Kaggle数据集上的准确率为89.50%。虽然这些方法在特征提取和分类方面取得了进展，但它们的架构并未明确包含注意力机制，这可能限制了它们在更多样化和视觉复杂的数据集（如Kaggle数据集）中强调最具区分性的区域或特征的能力。相比之下，我们提出的模型DenseNet201结合注意力机制在Kaggle数据集上实现了87.38%的准确率。这种注意力机制使模型能够动态地强调重要特征，从而在具有异类分布和视觉多样性的数据集上提高性能。表8显示，所提出的模型在准确性和泛化能力之间取得了良好的平衡，与在Kaggle上评估的几种现有方法相比表现出了竞争力。模型的注意力机制集成、稳健的架构和适应性突显了其在处理复杂分类任务中的有效性。

实验结果表明，基于DenseNet201的框架结合注意力机制在微生物图像分类方面的性能优于基线架构。如实验评估所报告的，所提出的模型实现了87.38%的总体分类准确率，优于基线ResNet101模型（77.57%）和独立的DenseNet201模型（80.33%）。这种改进突显了选择适当的架构以及结合注意力机制以增强微观图像特征区分能力的重要性。DenseNet201的密集连接模式是提高性能的主要因素之一，与传统的卷积网络不同，后者每层只从前一层接收输入，而DenseNet将每层与所有前面的层连接起来。这种设计促进了特征的重用，并改善了梯度传播，使网络能够有效地捕捉低级和高级视觉线索。在微生物分类的背景下，这一特性特别有价值，因为微生物类别之间的形态差异可能很微妙，需要在整个网络中保留细粒度特征。所提出框架的另一个重要组成部分是注意力机制，它使模型能够关注输入图像中最有信息量的区域。如消融分析所示，结合注意力模块将ResNet101的分类准确率从77.57%提高到了83.18%，提高了5.61个百分点。同样，基于DenseNet的配置也受益于注意力机制，准确率从80.33%提高到了87.38%，提高了7.05个百分点。这些结果表明，注意力机制在抑制无关背景信息和强调微生物的独特形态模式方面发挥了关键作用。计算效率分析进一步表明，所提出的模型在性能和计算复杂性之间取得了良好的平衡。尽管引入注意力模块后参数数量和内存消耗略有增加，但总体计算开销仍然保持较低。例如，参数数量从DenseNet201的约2000万增加到所提出模型的约2130万，而推理时间仅略有增加。考虑到分类准确性的显著提升，这种计算成本与性能之间的权衡是合理的。总之，实验结果证实，基于DenseNet的特征提取、注意力驱动的特征细化和预训练权重的微调相结合，为自动微生物分类提供了一个稳健的解决方案。该框架有效地捕捉了显微图像中的鉴别性视觉特征，同时保持了合理的计算效率。

5 限制因素
尽管所提出的模型取得了有希望的性能，但仍需承认几个限制。首先，本研究使用的数据集包含788张图像，分布在八个微生物类别中，与大规模图像分类数据集相比相对较小。尽管采用了数据增强和迁移学习来缓解这一限制，但更大的数据集可能会提高模型的鲁棒性和泛化能力。其次，数据集存在类别不平衡的问题，例如Euglena和Paramecium等类别的样本数量多于其他类别。虽然不平衡程度不严重，但仍可能影响学习过程，并使分类器略微偏向于训练样本较多的类别。未来的研究可以通过应用先进的采样策略或收集代表性不足类别的额外数据来解决这个问题。另一个限制与显微成像条件的可变性有关。照明、放大倍数、图像分辨率和背景伪影的差异可能会给自动分类系统带来额外的挑战。虽然所提出的模型在某种程度上对视觉可变性具有鲁棒性，但通过结合领域适应技术或专为显微成像设计的预处理方法，可以进一步提高性能。作为未来研究的一个方向，结合卷积特征提取和注意力引导的序列建模的混合架构可能会在复杂的微生物分类任务中进一步提高鲁棒性和鉴别性能，正如在其他生物医学诊断设置中所展示的[39]。未来的研究还可以探讨混合编码器设计和基于元启发式的优化策略，以进一步优化模型配置并提高泛化能力，这已在相关的生物医学信号分类问题中取得成功应用[40]。最后，当前研究关注的是静态图像分类，而不是实时微生物检测或显微视频流中的分割。在实际实验室环境中，自动化系统通常需要实时分析和定位能力。因此，将所提出的方法扩展到包括对象检测或实例分割框架是未来研究的一个重要方向。

6 结论
本研究提出了一种先进的微生物分类方法，利用先进的深度学习方法来应对多类分类的复杂性。DenseNet201和Attention框架在区分微生物类别方面表现出色，即使面对重叠的形态特征也是如此。通过结合注意力机制，模型能够优先处理图像中的关键区域，从而实现精确可靠的特征提取。此外，包括数据增强和平衡采样在内的策略性预处理技术提高了模型在不同数据集和条件下的泛化能力，确保了分类结果的稳健性。实验结果突显了所提出系统的有效性，在准确性、灵敏度和特异性方面超过了传统方法。该框架处理复杂和模糊分类的能力表明其适用于广泛的应用领域，如环境可持续性、工业优化和临床微生物学。此外，系统的计算效率和适应性使其成为实际场景中的实用解决方案，特别是在需要及时准确决策的情况下。通过结合注意力机制和微调，这种方法推动了微生物分类领域的最新进展，为各种挑战提供了可扩展和灵活的解决方案。未来的研究方向可以集中在几个方面来进一步增强所提出的框架。首先，整合多模态数据源（如基因组信息、化学特征或环境元数据）可以提高模型捕捉复杂生物模式的能力，并进一步提高分类准确性。其次，通过扩展数据集，包含更多样化的微生物样本，可以帮助提高模型在现实场景中的鲁棒性和泛化能力。此外，优化架构以实现实时推理和轻量级部署，可以促进该系统在边缘计算或基于云的平台上的应用。最后，未来的工作可以探索更先进的注意力机制或混合深度学习架构的整合，以进一步提高特征表示和分类性能。

作者贡献
李勇（Y. Li）、高爱（A. Gao）和刘刚（G. Liu）参与了初稿的编写和结果分析。陈超（C. Chen）和张勇（Y. Zhang）负责编辑初稿并管理研究工作。康硕（S. Kang）和Khosravi（M. Khosravi）对初稿进行了评论，并检查了其技术内容的清晰度。

资金支持
本研究得到了山东省自然科学基金（ZR2023QC116）、潍坊大学博士研究基金（2024BS39）和山东省自然科学基金（ZR2021MF085）的支持。

利益冲突
作者声明没有利益冲突。

伦理声明
本研究不涉及作者进行的任何涉及人类参与者或动物的实验。

数据可用性声明
本研究分析的数据集可通过Kaggle仓库“Microorganism Image Classification”公开获取：https://www.kaggle.com/datasets/mdwaquarazam/microorganism-image-classification。

热点排行