基于多任务学习的微镜图像中浮游植物自动群体细胞计数方法

《Journal of Microbiological Methods》:Automatic colony cell counting method of phytoplankton in microscopic images with multi-task learning

【字体: 时间:2026年01月25日 来源:Journal of Microbiological Methods 1.9

编辑推荐:

  藻类自动识别与细胞计数的多任务学习模型研究。基于ResNet50架构,通过交替训练两个分支实现物种分类与密度估计的同步优化,在巢湖16种 colonial藻类数据集上,分类准确率达99.2%,计数MAE为1.29,有效解决 colonial藻类形态多样导致的计数误差问题。

  
贾仁清|尹高峰|赵南京|张敏|朱超|梁天宏|张静泽|袁长标|陶佳敏|彭云
中国科学院合肥物质科学研究院安徽光学精密机械研究所,中国合肥230031

摘要

浮游植物是水生生态系统中的关键生物指标,其物种分布和细胞数量是环境评估的重要指标。尽管基于图像的自动识别技术已经取得了进展,但准确计数群体细胞仍然具有挑战性。本文提出了一种新的方法,可以同时实现浮游植物的识别和细胞计数。该方法以ResNet50作为骨干网络,从藻类群体的显微图像中提取深度特征,然后将这些特征分别输入两个并行分支进行分类和计数,通过交替训练更新模型参数。在巢湖16种常见群体藻类上进行评估时,该方法实现了99.2%的识别准确率和93.9%的平均计数准确率,平均绝对误差和均方误差分别为1.290和2.263。该方法通过将识别和计数整合到一个统一的框架中,有效克服了与群体浮游植物相关的挑战,为自动监测水生藻类提供了可靠的工具。

引言

浮游植物是水生生态评估中不可或缺的指示生物,而这种评估的有效性在很大程度上依赖于准确的物种识别和细胞计数(Henley, 2019)。这是因为特定藻类数量的变化与关键的生态事件直接相关。例如,微囊藻的增殖预示着致癌性肝毒素的风险(Reid et al., 2024),而假菱形藻细胞数量的迅速增加则是水体中2-甲基异波醇(geosmin)产生的直接指标(Su et al., 2022)。如果没有在物种水平上区分和量化藻类的能力,藻类群落的结构变化就无法转化为明确的预警信息。因此,对单个藻类物种进行准确的细胞计数是必不可少的。它们构成了原始浮游植物数据与可操作管理策略之间的关键联系,在保护水质和生态系统健康方面发挥着重要作用。
目前的浮游植物分析方法包括手动显微镜检查(Peniuk et al., 2016)、荧光光谱(Thiviyanathan et al., 2024)、分子生物学方法(Smucker et al., 2025)以及图像识别和计数(Yuan et al., 2023)。其中,手动显微镜检查仍然是藻类识别的主流方法,但它耗时、劳动密集,并且严重依赖受过培训的专业人员。荧光光谱利用不同藻类门类之间的色素组成差异进行细胞计数,但只能达到门级水平,无法区分物种。分子生物学方法涉及从藻类样本中提取DNA,扩增和测序特定基因片段,并与参考数据库进行比对以进行物种识别。图像识别和计数方法包括获取浮游植物的显微图像,并应用机器学习或深度学习技术提取形态特征以进行藻类识别。近年来,随着深度学习在图像处理和识别方面的快速发展,基于显微图像分析的浮游植物识别技术迅速发展,已成为取代手动显微镜检查的最有前景的先进方法。
已经进行了大量关于基于显微图像的浮游植物识别和细胞计数的研究。在浮游植物图像识别领域,Pant(Pant et al., 2020)首次建立了用于圆盘藻识别的CNN方法,他们修改的ResNeXt模型取得了98.45%的准确率。Yadav(Yadav et al., 2020)开发了一个改进的ResNeXt模型,对16种藻类进行了分类,准确率达到99.97%。Liang(Liang et al., 2024)将特征相似性指标应用于ResNet,解决了数据集不平衡的问题,微F1分数提高了5.69%,宏F1分数提高了11.85%。尽管在微藻的分类识别方面取得了显著进展,但针对显微群体浮游植物图像的细胞计数方法的研究仍然相对有限。Peng(Peng et al., 2024)提出了一种定量分析方法,用于处理包含41个浓度梯度的图像数据集。然而,该方法无法对不同藻类物种进行细胞计数。Krause(Krause et al., 2020)使用全卷积神经网络和边界框检测技术在显微图像中计数单细胞硅藻,获得了0.82的F1分数。Zhang(Zhang et al., 2024)开发了一种基于微流控的单细胞浮游植物计数方法,使用图像去重算法消除连续帧中的重叠,将计数误差降低到了1.15%。然而,自然水中的浮游植物通常通过细胞分裂或粘附形成群体,表现出多种形态结构(Yang et al., 2008)。例如,圆盘藻通常形成由4、8、16、32、64或128个细胞组成的厚而扁平的圆盘状群体(Yu et al., 2024),而Scenedesmus则表现为长圆形、卵形或近似球形的群体细胞(Condori et al., 2024)。相比之下,微囊藻的群体特征是不规则的细胞聚集(He et al., 2024)。目前计数群体浮游植物的方法主要依赖于根据图像中的群体表面积估计细胞数量(Park et al., 2019)。然而,藻类细胞的大小差异很大,且经常相互粘附,导致较大的误差。一些研究人员为某些群体类型开发了特定的形态计数技术。例如,Giraldo-Zuluaga(Giraldo-Zuluaga et al., 2018)将Scenedesmus分为五类(1/2/4/8/16个细胞),并将分类结果直接转换为细胞计数。尽管如此,浮游植物包含大量的分类单元,为每种群体开发人工计数方法涉及高昂的成本,并且在不同藻类物种之间的通用性有限。
自然水体中的浮游植物通常以群体形式存在,这使得现有的细胞计数方法无法直接应用。本研究创新性地引入了来自人群计数的密度估计概念(Zhang et al., 2016; Song et al., 2021),开发了一个基于多任务学习的通用模型,用于浮游植物显微图像识别和细胞计数。该模型使用ResNet(He et al., 2016)作为共享骨干网络,通过交替训练优化物种分类和细胞计数分支的参数,基于密度图实现了对各种群体形态的浮游植物的端到端准确计数。所提出方法的有效性通过平均绝对误差(MAE)和均方误差(MSE)等指标的比较结果得到了验证。

数据集

巢湖是中国五大淡水湖之一,具有重要的生态和经济价值,因此成为本研究中浮游植物采样的研究区域。从湖内的八个国家监测站的多个试点站点收集了等体积(每个500毫升)的水样。向样品中加入了浓度为2%的卢戈尔碘溶液进行保存。

结果与讨论

使用16类浮游植物作为实验对象,数据集被分为训练集和测试集,比例为8:2。模型在训练集上进行了400个周期的多任务交替训练,然后在测试集上进行了评估。实验在以下硬件和软件配置下进行:GPU:NVIDIA GeForce RTX 3090(24 GB VRAM);CUDA版本:13.0;深度学习框架:PyTorch 2.2.2;Python版本:3.9.19。

结论

作为高度敏感的生物指标,浮游植物为水生生态系统的健康提供了重要见解,其分类多样性和细胞数量是环境评估的重要指标。虽然深度学习技术在自动浮游植物识别方面取得了显著进展,但在准确量化群体物种内的细胞数量方面仍存在明显差距。本研究通过引入一个多任务深度学习模型,同时解决了这一差距

CRediT作者贡献声明

贾仁清:撰写——原始草稿、方法论、资金获取、概念化。尹高峰:撰写——审阅与编辑、资金获取。赵南京:资源、项目管理、资金获取。张敏:监督、资源、资金获取。朱超:验证、监督、资源。梁天宏:可视化、验证、方法论。张静泽:可视化、验证、资源。袁长标:可视化、验证、软件。

资助

本研究得到了以下资助:国家重点研发计划(2021YFC3200100);合肥综合性国家科学中心环境研究所研究团队建设项目(资助编号HYKYTD2024004);安徽省生态环境研究项目(资助编号2023hb0011、2024hb012);HFIPS主任基金(资助编号YZJJ2024QN01);安徽省重大科技项目(资助编号202203a07020002)

利益冲突声明

作者声明没有可能影响研究结果的财务或其他利益。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号