用于不平衡血细胞分类的耐污域对齐技术

《Information Fusion》:Stain-aware Domain Alignment for Imbalance Blood Cell Classification

【字体: 时间:2026年01月21日 来源:Information Fusion 15.5

编辑推荐:

  针对血液细胞图像分类中的数据不平衡和领域转移问题,提出SADA方法,通过染色感知增强生成跨领域样本,设计局部对齐约束提取不变特征,结合不变式监督对比学习提升分类性能,实验表明在五个数据集上优于现有方法。

  
李永城|蔡凌聪|卢颖|韩晓|李玛|赖文星|张向中|范晓毛
中国广东省深圳市深圳技术大学大数据与互联网学院,邮编518118

摘要

血细胞识别对于血液学分析至关重要,因为它有助于医生诊断各种与血液相关的疾病。在现实世界中,血细胞图像数据集常常存在领域偏移和数据不平衡的问题,这给准确识别血细胞带来了挑战。为了解决这些问题,我们提出了一种新的血细胞分类方法,称为SADA,该方法通过感知染色的领域对齐来实现。本研究的主要目标是在存在领域偏移和数据不平衡的情况下挖掘领域不变特征。为此,我们提出了一种基于染色的增强方法和局部对齐约束来学习领域不变特征。此外,我们还提出了一种领域不变的监督对比学习策略来捕捉具有区分性的特征。我们将训练过程分为两个阶段:领域不变特征学习和分类训练,从而缓解了数据不平衡的问题。在四个公开的血细胞数据集以及从中山大学第三附属医院收集的一个私有真实数据集上的实验结果表明,SADA能够达到一个新的最佳水平,优于现有的先进方法。源代码可以在以下URL获取:https://github.com/AnoK3111/SADA

引言

血细胞分析是一种普遍的诊断方法,用于识别和监测多种疾病,如白血病、贫血、感染、自身免疫性疾病和其他与血液相关的疾病[1]、[2]、[3]。因此,准确和迅速地分类血细胞在临床实践中至关重要,它在及时发现血细胞疾病方面发挥着关键作用。这一过程处于医学诊断的最前沿,通过早期识别和管理与血液相关的疾病来确保有效的治疗。
在临床实践中,血细胞的识别传统上需要由熟练的专家使用显微镜进行手动检查,这是一个重复性高、劳动强度大且耗时的过程。最近,在深度学习模型用于解决各种领域的实际分类任务方面取得了显著进展[4]、[5]、[6]、[7]。一些研究人员也尝试将深度学习模型应用于血细胞分类[8]、[9]、[10]、[11],并取得了有希望的结果。然而,从不同实验室和医院收集的血细胞图像通常存在显著的领域偏移和数据不平衡,如图1所示。领域偏移会降低模型的泛化性能,导致在未见数据集上的表现不佳。同时,数据不平衡可能导致模型对少数类别的表现较差。
关于数据不平衡的问题,现有的解决方法主要可以分为三类:类别重平衡、多专家学习和多阶段训练。类别重平衡包括重采样[12]和重新加权[13],旨在在训练过程中重新调整每个类别的贡献,虽然可以提高整体性能,但通常会牺牲多数类别的准确性。多专家学习[14]、[15]利用不同的模型从不同角度获取知识,从而在推理阶段增加复杂性。多阶段训练[16]、[17]将训练过程分为多个阶段,可以在不改变模型架构的情况下实现有竞争力的性能。
关于领域偏移的问题,领域泛化是一种有效的解决方案,它通过从不同领域提取领域不变特征来实现。这可以通过多种方法实现,包括数据增强和通用特征对齐。数据增强扩展了训练数据集,使模型能够更好地适应不同的领域特征,例如Mixup[18]和AutoAugment[19]。然而,这些方法忽略了血细胞图像本身就包含领域不变特征(即血细胞的形态)这一事实。通用特征对齐利用统计分布匹配目标来最小化潜在特征空间中的领域差异,从而使模型能够通过强制跨源领域的一致性来实现领域不变表示学习,例如SAGM[20]、SelfReg[21]和GGA[22]。然而,这些方法主要在特征空间中起作用,没有结合血细胞形态特有的物理约束,这影响了它们在血细胞分类任务中的性能。
除了领域泛化方法之外,最近的研究还探索了显式的频域对齐和结构化特征风格化,以增强模型在领域偏移下的鲁棒性。例如,李等人[23]引入了JDAAL,这是一种多源领域泛化方法,它使用多核最大均值差异和对抗性自动编码器来对齐不同源领域的特征分布,显著提高了模型的泛化能力。同样,黄等人[24]提出了FSDR,该方法使用离散余弦变换(DCT)分解图像,仅随机化领域变化的频率带,并保留不变成分——从而在不访问目标领域数据的情况下有效提高分割和分类性能。此外,高等人[25]提出了一个多源领域信息融合网络(MDIFN),该网络将对抗性迁移学习与多个源领域的细粒度多领域特征融合相结合,有效地提取了领域不变表示,并在可变操作条件下实现了鲁棒的故障诊断。这些工作共同强调了从多个角度对齐领域特定表示的有效性,这启发了我们提出的SADA的设计。
在本文中,我们提出了一种新的物理约束领域对齐方法,称为SADA,用于通过感知染色的领域对齐来进行不平衡的血细胞分类。具体来说,我们首先提出了一种基于染色的增强方法,该方法生成包含来自源领域的领域特定信息的领域转换样本,同时保留领域不变特征。为了鼓励模型捕获领域不变特征,我们设计了一个局部对齐约束,使原始样本和领域转换样本在特征图层面保持一致。此外,我们提出了一种领域不变的监督对比学习策略,通过将原始样本和领域转换样本作为锚点进行平均,从而减轻领域特定特征的影响并促进具有区分性的特征学习。值得注意的是,我们将训练过程分为领域不变特征学习和分类训练两个阶段,从而缓解了数据不平衡的问题。在四个公开的血细胞数据集以及从中山大学第三附属医院获得的真实数据集SYSU3H(IRB编号RG2023-265-01)上的实验结果表明,我们提出的SADA达到了最佳水平,平均F1-micro和F1-macro分数分别比第二好的方法(即SAGM[20])高出2.6%和2.8%。我们的主要贡献可以总结如下:
  • 1.
    我们提出了一种新的基于染色的增强方法,生成了领域转换样本,从而增强了样本领域的多样性和总体样本量。
  • 2.
    我们设计了一个局部对齐约束,以确保原始样本和领域转换样本在特征图层面保持一致,从而促进领域不变特征的捕获。
  • 3.
    我们引入了一种领域不变的监督对比学习策略,利用平均后的原始样本和领域转换样本作为锚点,有助于学习更具区分性的特征。
  • 4.
    我们将训练过程分为两个阶段:领域不变特征学习和分类训练,从而缓解了数据不平衡的问题。
  • 5.
    在四个公开数据集和一个私有数据集上的广泛实验结果表明,SADA的性能显著优于现有方法,取得了最佳结果。
  • 本文的其余部分结构如下。第2节回顾了医学图像分析、数据不平衡和领域对齐的相关工作。第3节详细介绍了提出的SADA方法。第4节展示了实验结果。第5节讨论了我们方法的局限性和未来工作的方向。最后,第6节总结了本文。

    部分摘录

    医学图像分析

    血细胞分类对于血液学疾病的诊断至关重要,最近在深度学习方面的进展——特别是卷积神经网络(CNN)——显著提高了这项任务的自动化程度[26]、[27]。尽管这些模型在各种数据集上表现出了令人印象深刻的性能,但由于领域偏移和数据不平衡等挑战,它们的泛化能力在现实世界的临床场景中仍然有限。
    这些局限性并不是独一无二的

    方法论

    图2展示了所提出的SADA的总体框架,包括两个阶段:(1)领域不变特征学习和(2)血细胞分类。在第1阶段,我们首先介绍了基于染色的增强方法来生成领域转换样本,结合了来自源领域的不同染色颜色(见第3.1节)。此外,我们提出了一种局部对齐约束来进行像素级对齐,从而鼓励模型捕获领域不变特征

    实验设置

    数据集。如表1所示,我们在五个血细胞图像数据集上进行了广泛的实验:Acevedo-20 [55]、LDWBC [56]、Raabin-WBC [57]、Zheng-18 [58],以及我们从中山大学第三附属医院获得的私有数据集SYSU3H(IRB编号RG2023-265-01)。值得注意的是,这五个数据集来自不同的实验室和医院,确保了数据集之间存在领域偏移。
    Acevedo-20:该数据集包含

    局限性和未来工作

    尽管SADA在多领域血细胞分类中取得了最佳性能,但仍有一些局限性需要进一步研究。首先,我们的研究仅专注于血细胞分类,这可能限制了其在更广泛的血液学分析中的适用性。将SADA扩展到病理学和其他领域,其中染色程序引入了领域变化,可能会提高其实用性,使其在现实世界的临床设置中得到更广泛的应用。其次,基于染色的

    结论

    在本文中,我们提出了一种新的血细胞分类方法,称为SADA,它包括基于染色的增强、局部对齐和领域不变的监督学习。基于染色的增强有效地丰富了样本领域的多样性,并进一步增加了样本量。通过局部对齐约束,模型可以在特征图层面捕获领域不变特征。领域不变的监督学习利用了原始样本的质心

    CRediT作者贡献声明

    李永城:撰写——原始草稿、方法论、调查、形式分析、数据管理。蔡凌聪:验证、方法论、形式分析。卢颖:验证、形式分析、数据管理。韩晓:验证、调查、数据管理。李玛:验证、调查、数据管理。赖文星:验证、调查、数据管理。张向中:撰写——审稿与编辑、资金获取。范晓毛:撰写——审稿与编辑、监督、资源管理,

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号