CDNet：一种结合知识蒸馏和疾病置信度分类的两阶段病变检测框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：CDNet: A two-stage framework for lesion detection with knowledge distillation and disease confidence classification

【字体：大中小】 时间：2026年05月10日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　沪国祥童上海科技大学光电子信息与计算机工程学院，上海，200093，中国摘要深度学习技术在医学图像病变检测和疾病分类领域非常有效。因此，我们开发了一个两阶段模型。整合这两种方法的优点是关键，它可以显著提高检测准确性。该模型利用具有编码器-解码器结构的重建网络来准确区分健

　　沪国祥童

上海科技大学光电子信息与计算机工程学院，上海，200093，中国

摘要
深度学习技术在医学图像病变检测和疾病分类领域非常有效。因此，我们开发了一个两阶段模型。整合这两种方法的优点是关键，它可以显著提高检测准确性。该模型利用具有编码器-解码器结构的重建网络来准确区分健康和病变图像特征。同时，通过知识蒸馏和双编码器结构来减轻病变区域的过度泛化，从而优化病变区域识别。此外，还采用了U-Transformer架构和通道交叉融合Transformer。本文提出了一种高效的多尺度特征提取和重建方法，旨在提高模型的分类准确性和鲁棒性。将病变区域的热图与原始图像一起输入到Vision Transformer中进行置信度分类，从而实现了高精度的疾病分类。为了验证模型在病变检测中的性能，与最先进模型的比较实验表明，病变检测的准确率达到了93.5%，灵敏度达到了98.7%。此外，消融实验验证了每个病变检测模块的有效性。预测的疾病类别和置信度分数为医生提供了参考辅助信息。

引言
深度学习技术广泛用于病变检测和诊断。例如，在视网膜病变诊断[1]、乳腺癌筛查[2]和皮肤癌识别[3]等任务中，深度学习技术的诊断准确性高于传统方法。在当前的学术研究中，病变检测和疾病分类通常被视为两个不同的研究领域。疾病分类通过从医学图像中提取高级语义信息和宏观特征来实现对不同病理状态的识别。相比之下，病变检测专注于发现图像中的细微病理变化，以准确识别疾病的异常区域。尽管技术上存在差异，但在实际的医学诊断过程中，病变检测和疾病分类通常是连续进行的。首先确定病变的精确位置和大小，然后对病变特征进行分类。这种连续观察提高了诊断的准确性。为了整合病变检测和疾病分类的过程，开发了一个新的算法框架。该框架模仿了临床医生在诊断过程中的思维过程。结合病变检测和疾病分类的优势可以提供更有效的诊断辅助。

在病变检测领域，基于重建的网络方法已成为研究的焦点[4]，[5]。通过编码器-解码器架构学习健康医学图像的潜在特征是该方法的核心。由于健康图像与模型训练期间学习的正常模式一致，因此推断中的重建误差很小。相比之下，病变图像由于特征偏离正常模式而具有较大的重建误差。通过识别这些误差的规模，模型能够有效区分健康和病变图像，并定位到病变区域。然而，在训练阶段缺乏病变样本可能导致病变样本的重建特征与健康样本的重建特征难以区分。即使在存在病理变化的情况下，重建网络仍可能过度泛化，从而生成与原始图像相似的特征表示。通过知识蒸馏模型可以大幅减轻图像重建过程中的过度泛化现象。以DeSTSeg[6]模型为例，该模型采用了教师网络和学生网络之间的协作训练策略，学生网络处理损坏的图像，教师网络处理未损坏的图像。通过减少两者之间的特征差异，增强了对异常数据的约束，并降低了模型在异常图像中的重建能力。这可以有效减少模型在异常图像上的过度泛化。类似地，RKD模型[7]引入了伪异常输入，通过使用一类瓶颈嵌入来筛选异常信息，使模型在异常信息定位方面实现更高的准确性。所有上述方法都是通过人工在随机位置生成伪异常图像来限制重建模型的泛化能力。然而，以这种方式对医学图像进行病理变化建模并不是最佳解决方案。因为病理变化通常局限于特定区域，例如气胸病变通常发生在肺的边缘，如果使用随机位置的伪病变进行训练，模型的性能会较差[7]。即使是使用与真实病变特征相反的伪病变图像进行训练也会干扰模型拟合。为了解决这个问题，采用了一种改进的方法。使用多类数据集中的其他类别的图像作为病变样本，并与健康样本配对进行训练。最后，基于编码器-解码器使用了学生网络来重建健康图像。然后复制编码器以构建教师网络，形成双编码器结构。学生网络专注于病变图像，而教师网络专注于健康图像。通过知识蒸馏技术，学生网络能够从教师网络学习健康图像的特征表示，从而有效地过滤出特征空间中的病变信息。

另一种抑制过度泛化现象的策略是采用Transformer模型架构。Transformer动态计算序列中每个元素的Query和Key以生成注意力权重。然后使用这些权重对相应值进行加权求和，作为自注意力输出。这个输出将作为序列的新表示。这种方法要求Transformer仔细分析数据而不仅仅是复制它，从而增加了模型重建的难度，并有助于抑制模型的泛化能力。然而，Transformer架构计算资源密集。为了解决这个问题，Chen等人[8]提出了一种创新的增强方法。他们设计了一种高效的多阶段Transformer编码器-解码器架构，采用U形设计。并在编码器的下采样阶段引入全局信息，使用头部潜变量，显著减少了训练过程中的计算负载。这种设计不仅保留了Transformer架构的优势，还提高了模型的计算效率。因此，利用三级跳跃连接的U-Transformer来生成不同尺度的图像特征，并通过解码器聚合这些多尺度特征来构建全局上下文。这种设计显著提高了模型在图像重建任务中的准确性。Wang等人[9]指出，在编码器下采样的多尺度特征融合过程中，与真实图像存在语义差异。这种差异表现为不同尺度和不同通道下的特征具有相同的重要性，而实际情况并非如此。因此，他们提出的UCTransNet架构引入了一种创新的通道交叉融合Transformer（CCT）。CCT专注于融合来自通道维度的多尺度上下文信息，并利用交叉注意力机制捕获局部跨通道相互作用。在我们的工作中，CCT被用作U-transformer重建网络中的瓶颈层。三级Transformer编码器能够捕获图像高度和宽度的多尺度2D特征。这些特征被输入到通道交叉融合瓶颈（CBN）中，完成通道级的交叉注意力，最终形成多尺度3D注意力特征。同时，编码器和CBN形成了3D特征提取器。在获取多尺度图像特征时，3D特征提取器调整了模型对全局和局部特征的依赖性，使我们的模型能够更好地忽略局部噪声的干扰，进一步提高重建图像的质量。

为了利用重建网络获得的病变区域来提高疾病分类的准确性，采用了经验丰富的医生使用的诊断过程。医生通常首先识别病变区域，然后分析该区域的特征，最后根据这些特征进行诊断。由重建模型生成的病变热图与原始图像结合作为输入到分类模型中，以增强对病变区域的关注。使用Vision Transformer作为置信度分类网络，不仅输出图像类别，还通过训练置信度分数来校准病变检测结果。

我们的贡献如下：
(1) 设计并实现了一种创新的两阶段模型，整合了病变检测和疾病分类过程，通过模拟临床诊断过程来提高整体检测效率和准确性。
(2) 采用了基于U-Transformer架构的3D特征提取机制，包括三级跳跃连接的Transformer编码器和通道交叉融合瓶颈。这不仅捕获了图像的多尺度特征，还通过调整模型对全局和局部特征的权重分配来提高重建质量。
(3) 提出了一种双编码器知识蒸馏训练方法，旨在提高病变检测的准确性。通过并行训练健康特征重建任务和疾病特征过滤任务，有效减少了病理特征的过度泛化。
(4) 将病变检测阶段获得的病变信息整合到疾病分类模型中，以增强模型识别关键病理区域的能力。还引入了置信度分类网络来校准模型的病变检测，进一步提高分类的准确性和可靠性。

多阶段疾病诊断策略的深度学习模型
在医学图像分析研究中，使用多阶段策略已成为提高多病变识别准确性的广泛认可的方法。这种策略将整个诊断过程分解为连贯的步骤，每个步骤专注于执行特定任务，如特征提取、病变分割、定位、分类和置信度评估。这种逐步的方法虽然提高了准确性，但不可避免地导致模型复杂度显著增加。

如图1所示，该模型整合了病变检测和分类功能。训练包括两个阶段：首先训练病变检测网络，然后训练置信度分类网络。病变检测是通过重建网络实现的。具体来说，它比较健康和病变图像之间的重建差异。具有显著差异的图像被分类为疾病样本，而像素重建误差较大的区域...

实验细节
训练图像被调整为512×512像素的固定大小，然后随机裁剪相同大小的补丁以减轻模型过拟合。最初，使用Adam优化器训练重建模块以最小化损失。在此步骤中，最大训练周期设置为150，批量大小设置为2。学习率为1×10^-4。Adam的Beta参数设置为(0.5,0.999)。接下来，固定重建网络，然后训练置信度...

讨论
提出了一个多阶段辅助诊断网络的设计。该网络基于用于病变检测的重建算法，并借鉴了行业中的异常检测算法。在跨领域应用中，面临匹配医学图像中的健康和疾病样本的挑战。当前通过随机匹配健康和疾病样本来构建训练集，这一过程保证了疾病样本的真实性。然而，由于...

结论与未来
本文提出了一种创新的多阶段计算机辅助检测模型。该模型结合了一个先进的双编码器重建网络和一个置信度分类网络，显著提高了医学图像中病变区域的检测和分类准确性。U-transformer结构通过编码器-解码器结构的跳跃层连接大大降低了模型的计算负载。知识...

CRediT作者贡献声明
胡芳宁：撰写——原始草稿，方法论。
国祥童：撰写——审阅和编辑。

在撰写过程中使用生成式AI和AI辅助技术的声明
在准备本工作时，作者使用了Kimi来提高手稿的可读性和语言质量。在使用该工具后，作者根据需要对内容进行了审查和编辑，并对发表文章的内容承担全部责任。

**资金来源**
本研究未获得来自公共部门、商业部门或非营利组织的任何特定资助。

**利益冲突声明**
作者声明他们没有已知的可能会影响本文所报道工作的财务利益冲突或个人关系。

联系信箱：

粤ICP备09063491号

热点排行