MH-UNet：一种用于高级医学图像分割的多尺度混合神经网络

《Biomedical Signal Processing and Control》：MH-UNet: A multi-scale hybrid neural network for advanced medical image segmentation

【字体：大中小】 时间：2026年03月24日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　医学图像分割中，现有方法在捕捉局部纹理与全局形状依赖时存在局限。本文提出MH-UNet框架和DSMamba模块，通过融合CNN（处理局部短期依赖）、Transformer（建模全局长程关系）和Mamba（高效长序列建模），构建多尺度混合架构。实验表明，MH-UNet在Synapse（Dice 85.02% ± HD95 8.95）和ACDC（Dice 92.32%）数据集上显著优于SOTA方法，验证了DSMamba模块在保留空间连续性方面的有效性。

李凌毅|谢丽萍|秦云霄

北京智联英和科技有限公司，中国北京，100011

摘要

对于有效的医学图像分割而言，具有短期依赖性的局部纹理信息和具有长期依赖性的全局形状信息都至关重要。最近的方法通常使用卷积神经网络（CNN）和变换器来捕捉这些局部和全局特征。然而，变换器面临计算复杂度较高和长序列建模的挑战，这可能限制了它们在这一领域的有效性。最近，Mamba作为一种状态空间模型（SSM），在处理长序列和全局上下文信息方面表现出色，并且计算效率得到了提升。受此启发，我们提出了一种新的框架MH-UNet（也称为MH-UNet），以及一种新的扩张-压缩Mamba（DSMamba）模块，用于医学图像分割。MH-UNet是一种多尺度分层CNN-Transformer-Mamba架构，包含两个UNet：一个利用CNN和变换器来建模短期和中期依赖性，另一个使用DSMamba模块来建模长期依赖性。DSMamba模块由扩张Mamba和压缩Mamba操作组成，它们共同工作以提取全局和邻域空间信息，从而获得更准确的分割结果。得益于多尺度分层架构，MH-UNet利用CNN的归纳偏见进行局部感知，并结合了变换器和Mamba的优势进行全面的序列建模。在Synapse多器官和ACDC心脏诊断基准测试上的广泛实验表明，MH-UNet的性能显著优于现有方法，展示了其在医学图像分割中的有效性和潜力。

引言

医学图像分割在开发计算机辅助诊断和治疗系统中起着至关重要的作用[1]、[2]、[3]、[4]。随着人工智能的进步，深度学习技术[5]、[6]、[7]近年来已被广泛应用于医学图像处理[8]、[9]、[10]，尤其是在医学图像分割方面。与普通的RGB图像不同，医学图像通常包含大量噪声和模糊的边界，因此需要分割模型有效地捕捉局部和全局依赖性以实现准确的分割。

为了解决医学图像分割的挑战，研究人员提出了许多基于卷积神经网络（CNN）的方法，特别是基于UNet的方法[6]、[7]、[11]、[12]。基于UNet的方法通过编码器逐步提取压缩特征，然后通过解码器逐步恢复特征来应对这些挑战。多尺度融合策略涉及在不同层次上编码和解码特征之间的多个跳跃连接，从而提高了空间特征的准确性。

不幸的是，基于CNN的神经网络通常提取的是具有短期依赖性的局部图像特征，而不是具有长期依赖性的全局特征，正如[13]、[14]等研究所示。因此，基于CNN的模型的有效感受野通常比理论上的感受野小得多，这导致它们更关注图像纹理而不是图像形状，从而对UNet的分割性能产生了负面影响。尽管人们做出了各种努力来扩大CNN的有效感受野并改进上下文建模[15]、[16]、[17]、[18]，但这些模型仍然受到CNN架构的限制。

受到人类视觉系统的启发[19]，人类视觉系统利用具有不同时间跨度的记忆（例如感觉记忆、短期记忆、长期记忆）来处理视觉信息——其中长期记忆有助于识别模式和边界[20]、[21]、[22]——研究人员转向变换器[23]来进行医学图像分割[24]。视觉变换器（ViT）[25]是第一个将基于变换器的架构引入视觉领域的模型，它将图像视为一系列补丁，模拟了人类视觉随时间整合视觉数据的方法。与传统基于CNN的方法相比，这种方法在捕捉全局信息方面表现出了更好的性能。然而，变换器面临训练数据成本高和序列长度相关的计算复杂度高的挑战。此外，它们在长序列建模方面的性能也不理想。LRA基准测试[26]在六个任务（LISTOPS、TEXT、IMAGE、PATHFINDER、PATH-X和SC）上评估了这一能力，输入长度从1 K到16 K不等，结果表明变换器在这些任务上的表现并不理想，可能是因为它们的计算复杂度较高。

为了解决这些限制，研究人员开发了各种高效的序列建模技术，引起了研究界的广泛关注。这些技术包括线性注意力[27]、[28]、循环模型[29]、[30]和结构化状态空间模型（SSMs）[31]、[32]。最近，Mamba[33]将选择性SSM集成到一个精简的端到端神经网络架构中，消除了对注意力机制或MLP块的需求。这种方法避免了与序列长度相关的计算复杂度，并在长期依赖性建模方面优于变换器。

在本文中，我们认识到CNN、变换器和Mamba在序列建模中的独特特性，并提出将这些方法结合起来可能对医学图像分割这一复杂任务很有前景，因为医学图像分割需要捕捉局部依赖性（例如纹理信号）和全局依赖性（例如边界信息）。为此，我们提出了以下主要研究问题：一种结合CNN、变换器和Mamba的双UNet架构在标准医学图像分割基准测试中，在平均分割精度（Dice）和边界质量（HD95）方面能够比现有方法提高多少？因此，我们介绍了一种新的多尺度混合UNet框架（在整篇文章中称为MH-UNet），以及一种创新的扩张-压缩Mamba（DSMamba）模块。

我们的工作在现有基于Mamba的分割方法之外有两个创新点：（1）DSMamba模块——虽然之前的工作（U-Mamba [34]、VM-UNet [35]、Swin-UMamba [36]）在扁平化特征图上应用了标准的双向Mamba扫描，但我们引入了新的扩张分割和压缩池化操作，保留了空间结构和邻域连续性，解决了扁平化带来的基本空间不连续性问题；（2）双UNet架构——我们使用专门的分支分别优化不同的依赖范围，然后进行融合，消融研究（表6）证实了两个分支的互补作用。

我们对医学图像分割社区的贡献体现在以下三个关键点：

•
我们提出了MH-UNet，一种结合CNN、变换器和Mamba的雙UNet架构，用于医学图像分割。我们的设计采用了两个专门的分支：TransConv-UNet专注于细粒度的局部到中等范围的特征，而DSMamba UNet专注于长期依赖性。表6中的消融研究表明，两个分支都提供了互补的信息。MH-UNet架构的详细描述可以在第3节找到。

•
我们引入了DSMamba，这是一种新的Mamba模块，它在之前的基于Mamba的分割工作中有两个关键创新：（1）扩张Mamba——在Mamba扫描之前进行扩张空间分割，实现稀疏的全局采样，保留了2D空间结构，而标准的扁平化会破坏空间邻接性；（2）压缩Mamba——在双向扫描之前应用步长池化，明确地模拟了传统方法中丢失的邻域连续性。

•
在两个广泛使用的医学图像分割基准测试Synapse [37]和ACDC [38]上进行的广泛实验表明，所提出的MH-UNet明显优于现有方法。具体来说，MH-UNet在ACDC心脏分割上的Dice分数达到了92.32%，在Synapse多器官分割上的Dice分数达到了85.02%，HD95分数达到了8.95%，优于最近的基于CNN、基于变换器和基于Mamba的方法。全面的消融实验验证了每个组件的有效性：（1）表10显示DSMamba在Synapse上的Dice分数比原始Mamba提高了2.96%（85.03% vs 82.07%），在ACDC上提高了0.98%（92.31% vs 91.33%），直接验证了我们的新型扩张-压缩操作的有效性；（2）表6表明，单独移除扩张Mamba或压缩Mamba都会降低性能（在ACDC上分别为91.49%和91.46%，在Synapse上分别为83.27%和84.06%），证实了这两种操作都提供了互补的空间建模能力。

方法论

医学图像分割是一项复杂的视觉任务，要求模型捕捉短期、中期和长期依赖性，以获得丰富的局部和全局信息。为了解决这一挑战，我们提出了一个多尺度混合架构MH-UNet，它结合了CNN、变换器和Mamba的互补优势，有效地捕捉不同长度尺度上的依赖性。

我们的方法概述。 MH-UNet包含两个专门的UNet：（1）TransConv-UNet结合了CNN

数据集和评估指标

Synapse多器官数据集 [37]。Synapse多器官数据集包含来自不同患者的30个腹部CT扫描，共有3779张轴向增强型腹部CT图像。每张CT扫描有85到198层切片，分辨率为

摘要

引言

相关工作

相关工作

方法论

数据集和评估指标

热点排行