一种新型的自适应跨尺度融合网络，具备高效的解码能力，可显著提升腹部和心脏器官的分割效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月14日 来源：Digital Signal Processing 3

编辑推荐：

　　自动腹部和心脏器官分割中，传统方法存在多尺度特征融合不足、全局上下文捕捉有限、解码阶段噪声干扰等问题。本文提出ACSF-Net框架，通过双分支编码器（CNN与自适应跨尺度融合Transformer并行）、通道 squeeze-and-excitation 注意力模块以及金字塔分割注意力解码器，有效融合多尺度特征并增强局部-全局上下文感知，显著提升分割精度（Synapse数据集Avg DSC达85.17%，ACDC达92.56%），并验证其在6个医学数据集上的泛化能力。

海德尔·阿里（Haider Ali）|谢娟英（Juanying Xie）|汤强（Tong Qiang）

湖北师范大学计算机科学与信息工程学院，黄石市，435002，中国

摘要

腹部和心脏解剖结构的自动分割对于诊断和治疗至关重要，但由于器官的变异性和边界不明确，这一任务仍然具有挑战性。卷积神经网络（CNN）和变换器方法的结合常常面临特征融合效果不佳和优化不足的问题，这导致难以准确捕捉多尺度特征以及局部与全局的上下文关系。此外，变换器模型在训练阶段未能优先考虑局部上下文。为了解决这些问题，本研究提出了一种新型的自适应跨尺度融合网络ACSF-Net，该网络具有高效的解码能力，能够提升腹部和心脏器官（ACO）的分割性能。其核心是一个双分支编码器（TBE），它结合了密集连接的CNN路径和平行的高级自适应跨尺度融合变换器（ACFT）路径，以捕捉多尺度特征和局部与全局的细节。在TBE层之上添加了空间和通道挤压-激励（scSE）注意力模块，以改进特征融合效果。我们还引入了一种资源高效的解码器，该解码器采用了新颖的金字塔分割注意力单元（Skip-PSA）和逐元素求和机制。我们的解码器能够有效细化多尺度特征，减少背景噪声，并增强与边界相关的特征，同时将解码过程中的计算负载减少了一半。在两个真实的腹部和心脏数据集上的广泛实验表明，ACSF-Net的性能优于其他领先方法，在Synapse数据集上的平均DSC和平均HD95得分分别为85.17%和14.81 mm，在ACDC数据集上分别为92.56%和1.05 mm。此外，ACSF-Net的有效性也在其他六个医学数据集上得到了验证。

引言

准确的腹部和心脏器官（ACO）分割在许多医学应用中至关重要，包括计算机辅助诊断、手术规划和放射治疗目标器官识别[1]、[2]。为了辅助病变定位和分期，精确的器官勾画对于定量诊断分析至关重要，这也是人工智能（AI）技术在图像分割中的主要目标[3]。放射治疗和手术规划也可以从利用ACO分割数据创建的二维或三维解剖环境中受益，从而减少对附近健康组织的损伤[4]、[5]。自动分割正迅速成为一种广泛研究并受到重视的解决方案，为CT和MRI扫描中通常进行的复杂且容易出错的手动分割提供了一种有吸引力的替代方案。

先前的研究提出了各种卷积神经网络（CNN）架构来解决与腹部和心脏区域相关的挑战[6]、[7]、[8]、[9]。其中，U-Net[10]对ACO分割领域做出了重要贡献。其对称的编码器-解码器设计通过跳过连接在编码器和解码器层之间无缝整合空间和上下文信息，从而有效提取特征。这种方法在处理腹部和心脏区域的复杂挑战方面表现出色。受此启发，U-Net设计的几种变体在ACO分割任务中显示出巨大潜力。例如，ResUnet++[11]结合了残差连接和嵌套跳过连接，以改善特征传播和上下文信息的流动。U-Net3+[12]采用了一种互连结构，利用深度监督和密集跳过连接来增强特征的重用。DCI-UNet[13]通过引入膨胀的初始块和注意力模块来增强特征表示，使模型能够捕捉更全面和上下文相关的信息。SU-Net[14]和RMAU-Net[15]采用了多注意力策略，提高了模型捕捉和整合丰富特征的能力。

尽管这些方法有效，但U-Net模型及其变体在捕捉图像远距离区域的全局上下文方面仍面临重大挑战。这一限制在腹部和心脏器官的分割中尤为明显，因为这些器官在形状、大小和外观上存在显著差异，需要对其空间关系有全面的理解。图1突显了这些器官的复杂性，放大后的图像显示由于解剖变异、软组织变形和低图像对比度，这些器官的边界变得模糊不清。这些挑战降低了基于U-Net的模型产生临床相关和精确分割的效果，因为它们可能会遗漏器官的关键部分或错误地合并相邻结构。为了解决这个问题，视觉变换器（ViTs）[16]因其能够从大型图像序列中捕捉全局上下文而变得越来越受欢迎，这些变换器在ACO分割等任务中表现出色。ViTs使用自注意力机制，使图像中的每个像素或区域都能与其他像素相互作用，无论它们的空间距离如何。这种能力对于理解远距离区域之间的空间关系和依赖性至关重要，特别是在医学成像中，因为器官往往彼此靠近。诸如TransUNet[17]、MAXFormer[18]、PVT-EMCAD[19]、Swin-UNet-PISA[20]和MP-FocalUNet[21]等模型有效地结合了变换器来捕捉ACO分割中的全局上下文。

然而，这些模型仍然面临几个重大挑战：1）注意力机制的低效率和变换器层的不当缩放导致全局上下文的丢失，影响预测图的分割质量；2）变换器模型缺乏足够的局部上下文；3）CNN和变换器之间的特征融合未能实现有效的多尺度特征提取，使得处理器官变异性变得复杂；4）传统的解码技术在解码阶段会捕捉到噪声和不相关的多尺度特征，从而削弱了与边界相关的信息。最近的一项研究[22]提出了一种使用准循环机制的模型，该模型能够捕捉序列依赖性，这对于模拟心脏电影MRI或时间CT切片中的连续结构特别有用。通过使用双编码器-解码器结构，它们旨在通过并行路径处理信息来加强特征表示。然而，准循环方法无法完全捕捉器官大小和形状的空间变异性。此外，双分支设计增加了计算复杂性，并使多尺度特征的融合变得更加复杂。

为了解决上述挑战，我们提出了一个名为ACSF-Net的创新框架，该框架结合了新颖的自适应跨尺度融合和高效解码。该框架旨在解决2D ACO分割的复杂性并提升其性能，如图2所示。它包括三个主要组成部分：TBE编码器（利用CNN-Transformer路径）、scSE注意力模块和Skip-PSA解码器。所提出的ACSF-Net已在真实的腹部和心脏医学成像数据集上进行了测试，包括Synapse和ACDC数据集。为了验证ACSF-Net的有效性，我们进行了消融研究、视觉比较、跨数据集评估，并在六个额外数据集上与最先进（SOTA）方法进行了对比。我们的主要贡献如下：

•
引入了一个双分支编码器（TBE），它合并了CNN-Transformer的并行路径。密集连接的CNN路径利用层间连接促进特征重用，并实现高效的多尺度特征提取。与标准的跨注意力设计不同，我们新设计的自适应跨尺度融合变换器（ACFT）路径通过跨注意力主动查询多尺度CNN特征，通过层级机制自适应地稳定和平衡注意力，并通过MLP实现强大的局部-全局集成。
•
为了优化CNN-Transformer路径之间的特征融合并增强具有局部-全局上下文的多尺度特征，在TBE层之上添加了scSE注意力模块。该模块优先考虑关键区域和相关通道，提高了模型关注器官关键区域的能力。
•
通过采用新颖的金字塔分割注意力单元（Skip-PSA）引入了一种资源高效的解码器，该单元结合了全局残差连接和密集跳过连接。它有效细化了多尺度特征，减少了噪声，并强调了边界特征，从而在解码过程中实现了精确的器官勾画。Skip-PSA解码器不依赖于大量的连接操作，而是采用逐元素求和技术，显著降低了计算负载和内存使用。
•
ACSF-Net在Synapse和ACDC数据集上的深入评估中始终优于最新的分割模型，并在另外六个数据集上表现优异，凸显了其在各种场景下的出色泛化能力。

提出的架构

在图3中，展示了基于U-Net框架的ACO分割架构，该架构通过三个创新元素得到了增强：双分支编码器（TBE）、scSE注意力模块和Skip-PSA解码器。TBE结合了两个并行路径，包括CNN和变换器模型。CNN路径通过密集连接的层实现高效的多尺度特征提取，而变换器路径则专注于捕捉局部和全局上下文。

数据集和评估

用于腹部CT的Synapse数据集： Synapse数据集[1]来自30次腹部CT扫描，包含3,779张轴向增强CT图像。根据[17]中概述的设置[2]，该数据集被划分为18个训练案例（2,212张切片）和12个测试案例（1,567张切片）。分割性能使用平均Dice相似系数（Avg DSC）和平均Hausdorff-95距离（Avg HD95）进行评估，涵盖了八个

在Synapse数据集上的实验结果

1展示了我们在Synapse数据集上提出的策略与最先进（SOTA）2D方法相比的实验结果。我们的方法基于类似于U-Net的2D架构，始终优于其他竞争技术，包括基于CNN的方法、纯基于变换器的方法以及结合CNN和Transformer的方法。如前所述，我们的方法利用基于CNN-Transformer的TBE来增强多尺度特征并加强

讨论

ACO分割对于在CT和MRI图像中精确识别和勾画不同器官至关重要。这对于诊断同时影响多个器官的疾病（如腹部和心血管疾病）至关重要。虽然基于CNN和Transformer的U型方法在分割多个器官方面已被证明有效，但大多数这些方法难以提取多尺度特征，缺乏足够的全球和局部上下文意识，并且需要

结论

本研究提出了ACSF-Net，这是一个结合了自适应跨尺度融合和高效解码的新框架，用于解决CT和MRI扫描中ACO分割的复杂挑战。与依赖单一编码器的传统模型不同，我们的框架采用了TBE结构，结合了密集连接的CNN和先进的ACFT并行路径的互补优势。这种创新设计使ACSF-Net能够捕捉多尺度特征和局部-全局上下文，从而

CRediT作者贡献声明

海德尔·阿里（Haider Ali）：撰写——原始草稿，撰写——审阅与编辑，概念化，方法论，验证，软件，可视化。谢娟英（Juanying Xie）：撰写——审阅与编辑，调查，监督。汤强（Tong Qiang）：撰写——审阅与编辑，资源，监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作