通过协同特征引导和多尺度细化技术提升医学图像分割效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：Enhanced medical image segmentation via synergistic feature guidance and multi-scale refinement

【字体：大中小】 时间：2026年01月21日 来源：Image and Vision Computing 4.2

编辑推荐：

　　医疗图像分割中的效率-精度矛盾通过SFRNet V2的三模块协同设计得到解决，包括输入的局部-区域感知、瓶颈的弹性多尺度聚合和残差通道的噪声过滤，在四类医学数据集上实现参数最少（19.85M）且速度最快（2.7ms）的优越表现。

王少强|史桂玲|徐晓峰|刘铁尧|赵亚武|程晓春|王玉晨

中国山东省青岛市青岛理工大学

摘要

医学图像分割对于临床诊断至关重要，但仍然面临着全局上下文建模与局部细节保留之间的固有权衡，以及深度网络对采集噪声和尺度变化的敏感性等挑战。虽然混合CNN-Transformer架构的出现解决了感受野的限制问题，但它们通常会导致过高的计算成本，并且缺乏处理小样本医学数据集所需的归纳偏见。为有效解决这些系统性瓶颈，我们提出了SFRNet V2。通过整合并行局部-区域感知、跳跃连接中的主动噪声过滤以及瓶颈处的弹性多尺度聚合，我们的方法系统地克服了固定感受野和特征模糊性的限制。在四个不同的公共数据集（CVC-ClinicDB、ISIC 2017、TN3K和MICCAI Tooth）上的广泛实验表明，SFRNet V2的表现始终优于最近的竞争模型。值得注意的是，我们的模型仅使用了1985万个参数，推理速度达到了2.7毫秒，实现了精度和临床适用性之间的卓越平衡。

引言

医学图像分割是现代临床工作流程中的基本支柱[1]，[2]，它是定量分析、疾病诊断和治疗计划[3]、[4]的前提。从肿瘤边界的精确勾勒到内窥镜检查中微病变的识别，分割的质量直接影响诊断准确性和预后评估[5]。近年来，以U-Net[6]为代表的深度学习方法（特别是卷积神经网络CNN）由于其优雅的编码器-解码器架构而成为该领域的“黄金标准”。尽管这些全卷积框架在一般分割任务中取得了显著成功，但临床数据的日益复杂性继续对算法的鲁棒性和精度提出严格要求[7]、[8]。

为了提高分割性能，研究社区主要分为两条技术路径[9]、[10]。第一条路径专注于改进CNN架构以增强特征传播。例如U-Net++[11]和Res-UNet[12]采用密集的嵌套连接或残差学习来减少下采样过程中的信息损失。第二条更新的路径试图通过结合Transformer架构来克服卷积的固有局部性。像TransUNet[13]和Swin-Unet[14]这样的模型利用自注意力机制来建模长距离依赖性，建立了“CNN-Transformer混合”或“纯Transformer”网络的新范式。此外，像UNeXt[15]这样的轻量级网络也出现了，它们通过使用基于MLP的模块来应对医疗设备的部署限制。

尽管有这些进步，但关键的分析表明，当前的SOTA方法在面对复杂的病理场景时仍然难以解决系统性瓶颈[16]、[17]、[18]。纯CNN由于感受野有限，往往无法捕捉全局语义上下文，导致在低对比度图像中出现分割碎片化[19]、[20]、[21]。相反，虽然Transformer能够成功建模全局依赖性，但它们引入了二次方的计算复杂性，并且缺乏在小型医学数据集上泛化所需的归纳偏见[22]、[23]。此外，现有的轻量级解决方案往往为了提高推理速度而牺牲了多尺度特征的表示。这些限制不仅仅是理论上的，而且在不同的成像模式中都表现得非常明显，这正是本研究旨在解决的两个主要挑战。

挑战1：全局与多尺度表示中的效率-准确性悖论。临床病变表现出极端的形态变异。一方面，病变的尺度可能变化很大；例如，在CVC-ClinicDB结肠镜数据集中，息肉的范围从主导性肿块到微小突起都有，这对具有固定感受野的网络来说是一个挑战。另一方面，如TN3K甲状腺超声数据集所示，目标与背景之间的低对比度需要强大的全局上下文来区分结节和相似的周围组织。为了解决这个问题，提出了使用孔状空间金字塔池化（ASPP）或Transformer的方法。然而，ASPP引入了网格伪影和沉重的参数开销，而Transformer则受到高计算成本的“效率陷阱”影响。因此，第一个核心研究问题是：我们如何构建一种高效的机制，既能模拟类似Transformer的全局感知，又能实现动态的多尺度捕捉，同时保持轻量级的CNN架构？

挑战2：跨层次特征融合中的信号与噪声困境。跳跃连接对于U-Net[6]架构中恢复空间分辨率至关重要。然而，简单的连接或添加策略忽略了浅层特征的“双刃剑”特性：它们包含精细的空间细节，但经常被显著的背景噪声污染。在ISIC 2017皮肤镜数据集中，这个问题尤为明显，因为毛发伪影和尺子标记经常被编码并传播到解码器，导致误报。同样，在MICCAI Tooth数据集中，牙齿之间密集而复杂的边界容易受到X射线噪声的干扰。尽管Attention U-Net[24]尝试对特征进行空间加权，但简单的门控机制往往无法有效过滤这些复杂伪影。这引出了第二个研究任务：我们如何将跳跃连接从一个被动传输通道升级为一个能够进行深度去噪的主动“语义校准器”？

为了系统地解决这些相互关联的挑战，我们提出了协同融合与细化网络V2（SFRNet V2）。与依赖堆叠重型模块的方法不同，SFRNet V2采用了一种“高效协同”的理念，将三个轻量级、专门构建的模块嵌入到特征流的关键节点中。具体来说，我们在输入阶段引入了一个局部-区域特征感知（LR-Fusion）模块，以在编码前建立并行的局部和全局意识；在瓶颈处引入了一个特征混合模块（FMM），以动态聚合多尺度深度语义；以及在跳跃连接中引入了一个通道细化和增强（CRE）模块，以主动校准和净化特征传输（见图1）。

本文的主要贡献总结如下：

•
系统化框架：我们提出了SFRNet V2，这是一种新颖的编码器-解码器架构，有效平衡了长距离依赖性建模与局部细节保留，为医学图像分割中的效率-准确性悖论提供了稳健的解决方案。
•
创新模块化设计：我们提出了三个协同模块：用于早期全局-局部上下文捕获的LR-Fusion模块，用于瓶颈处弹性多尺度表示的FMM模块，以及用于特征融合中主动噪声抑制的CRE模块。
•
卓越的性能与泛化能力：在四个公共数据集（CVC-ClinicDB、ISIC 2017、TN3K和MICCAI Tooth）上的广泛实验表明，SFRNet V2显著优于现有的SOTA方法，包括基于Transformer的重型模型，同时保持了更低的计算复杂性和更好的可解释性。

部分摘录

基于CNN的分割架构

在过去十年中，CNN一直是医学图像分析的支柱。开创性的U-Net[6]采用了对称的编码器-解码器结构，并通过跳跃连接将低级细节与高级语义合并，成为事实上的标准。为了进一步增强特征表示，出现了许多变体。U-Net++[11]引入了嵌套和密集的跳跃路径来减少编码器和解码器之间的语义差距，而Res-UNet结合了残差学习

SFRNet V2架构概述

为了严格解决医学分割中的效率-准确性悖论，我们将分割任务表述为一个像素级分类问题，将输入空间映射到标签空间。所提出的SFRNet V2通过三个可微函数的协同组合来实现这种映射功能。让表示输入图像。网络流程如下：首先，LR-Fusion模块充当

数据集和实现细节

为了全面评估SFRNet V2的鲁棒性和泛化能力，我们在四个涵盖不同医学成像模式（内窥镜、皮肤镜、超声和X射线）的公共数据集上进行了实验。这些数据集经过精心挑选，以代表不同的临床挑战，包括大规模变化、低对比度和复杂的背景噪声。每个数据集的详细规格和访问链接总结在表1中。

数据分割：

结论

在本文中，我们提出了SFRNet V2，这是一种新颖的协同融合与细化网络，旨在解决医学图像分割中持续的“效率-准确性悖论”。通过批判性地重新审视基于Transformer的模型和标准CNN的局限性，我们发现核心瓶颈在于输入阶段缺乏全局感知、跳跃连接中噪声的被动传输以及瓶颈处固定的感受野。

为了拆解

CRediT作者贡献声明

王少强：撰写——审阅与编辑。史桂玲：概念化。徐晓峰：数据管理。刘铁尧：形式分析。赵亚武：方法论。程晓春：软件，方法论。王玉晨：撰写——初稿。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本项工作得到了UKRI的资助（Grant EP/W020408/1和Grant RS718），通过斯旺西大学的博士培训中心提供。

联系信箱：

粤ICP备09063491号

摘要

引言