一种高效的金字塔场景解析网络，结合多尺度特征融合技术，用于磁共振成像中的肝脏分割

《Frontiers in Medicine》：An efficient pyramid scene parsing network with multi-scale feature fusion for liver segmentation in magnetic resonance imaging

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Medicine 3.0

编辑推荐：

　　**摘要** **背景**：最近的生活方式变化导致肝脏疾病病例数量的增加，使得准确的肝脏分割在临床应用中变得越来越重要。然而，手动分割不仅耗时，而且依赖于操作者，并且不同专家之间的结果可能存在差异，因此需要可靠的自动化方法。 **方法**：本研究提出了一种PSP-EffB

　　**摘要**
**背景**：最近的生活方式变化导致肝脏疾病病例数量的增加，使得准确的肝脏分割在临床应用中变得越来越重要。然而，手动分割不仅耗时，而且依赖于操作者，并且不同专家之间的结果可能存在差异，因此需要可靠的自动化方法。
**方法**：本研究提出了一种PSP-EffB0-MSFF模型，用于从腹部MRI图像中进行2D肝脏分割。该模型用EfficientNetB0替换了PSPNet中的ResNet50作为主干网络，以降低计算成本，并在跳跃连接中加入了多尺度特征融合模块来提高特征表示能力。该模型使用两个数据集进行了评估：DLDS的T1加权图像和CirrMRI600+的T2加权图像。
**结果**：在DLDS数据集上，该模型的交并比达到0.905 ± 0.038，Dice分数为0.913 ± 0.09，Hausdorff距离为7.31 ± 3.91，平均对称表面距离为2.66 ± 3.06。在CirrMRI600+数据集上，交并比为0.86 ± 0.01，Dice分数为0.90 ± 0.02，Hausdorff距离为6.20 ± 0.60，患者级别的平均对称表面距离为9.80 ± 1.50。该模型的计算量为14.91 GFLOPs。
**结论**：总体而言，提出的PSP-EffB0-MSFF模型在CirrMRI600+数据集上提供了可靠的分割结果，并且在当前实验设置下在DLDS数据集上也表现出一致的性能。

**1 引言**
肝脏是人体中一个重要的器官，具有多种功能，如解毒激素、产生消化所需的生化物质、清除血液中的废物、调节血液凝固以及蛋白质合成。许多肝脏疾病与遗传因素、免疫力减弱、过量饮酒和饮食习惯改变有关。肝脏疾病包括肝炎、肝硬化、脂肪肝和癌症。病毒、酒精、药物、毒素和自身免疫疾病都可能导致肝脏炎症和肝炎。肝硬化是肝脏瘢痕形成的晚期阶段，通常由慢性肝炎或大量饮酒引起。不饮酒的人也可能患上非酒精性脂肪肝（NAFLD），这与肥胖、糖尿病和代谢综合征有关。酒精性肝病包括脂肪肝、酒精性肝炎和肝硬化。2015年，世界卫生组织预测有2.57亿人慢性感染HBV。慢性HBV感染者有患肝脏疾病（如肝硬化和HCC）的风险。精确的肝脏分割在各种医疗程序中至关重要，例如计算肝脏体积以进行手术计划、评估肿瘤负荷、评估治疗效果以及跟踪肝硬化和肝细胞癌等疾病的进展。在MRI图像中手动勾画肝脏边界既费力又容易受到观察者间差异的影响。因此，自动肝脏分割技术可以通过提供一致的定量数据来辅助放射科医生，减轻手动标注的工作负担。超声（US）、计算机断层扫描（CT）、磁共振成像（MRI）和弹性成像是最常用的诊断和评估肝脏疾病的成像方式。在这些成像方法中，MRI是一种最全面的非侵入性技术，其特点是具有优异的软组织对比度分辨率，无电离辐射，并且能够利用造影剂增强技术来检测肝脏病变、纤维化和肝硬化。目前，疾病诊断依赖于机器学习、深度学习等方法，这些方法可以节省检测时间，降低识别设备的成本，并有助于识别细微的细节。由于肝脏在成像区域中的形状不规则，肝脏MRI扫描较为复杂。医疗专业人员通常 prefer 使用MRI 来诊断肝脏病变。为了从T1加权磁共振图像中分割肝脏组织，开发了一种新的级联网络架构。随着医疗数据的日益复杂，人工智能已成为帮助诊断和管理肝脏疾病的宝贵工具，有助于减少人为错误并改善临床决策。

**2 方法**
本研究提出了一种PSP-EffB0-MSFF模型，用于从腹部MRI图像中进行2D肝脏分割。该模型采用EfficientNetB0作为主干网络，以替代PSPNet中的ResNet50，从而降低计算成本，并在跳跃连接中加入了多尺度特征融合模块来提高特征表示能力。模型使用两个数据集进行了评估：DLDS的T1加权图像和CirrMRI600+的T2加权图像。

**3 结果**
在DLDS数据集上，该模型的交并比为0.905 ± 0.038，Dice分数为0.913 ± 0.09，Hausdorff距离为7.31 ± 3.91，平均对称表面距离为2.66 ± 3.06。在CirrMRI600+数据集上，交并比为0.86 ± 0.01，Dice分数为0.90 ± 0.02，Hausdorff距离为6.20 ± 0.60，患者级别的平均对称表面距离为9.80 ± 1.50。该模型的计算量为14.91 GFLOPs。

**4 结论**
总体而言，提出的PSP-EffB0-MSFF模型在CirrMRI600+数据集上提供了可靠的分割结果，并在当前实验设置下在DLDS数据集上也表现出一致的性能。在评估过程中，使用了每位患者的所有切片，包括包含肝脏的切片和仅包含背景的切片，从而提供了对分割性能的一致且无偏的评估。2.3 PSP-EffB0-MSFF 轻量级多尺度特征融合（MSFF）模块是与原始的 PSPNet-EfficientNetB0 架构一起开发的，用于 MRI 图像中肝脏的分割。该架构在瓶颈处提出了一个金字塔池化模块（PPM），用于聚合多尺度上下文，并采用了一个高效的编码器主干网络 EfficientNetB0，以替代传统的 ResNet。编码器在多个层次提取特征，从中获得四个不同空间分辨率的跳过连接。每个跳过特征都通过 MSFF 模块进一步细化，该模块结合了多尺度卷积操作（1 × 1、3 × 3 和扩张的 3 × 3）与通道注意力机制和残差连接。在解码器中，特征图逐渐上采样，并在每个阶段连接 MSFF 精细化的跳过连接，以改善空间细节的恢复。整个模型的工作流程如图 1 所示。

图 1 提出的 PSP-EffB0-MSFF 框架。
图 2 展示了编码器的工作流程。EfficientNetB0 架构是编码器主干网络，它在不同的抽象层次上提取肝脏 MRI 图像的特征（256 × 256 × 3）。模型最初提取低级特征，如边缘和角点，然后逐步学习与器官结构、组织特征和肝脏区域对应的更复杂模式。EfficientNetB0 网络通过一系列移动逆瓶颈卷积（MBConv）块以及挤压和激励（SE）机制处理输入图像，这些机制帮助网络有效检测局部特征和全局上下文。在编码器的关键阶段提取并保留多个分辨率的中间特征图（128 × 128、64 × 64、32 × 32 和 16 × 16），作为跳过连接。选择这四种分辨率是为了捕获来自编码器的多尺度空间信息。随着输入图像通过网络传播，空间分辨率在特定的 MBConv 块转换点（Block 2a、Block 3a、Block 4a 和 Block 6a）逐渐降低，分别产生大小为 128 × 128、64 × 64、32 × 32 和 16 × 16 的特征图。这些特征图对应于不同层次的特征抽象：128 × 128 的图捕捉低级空间细节，如边缘和纹理；64 × 64 和 32 × 32 的图编码与器官边界和组织区域相关的中级结构信息；16 × 16 的图表示肝脏的高级语义特征。此外，空间分辨率的逐步减半确保每个特征图与解码器相应的 2 × 上采样阶段自然对齐。这种一致的对齐使得多尺度特征融合高效进行，而无需额外的插值，使这些阶段非常适合提出的架构中的跳过连接。这些连接保留了在 downsampling 过程中会丢失的重要空间数据和多尺度特征，然后与解码器的特征结合，以在最终的分割掩码中提供肝脏边界的精确定位和勾画。瓶颈处最深层的特征（8 × 8）经过金字塔池化处理，以获得多尺度上下文信息，然后发送给解码器。在每个编码阶段 i，特征提取过程可以定义如下：
Fi=EncoderBlocki(Fi?1)
在方程 1 中，Fi?1 表示前一阶段的输入特征图，Fi 表示当前编码阶段的输出特征图。在方程 2 中，每个编码阶段产生一个跳过特征图 Si，随后将其应用于解码器。相应的跳过连接定义如下：
Si=Fi
在金字塔池化模块（PPM）内部，编码器的输出被输入到四个池化分支中，每个分支的池化大小分别为 1 × 1、2 × 2、3 × 3 和 6 × 6。在每个分支中，使用平均池化方法提取特定尺度的特征。随后应用 1 × 1 卷积，输出被上采样到原始大小（8 × 8）。处理后的输出与原始输入特征图结合，从而形成一个详细的多尺度表示，其中包含了 1 × 1 池化的广泛上下文以及 6 × 6 池化的细微细节。金字塔池化操作后，特征图与编码器的输出连接在一起。这个连接的特征图通过一个大小为 1 × 1 的卷积层，将通道尺寸减少到 512。这是解码器的输入。

图 2 编码器。
多尺度特征融合（MSFF）模块在每个跳过连接中整合了多尺度信息（图 3）。输入特征图同时通过三个并行分支处理：一个 1 × 1 卷积来捕捉通道间的关系，一个 3 × 3 卷积来提取局部空间特征，以及一个 3 × 3 扩张卷积（扩张率 = 2）来捕获更广泛的上下文信息，而不增加计算成本。这三个分支处理相同的输入特征图。得到的特征图沿通道维度连接起来，并通过一个轻量级的通道注意力机制，该机制包括全局平均池化，随后是两个全连接层。通过 sigmoid 激活函数获得的注意力权重强调了最具信息量的特征通道。通过将原始输入特征图添加到注意力细化后的特征中，应用残差连接，这有助于保持空间信息并在训练期间改善梯度流动。

图 3 MSFF。
在方程 3 中，多尺度分支定义如下：
F1=Conv1×1(Fin),
F2=Conv3×3(Fin),
F3=Conv3×3,d=2(Fin)
在方程 4 中，连接的特征图表示如下：
Fcat=[F1∥F2∥F3]
[∥] 表示通道间的连接。注意力机制定义如下：
M=σ(W2δ(W1GAP(Fcat)))
在方程 5 中，GAP(·) 表示全局平均池化，W1 和 W2 表示全连接层权重，δ 表示ReLU 激活函数，σ 表示 sigmoid 激活函数。在每个 MSFF 块中，三个并行分支产生的输出通道数量相等，并设置为与输入特征图相同的尺寸。因此，连接的特征图 Fcat 的通道维度是输入的三倍，然后通过通道注意力机制减少到原始通道尺寸。对于 EfficientNetB0 编码器，跳过特征的通道尺寸在分辨率 128 × 128、64 × 64、32 × 32 和 16 × 16 时分别为 96、144、240 和 672。相应地，连接后的 MSFF 特征图的通道数量分别为 288、432、720 和 2016，然后使用通道注意力机制减少到原始尺寸。

最后，MSFF 输出的计算如下：
Fout=WrFin+(M⊙Fcat)
在方程 6 中，⊙ 表示元素间的乘法。应用 1 × 1 卷积（Wr）将 Fin 投影到与 Fcat 相同的通道尺寸，以实现有效的残差加法。然后将融合的特征图传递给解码器。
金字塔池化模块（PPM）的输出用作解码器的输入（图 4）。解码器通过五个阶段逐步将特征图从 8 × 8 上采样到 256 × 256，每个阶段的空间分辨率翻倍（8 × 8 → 16 × 16 → 32 × 32 → 64 × 64 → 128 × 128 → 256 × 256）。在每个阶段，上采样的特征与通过跳过连接增强的编码器特征结合。然后使用卷积层细化融合的特征。为了平衡计算效率和特征保留，每个解码阶段逐渐减少通道尺寸，从 512 降低到 256，然后到 128、64，最后到 32。使用带有 sigmoid 激活函数的最终 1 × 1 卷积生成分割掩码。解码器过程定义如下：
Di=Refine(Concat(Up2(Di?1),MSFF(Si)))
在方程 7 中，Di 表示第 i 阶段的解码器特征，Up2(·) 表示 2 × 上采样，Si 是通过 MSFF 模块细化的编码器特征，Refine(·) 通过 3 × 3 卷积后跟批量归一化和 ReLU 激活融合和平滑连接的特征。解码器的前四个阶段使用来自编码器的 MSFF 增强的跳过连接。最后一个解码阶段进行上采样，不使用跳过连接以恢复完整的空间分辨率。在每个解码阶段，细化操作包括一个 3 × 3 卷积，然后是批量归一化和 ReLU 激活，输出通道尺寸逐渐减少（512 → 256 → 128 → 64 → 32）。
图 4 解码器。
最终的分割输出计算如下：
M=σ(Conv1×1(D5))
在方程 8 中，Conv1 × 1 减少通道尺寸，σ(·) 表示生成最终掩码 M 的 sigmoid 激活函数。上述简要提供了所提出模型的伪代码。它包括五个关键步骤：数据预处理、编码器特征提取、PPM、MSFF 和解码器恢复以实现像素级分割。详细程序在前面的章节中讨论。表 3 总结了提出的 PSP-EffB0-MSFF 模型的架构。编码器将输入图像尺寸从 256 × 256 减少到 8 × 8，同时增加特征深度。PPM 用于捕获多尺度的上下文信息，并将特征通道减少到 512。然后解码器通过一系列上采样阶段恢复空间分辨率。在每个阶段，使用 MSFF 增强的跳过连接来提高特征细化。通道数量逐渐从 512 减少到 32，以保持计算效率。最后，使用带有 sigmoid 激活函数的 1 × 1 卷积层生成分割掩码。

表 3 阶段分辨率操作通道数
编码器输出 8 × 8 EfficientNetB0 1,280
PPM 输出 8 × 8 金字塔池化 + 1 × 1 卷积 512
解码器阶段 1 16 × 16 上采样 + MSFF（跳过 4）+ 连接 + 卷积 512
解码器阶段 2 32 × 32 上采样 + MSFF（跳过 3）+ 连接 + 卷积 256
解码器阶段 3 64 × 64 上采样 + MSFF（跳过 2）+ 连接 + 卷积 128
解码器阶段 4 128 × 128 上采样 + MSFF（跳过 1）+ 连接 + 卷积 64
解码器阶段 5 256 × 256 上采样 + 卷积 32
输出 256 × 256 1 × 1 卷积 + Sigmoid 1

图 2 提出的 PSP-EffB0-MSFF 模型的架构。
2.4 实现细节
所提出的模型使用 TensorFlow 和 Keras 实现。EfficientNetB0 主干网络使用 ImageNet 预训练的权重进行初始化。由于 MRI 切片是灰度的，每个输入图像在三个通道上复制，以匹配 EfficientNetB0 预期的 RGB 输入格式。整个主干网络从训练开始就保持完全可训练状态，以实现任务特定的微调。模型使用 Adam 优化器进行训练，初始学习率为 2 × 10?4，批量大小为 16，最大训练周期为 25 个周期。训练目标使用二进制交叉熵和 Dice 损失的组合，两种损失组分的权重相等（λ = 0.5）。如果验证 Dice 系数连续六个周期没有改善，则学习率降低一半，最低学习率为 1 × 10?7。应用了提前停止策略，耐心周期为 12 个周期，并根据最高的验证 Dice 分数选择最佳模型权重。采用混合精度训练来加速训练并减少 GPU 内存消耗，同时保持数值稳定性。在推理过程中，对 sigmoid 输出应用 0.5 的阈值以生成二进制分割掩码。所有实验都在使用NVIDIA Tesla T4 GPU和Google Colaboratory上进行。算法1：

步骤1：数据预处理
- 加载MRI图像及其对应的掩膜
- 将图像和掩膜调整为256 × 256尺寸
- 使用EfficientNet预处理算法对图像进行归一化（范围[-1, 1]
- 将灰度图像复制到三个通道（RGB格式）

步骤2：使用EfficientNetB0构建编码器
- 加载EfficientNetB0（权重来自imagenet，include_top设置为False）
- 提取跳跃连接：
- skip1：128 × 128 × 96
- skip2：64 × 64 × 144
- skip3：32 × 32 × 240
- skip4：16 × 16 × 672
- 编码器输出：8 × 8 × 1，280

步骤3：金字塔池化模块（PPM）
- 对于每个bin大小b ∈ {1, 2, 3, 6}：
- pooled ← AvgPool(feature/b)
- Conv2D(128, 1) → BN → ReLU → 上采样到8 × 8
- 将所有分支与编码器输出连接起来：
- ppm_out = Concat([enc, P1, P2, P3, P4])
- 瓶颈层缩小：Conv2D(512, 1) → BN → ReLU

步骤4：多尺度特征融合（MSFF）
- 多尺度分支：
- F1 = Conv2D(C1, 1 × 1) → BN → ReLU
- F2 = Conv2D(C2, 3 × 3) → BN → ReLU
- F3 = Conv2D(C3, 3 × 3, 拓展系数 = 2) → BN → ReLU
- 连接所有分支：Fcat = [F1∥F2∥F3]
- 通道注意力：att = σ(W2δ(W1GAP(Fcat)))
- 残差投影：WrFin = Conv2D(C, 1 × 1) → BN
- 残差融合：Fout = WrFin + (att⊙Fcat)

步骤5：解码器
- 第1阶段（8 → 16）：Up2 → Concat(MSFF(skip4)) → Conv2D(512)
- 第2阶段（16 → 32）：Up2 → Concat(MSFF(skip3)) → Conv2D(256)
- 第3阶段（32 → 64）：Up2 → Concat(MSFF(skip2)) → Conv2D(128)
- 第4阶段（64 → 128）：Up2 → Concat(MSFF(skip1)) → Conv2D(64)
- 第5阶段（128 → 256）：Up2 → Conv2D(32)
- 最终输出：? = Conv2D(1, 1 × 1, sigmoid)(X)

PSP-EffB0-MSFF

3. 评估指标
为了评估模型性能，使用了交并比（IoU）、Dice系数、平均对称表面距离（ASSD）、Hausdorff距离的第95百分位数（HD95）和浮点运算次数（flops）。IoU用于衡量真实掩膜和预测掩膜之间的重叠程度，表示为交集与并集的比率。
IoU = TPTP + FP + FN
其中，TPTP表示真正例，FP表示假正例，FN表示假负例。

Dice系数用于衡量分割重叠，特别强调真正例。
Dice = (TP × TP) / (TP + FP + FN)

HD95用于衡量真实掩膜和预测掩膜在第95百分位处的边界距离，从而减少异常值的敏感性。
HD95 = HD95(A, B)

ASSD用于衡量真实掩膜和预测掩膜边界在两个方向上的平均距离。
ASSD = 1 / (|SA| + |SB|) × ∑(x ∈ SA, d(x, SB) + ∑(y ∈ SB, d(y, SA))

FLOPs用于通过计算处理数据所需的操作次数来衡量模型的计算复杂度。
FLOPs = 2 × Cin × Kh × Kw × Cout × Hout × Wout

所有评估指标都是在切片层面计算的，并对所有切片进行了平均。评估是以二维切片为单位进行的。为了提供患者层面的视角，通过合并每个受试者的所有有效切片来汇总切片指标。由于两个数据集的体素间距元数据并不一致，且将尺寸调整到256 × 256像素后无法进行可靠的物理单位计算，因此边界相关指标（如HD95和ASSD）是以像素单位而不是物理单位（毫米）来计算的。这些指标是使用调整后的预测图像和真实掩膜计算得出的。因此，与以毫米报告结果的研究进行比较时应谨慎。

所有实验使用了不同的随机种子（42、21和7）重复了三次，结果以平均值±标准差的形式报告，以评估结果的稳定性。

4. 结果与讨论
PSP-EffB0-MSFF模型的开发旨在在保持准确性和计算成本之间取得平衡的同时提高分割性能。进行了消融研究以评估架构中每个组件的贡献。

如表4（切片层面结果）所示，对于CirrMRI600+数据集，使用ResNet50作为骨干的基线PSPNet模型达到了0.81 ± 0.233的Dice分数和12.85 GFLOPs的计算成本。将骨干替换为EfficientNetB0显著降低了计算成本至3.17 GFLOPs，尽管Dice分数略有下降至0.79 ± 0.26。添加跳跃连接后，Dice分数提高到0.919 ± 0.16，表明空间信息得到了更好的保留。加入MSFF模块后，Dice分数进一步提高到0.922 ± 0.15。尽管这种改进相对较小，但在实验中保持一致。从计算角度来看，仅使用跳跃连接的模型需要17.72 GFLOPs。结合MSFF模块后，计算成本降低，同时保持了类似的分割性能。然而，总体计算成本仍然高于EfficientNetB0基线，表明在准确性和计算复杂性之间存在权衡。这表明MSFF模块主要改进了局部特征表示，从而在边界对齐方面略有改进，而不是在Dice等基于重叠的指标上有显著变化。

表4 方法 IoU Dice HD95 ASD FLOPs
PSPNet with ResNet50 0.734 ± 0.25 40.81 ± 0.233 11.25 ± 13.57 3.36 1 ± 4.37 12.85
GPSPNet with EfficientNetB0 0.715 ± 0.26 10.79 ± 0.26 11.83 ± 13.55 3.63 ± 3.63 1.77
GPSPNet + EffB0 + skip 0.88 ± 0.17 0.919 ± 0.16 6.2 ± 12.39 1.59 ± 2.49 17.72
GPSPNet + EffB0 + skip + MSFF 0.88 ± 0.17 0.922 ± 0.15 5.924 ± 11.36 1.56 ± 2.19 14.91

对于CirrMRI600+数据集的消融研究。

除了Dice分数外，边界敏感指标也有所改善。具体来说，两个数据集中的HD95和ASSD的降低表明MSFF模块在边界对齐方面有轻微的细化。这些改进表明MSFF增强了细粒度特征表示，特别是在肝脏边界靠近周围结构的区域。此外，MSFF模块与仅使用跳跃连接的配置相比降低了计算成本，表明特征利用更加高效。如表5（切片层面结果）所示，DLDS数据集也观察到了类似的趋势。由于许多现有研究使用物理单位（毫米）报告基于距离的指标（HD95和ASSD），因此未与之前的DLDS数据集研究进行比较。

表5 方法 IoU Dice HD95 ASD FLOPs
PSPNet with ResNet50 0.844 ± 0.12 10.909 ± 0.09 58.43 1 ± 7.76 92.37 7 ± 1.49 7 12.85
GPSPNet with EfficientNetB0 0.835 ± 0.126 0.904 ± 0.09 98.94 7 ± 7.67 32.50 9 ± 1.49 9 3.17
GPSPNet + EffB0 + skip 0.937 ± 0.062 0.952 ± 0.049 2.61 2 ± 6.42 10.75 4 ± 0.99 4 17.72

基线模型达到了0.909 ± 0.09的Dice分数。将骨干替换为EfficientNetB0降低了计算成本，但略微降低了性能。添加跳跃连接后，Dice分数显著提高到0.952 ± 0.049，突显了它们在保留空间信息方面的作用。结合MSFF模块后，Dice分数进一步提高到0.955 ± 0.038。尽管改进幅度不大，但一致地提高了分割性能，尤其是在对象边界附近。总体而言，跳跃连接对性能提升的贡献最大，而MSFF模块提供了额外的细化。尽管MSFF的改进是渐进式的，但它对于需要精确边界划分的任务仍然相关，这对于临床解释非常重要。结果展示了准确性与复杂性之间的权衡，即通过增加计算复杂性来提高分割性能。

表6 方法 IoU Dice HD95 ASD FLOPs
数据集 UNet (26) 0.677 2 0.690 0 38.22 1
CirrMRI600+ Attention UNet (26) 0.708 9 0.728 8 36.19 9.28
CirrMRI600+ nnUnet-2D (26) 0.722 9 0.741 8 34.56 8.78
CirrMRI600+ Trasunet (26) 0.721 9 0.745 7 31.11 8.66
CirrMRI600+ Synergynet (26) 0.738 3 0.759 2 30.94 7.55
CirrMRI600+ MedSegDiff (26) 0.748 9 0.766 7 30.89 7.34
CirrMRI600+ PSP + EffB0 + skip + MSFF (我们的方法) 0.879 ± 0.16 7 40.922 ± 0.15 24 5.924 ± 11.35 8 1.559 ± 2.19

在CirrMRI600+数据集上的性能比较。预测的分割结果与真实掩膜基本对齐，仅在肝脏靠近周围结构的边界区域观察到小的差异。从临床角度来看，准确的分割肝脏有助于体积分析、治疗规划和疾病监测，从而提供更可靠的定量评估。这项研究有几个局限性。该模型在2D切片上运行，这意味着没有明确捕捉到切片之间的完整3D空间关系，可能会影响体积一致性。此外，由于没有一致的体素间距信息，边界相关指标（HD95和ASSD）是以像素单位计算的，这限制了它们的直接临床解释。在训练期间，为了保持计算可行性，仅从每位患者中选择了固定数量的切片；然而，这可能没有充分利用所有可用的体积信息。此外，由于计算限制，未评估跨数据集的泛化能力，训练和测试是在各自的数据集上单独进行的。尽管提出的模型在多次运行中进行了评估，但由于计算限制，消融实验仅进行了一次运行；因此，观察到的改进应被视为指示性趋势，而不是统计上验证的差异。提出的模型的实验使用了固定的随机种子（42、21和7）重复了三次以评估结果稳定性，而消融研究仅进行了一次运行。在两个数据集中观察到的相似性能趋势表明模型行为是一致的。该模型使用了二元交叉熵（BCE）和Dice损失进行训练。BCE惩罚像素级别的错误分类，而Dice损失直接优化了预测掩膜和真实掩膜之间的重叠，并解决了类别不平衡问题。在训练期间，损失在最初的几个epoch中迅速下降，并在两个数据集的第25个epoch后稳定下来，如图5所示。

图5 数据集A和数据集B的训练和验证Dice及损失曲线。(a) Data Set A的Dice曲线。(b) Data Set A的损失曲线。(c) Data Set B的损失曲线。(d) Data Set B的Dice曲线。

通过汇总每位患者的切片级预测得到的患者级结果展示在表7中。当包括仅含背景的切片在内计算平均Dice时，患者级Dice低于在包含肝脏的切片上计算的切片级Dice。在切片层面进行了消融研究以分析各个组件的贡献。虽然该模型在2D切片上运行，但患者级评估提供了更具临床相关性的分割性能评估。训练和验证曲线紧密对齐，表明收敛稳定且过拟合最小。图6和图7分别展示了数据集A和B的定性结果，其中MSFF模块与其他配置相比显示了相对更好的边界划分。

5. 结论
基于U-Net的架构广泛用于医学图像分割。在本研究中，提出的PSP-EffB0-MSFF模型在CirrMRI600+数据集上表现出竞争性能，并在当前实验设置下的DLDS数据集上也保持了一致的分割性能。跳跃连接的加入在提高分割性能方面发挥了重要作用，而MSFF模块提供了额外的细化。尽管Dice分数的改进幅度不大，但基于距离的指标（HD95和ASSD）的持续降低表明边界对齐有轻微的细化，特别是在肝脏靠近周围结构的区域。这表明MSFF增强了局部特征表示，而不是产生较大的全局性能提升。选择EfficientNetB0作为骨干是因为它在计算成本和分割性能之间取得了平衡，实现了准确性和效率之间的实际权衡。未来的工作将集中在将提出的方法扩展到其他成像模态（如CT和超声），探索替代的骨干架构，结合体积评估指标，并使用基于物理单位的指标在DLDS数据集上进行标准化比较，因为当前数据集中的体素间距元数据并不一致。

热点排行