FVBLNet：一种采用视觉LSTM和多特征校正的双域网络，用于医学图像分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：FVBLNet: A Dual-Domain Network with Vision LSTM and Multi-Feature Calibration for Medical Image Segmentation

【字体：大中小】 时间：2026年05月10日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　刘尚旺|王洪伟|任宇辉|刘国奇|沈华雷河南师范大学计算机与信息工程学院，新乡453007，中国摘要准确的医学图像分割对于可靠的临床诊断和治疗计划至关重要；然而，现有的深度学习方法往往难以同时捕捉细粒度的边界纹理和全局结构依赖性。为了解决这些限制，我们提出了FV

　　刘尚旺|王洪伟|任宇辉|刘国奇|沈华雷
河南师范大学计算机与信息工程学院，新乡453007，中国

摘要
准确的医学图像分割对于可靠的临床诊断和治疗计划至关重要；然而，现有的深度学习方法往往难以同时捕捉细粒度的边界纹理和全局结构依赖性。为了解决这些限制，我们提出了FVBLNet，这是一种结合了双向视觉LSTM（BViL）和多特征校准的空频域网络。该框架采用双域编码器进行同步的空频特征提取，并利用BViL作为骨干来模拟长距离的全局依赖性，同时结合了一个动态稀疏融合解码器来进行精确的边界重建，此外还有三个专门的校准模块：跨尺度上下文桥（CSB）、谱样条注意力模块（SSAM）和通道感知空间放大器（CASA）。这些模块促进了不同模态之间的多尺度对齐和显著性增强。我们在四个公开数据集（BUSI、DDTI、CVC-ClinicDB和PH2）上评估了FVBLNet，我们的方法分别实现了74.38%、72.66%、87.18%和91.02%的交并比（IoU）分数，平均比现有的最佳基线UKAN高出1.16%。在计算效率方面，FVBLNet表现出很高的竞争力，参数数量为9.55M，计算成本仅为1.88G FLOPs，在性能和开销之间达到了优秀的平衡。此外，FVBLNet在未见的STU数据集上保持了86.86%的高Dice分数，显示出卓越的泛化能力。

引言
随着精准医疗范式在全球医疗领域的不断深入和广泛应用，医学图像分割的重要性变得越来越突出（Conze, Andrade-Miranda, Singh, Jaouen, & Visvikis (2023)）。医学图像分割能够精确地划分图像中的不同区域，如组织、器官和病变，从而为医生提供直观、详细和准确的视觉信息，以支持更精确的疾病诊断、治疗计划和治疗效果评估（Bougourzi & Hadid (2025)）。在医学图像处理领域，我们处理各种成像模式，包括内窥镜图像、皮肤镜图像和超声图像。如今，深度学习已成为医学图像分割进步的驱动力。卷积神经网络（CNN）提供了强大的局部特征提取和平移不变性（Azad et al. (2024)），形成了诸如FCN（Long, Shelhamer, & Darrell (2015) 和 U-Net（Ronneberger, Fischer, & Brox (2015)）等开创性分割方法的基础。然而，它们固有的有限感受野阻碍了长距离上下文依赖性的建模，这不利于准确边界的分割（Zhan, Song, Liu, & Chu (2025)）。为了克服CNN的局限性，变换器（Vaswani et al. (2017) 利用了全局自注意力机制，允许显式建模长距离的像素级依赖性，大大增强了对复杂场景的理解（Han et al. (2022)）。然而，变换器的二次计算复杂性在处理高分辨率图像时带来了重大挑战。

为了寻找高效的替代方案，出现了Mamba（Gu & Dao (2023) 和 KAN（Liu et al. (2024d)）等模型。Mamba具有线性计算复杂性并具备强大的长序列建模能力，为减轻变换器的计算负担提供了有希望的方向。KAN用可学习的样条函数替换了固定的激活函数，显示出在参数效率和可解释性方面的潜力。然而，这两种模型本质上是1D序列模型，对于依赖精确空间定位的分割任务来说存在严重挑战。为了解决这些现有模型的局限性，xLSTM（Beck et al. (2024) 作为下一代分割任务的骨干展示了有希望的前景。xLSTM通过结合sLSTM（Yuan, Li, & Wang (2019）的矩阵记忆显著提高了内存容量和长距离依赖性建模，并采用mLSTM（Krause, Lu, Murray, & Renals (2016) 的指数门控和记忆混合来优化信息流和选择，实现了线性计算复杂性，从而能够有效处理分割任务中典型的高分辨率像素序列，克服了变换器的计算瓶颈；其强大的门控记忆系统可以学习图像中的长距离依赖性，从而缓解CNN的局部限制；并且它对2D空间结构具有天然的适应性，更有效地保持了关键的空间邻域关系和结构信息，从而解决了Mamba的序列基础限制。然而，即使有xLSTM这样的先进空域骨干，现有方法依赖于单域（仅空间）建模的普遍范式仍然存在一个固有的、难以解决的瓶颈。空域处理通过直接操作像素强度来提取语义结构，但在编码器的渐进式下采样过程中不可避免地会导致高频病变纹理和细粒度边界细节的不可逆损失。相比之下，纯频域模型在分离结构边缘和背景噪声方面表现出色，但它们缺乏空间坐标所提供的精确解剖定位能力。这一根本矛盾表明，空频双域处理是解决这一关键问题的必然途径。

为了克服单域建模在平衡局部边缘精度和全局结构依赖性方面的局限性，我们提出了FVBLNet，它建立了一个从双域协同提取到深度校准和动态重建的紧密耦合系统。为了解决临床图像中尺度变化和复杂背景噪声的严峻挑战，我们首先设计了一个双域编码器（D2Encoder），利用高通滤波主动抑制低频背景干扰，同时频率分支补充了因连续空间下采样而丢失的边缘细节。这些协同特征随后被注入双向视觉LSTM（BViL）骨干中，以执行空间和频率信息的深度全局语义整合，同时严格保持2D空间拓扑。为了系统地消除这种跨域整合过程中的潜在语义偏差和噪声干扰，我们进一步结合了三个互补的校准模块：跨尺度上下文桥（CSB）用于多尺度空间语义对齐；谱样条注意力模块（SSAM）用于非线性频谱校正，以精确地从噪声污染的伪影中提取频率信号；以及通道感知空间放大器（CASA）用于多维度增强目标显著性。这确保了高质量的特征流无损转换为高度校准的双域表示。最后，动态稀疏融合解码器（DSFDecoder）专注于重建这些精细特征，最终在复杂的临床场景中实现像素级的精确分割。

本研究的主要贡献如下：
• 开发了一个双路径并行架构：旨在同时捕捉空间细节和频域特征。最终解码器利用动态稀疏卷积实现细粒度特征重建，提高了分割精度。
• 设计了BViL模块：采用矩阵记忆和指数门控机制，旨在高效捕捉双向上下文并加强视觉数据中长距离依赖性的建模。
• 构建了多特征校准模块：包括跨尺度上下文桥（CSB）、谱样条注意力模块（SSAM）和通道感知空间放大器（CASA），以实现精确的跨尺度整合、频域增强和空间放大。
• 通过在中国多个公开和未见数据集上评估FVBLNet，验证了其在分割精度和鲁棒性方面的优越性， compared to 当前的最佳基线模型。

数据集
BUSI（乳腺超声图像数据集）Al-Dhabyani, Gomaa, Khaled, & Fahmy (2020) 来源于乳腺肿瘤超声诊断领域。它包含780张乳腺超声图像，涵盖了正常、良性及恶性病例。注释包括像素级的病变分割掩膜和病理诊断标签。
DDTI（甲状腺超声图像数字数据库）Pedraza et al. (2015) 专注于甲状腺结节超声检测。它包含637张超声图像。

跨数据集泛化评估
STU（Zhuang, Li, Joseph Raj, Mahesh, & Qiu (2019) 数据集包含42张来自GE Voluson E10超声诊断系统的标注乳腺超声图像。为了评估不同方法在未知分布数据上的泛化能力，我们直接将在BUSI数据集上训练的模型权重应用于未见过的STU数据集。定量实验结果显示，我们的模型在其他比较方法中表现优于它们（见表11）。

结论
本文提出了一种医学图像分割网络，该网络具有视觉双向LSTM（BViL）架构、双域编码器（D2Encoder）和动态稀疏融合解码器（DSFDecoder），有效利用了空间和频率信息，实现了局部细节和全局依赖性的协同建模。通过设计多个特征校准模块，包括跨尺度上下文桥（CSB）、谱样条注意力（SSAM）和通道感知空间放大器（CASA），实现了精确的跨尺度整合、频域增强和空间放大。

伦理批准
不适用。
未引用引用
图3C
作者贡献声明
刘尚旺：概念化、方法论、软件、验证、正式分析、调查、资源、撰写——原始草稿、撰写——审阅与编辑、可视化、监督、项目管理、资金获取。
王洪伟：概念化、方法论、软件、验证、正式分析、调查、撰写——原始草稿、撰写——审阅与编辑、可视化、数据管理。
任宇辉：验证、调查、数据管理。
刘国奇：正式声明

联系信箱：

粤ICP备09063491号

热点排行