STFNet：一种用于超声视频中乳腺病变分割的时空特征聚合网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computerized Medical Imaging and Graphics》：STFNet: A Spatial-Temporal Feature aggregation network for breast lesion segmentation in ultrasound videos

【字体：大中小】 时间：2026年03月20日 来源：Computerized Medical Imaging and Graphics 4.9

编辑推荐：

　　针对乳腺超声视频分割中存在的动态信息利用不足、低对比度噪声干扰等问题，提出STFNet模型。该模型通过时空特征聚合模块整合CNN提取局部细节和Transformer捕获全局依赖，结合多尺度特征融合模块提升边界清晰度，并采用边界感知优化损失函数降低噪声影响。实验表明，在两个医院收集的490例患者550个视频数据集上，Dice系数分别达到80.27%和78.68%，优于现有方法。

范传松|吴磊|刘宇|姚梦霞|闫丽芬|余纳倩|刘子军|梁长红|史家瑶|刘在义|王颖

桂林电子科技大学计算机科学与信息安全学院，中国桂林，541004

摘要

在超声成像中准确分割病变对于乳腺癌的早期检测和诊断至关重要。以往的研究主要集中在静态的2D图像上，忽略了超声技师根据连续和动态扫描结果进行诊断的临床场景。超声视频可以提供关于病变及其周围组织的更详细信息。然而，由于图像中的复杂空间和时间变化，超声视频中乳腺病变的自动分割存在挑战。为了解决这个问题，我们提出了STFNet（空间-时间特征聚合网络），该网络专为乳腺超声视频的稳健分割而设计。STFNet结合了空间特征提取模块（SFEM）用于局部空间特征提取和时间特征提取模块（TFEM）用于时间依赖性建模，有效捕捉了细粒度细节和长距离的上下文动态。一个专门的多尺度特征融合（MSFF）模块分层结合了多分辨率的空间和时间特征，以增强病变边界的勾勒，而一个结合边界感知优化的混合损失函数减轻了斑点噪声和低对比度的影响。我们在两家学术医院对490名患者（550个视频）验证了STFNet的性能。正如预期的那样，STFNet的Dice得分分别为80.27%（数据集A）和78.68%（数据集B），超过了现有的最先进方法。我们的方法将视频分析与临床实践相结合，提供了准确且自动化的乳腺癌诊断。

引言

乳腺癌仍然是全球主要的恶性肿瘤之一，约占女性新发癌症病例的23.8%（Bray等人，2024年）。早期乳腺癌的检测和精确诊断可以改善患者的预后。超声是检测和诊断乳腺癌的主要成像方式，因为它无辐射、成本效益高，并且对致密乳腺敏感（Nothacker等人，2009年）。此外，超声在区分囊性和实体肿块方面也很有效。因此，实现准确的超声诊断对乳腺癌患者来说至关重要。在临床实践中，乳腺病变的评估依赖于连续和动态的超声扫描。乳腺病变的超声视频可以提供有价值的诊断特征，如大小、边缘、形状以及与周围组织的关系。这需要准确勾勒出连续超声帧中的病变边界。然而，由于斑点噪声和低超声对比度，以及手动注释的劳动强度大和观察者间的差异（Kremkau和Taylor，1986年），精确诊断受到了限制。因此，超声视频中乳腺病变的自动分割在提高诊断效率方面具有巨大潜力。

目前，深度学习（DL）在超声分析中的整合已经彻底改变了诸如病变分割等任务（Abhisheka等人，2023年）。为了在超声上实现满意的乳腺病变分割，卷积神经网络（CNN）作为基础架构，其变体如U-Net（Ronneberger等人，2015年）及其扩展（例如AAU-Net（Chen等人，2022年），PDAtt-Unet（Bougourzi等人，2023年）被广泛用于捕捉病变的局部纹理和空间特征。然而，传统的2D超声帧无法利用时间信息，限制了它们捕捉动态组织行为或细微病变变化的能力，这从根本上削弱了其临床适用性（Thomas等人，2022年）。通过结合时间连续性，超声视频提供了比单帧更全面的数据表示，显著增强了模型勾勒病变结构和追踪其时间演变的能力。与静态图像相比，超声视频提供了丰富的时空信息，从而提高了分割性能（Huang等人，2022年）。连续帧揭示了实时的组织变形和病变移动性，这对于区分良性与恶性肿块至关重要。例如，恶性病变通常表现出不规则的边界和多样的形状，在视频序列中更易于辨别（Lin等人，2023年）。尽管如此，一些方法要么忽略了超声视频流中嵌入的丰富时空特征（Wang等人，2022年），要么未能充分利用这些动态属性来提高诊断精度，尤其是在需要运动模式分析的复杂病例中（Wang等人，2023年）。

尽管有这些优势，基于视频的分割仍然研究不足。这主要是由于几个特定于领域的挑战。首先，传统的B模式图像具有固有的斑点噪声和低软组织对比度。当通用视频模型通常为自然视频设计时，提取的时空特征往往包含噪声伪影而不是语义上有意义的动态信息。其次，由呼吸或探头操作引起的病变运动通常是非刚性的、局部的和微妙的。许多成熟的视频分割技术，如3D卷积网络或基于光流的方法，依赖于大范围、连贯运动的假设，因此在应用于这种细粒度位移时效率低下或容易出错。最后，临床对实时解释的需求对计算能力有严格的要求，使得许多计算复杂的通用视频模型不适合在超声系统中实际应用。现有的DL框架，优化用于单帧分析，难以模拟超声视频中的时间依赖性或结合时空特征。此外，一些方法（例如DKP_Net（J. Li等人，2022年）使用增强对比度超声（CEUS）来实现乳腺病变分割，而B扫描超声主要用于乳腺病变扫描。CEUS利用静脉微泡造影剂在实时成像期间动态增强血管流动和组织灌注的可视化（Ruan等人，2022年）。

总之，乳腺癌计算机辅助诊断（CAD）主要有两个局限性。首先，大多数方法仅使用静态的2D超声图像来分割乳腺病变。放射科医生的临床诊断通常依赖于超声视频，病变的动态行为和结构特征是重要的评估标准。其次，一些超声视频分割方法依赖于CEUS，而CEUS对于在对象和背景之间生成清晰的边界是必要的。这种依赖性是一个挑战，因为CEUS不是常规临床工作流程中的标准成像方式，常规的B模式超声更具成本效益和易用性。

为了解决这些挑战，我们提出了一个用于实时超声视频中乳腺病变分割的空间-时间特征聚合网络（STFNet）。我们使用从两家医院收集的B模式超声视频构建了两个数据集，以确保临床相关性和泛化能力。整个架构的设计考虑到了效率，以支持潜在的实时应用。所提出的STFNet包含三个主要方面：

•
时间特征提取模块。STFNet包含一个轻量级的时间特征提取模块，用于捕捉视频帧之间的细微时间依赖性，设计上能够抵抗斑点噪声和非刚性运动。这使得网络能够利用帧间的上下文线索，从而实现更精确和稳健的病变分割。
•
具有CNN和Transformer的双分支空间特征提取器。STFNet协同整合了Transformer架构和CNN，从每个视频帧中共同提取全局上下文特征和局部空间模式。CNN分支采用分层卷积层来捕捉细粒度的局部细节，如边缘纹理和区域形态，而Transformer分支应用多头自注意力来捕捉帧内的全局空间依赖性。这种设计在低对比度条件下增强了特征区分能力。
•
多尺度特征融合模块（MSFF）。引入了MSFF融合模块，有效地整合了多个尺度上的空间和时间特征。MSFF增强了病变轮廓的勾勒，有效解决了超声视频中边界模糊的问题。

部分摘录

医学图像分割

医学图像分割经历了显著的发展，特别是通过深度学习方法，如CNN及其变体。2015年引入的U-Net通过采用带有跳跃连接的对称编码器-解码器框架彻底改变了医学图像分割（Ronneberger等人，2015年）。各种方法探索了用注意力机制增强U-Net以获得更好的分割结果（Chen等人，2022年），Oktay等人（2018年），Alwadee等人（2025年），

方法

我们提出了一个空间-时间特征聚合网络（STFNet）。该网络处理乳腺超声视频的连续帧，并实时输出分割结果。我们的框架如图1所示，采用ResUNet（Zhang等人，2018年）作为骨干网络，它将ResNet（He等人，2016年）的残差学习原理与UNet（Ronneberger等人，2015年）的U形拓扑设计相结合。网络包括三个部分：（1）时间

数据集A

数据集A是从2023年12月到2024年1月在广东省人民医院收集的。该数据集包含310名患者的370个视频，总计32,233帧，所有视频均由经验丰富的超声放射科医生进行了标注。这些视频使用多种超声系统获取，包括日立Ascendus（日本）、迈瑞Resona 8（中国）、东芝Aplio 500（日本）和飞利浦EPIQ7（荷兰），原始分辨率范围从800 × 600到1260 × 910

讨论

与传统的2D乳腺超声相比，动态超声视频捕获了连续的多平面扫描，提供了关于病变形态、边界特征和与周围组织空间关系的全面信息。准确的病变分割受到运动伪影、重叠组织和有限分辨率的阻碍。在这项研究中，我们提出了一个空间-时间特征聚合网络（STFNet），用于超声视频中乳腺病变的稳健分割。

结论

我们提出了STFNet，这是一个用于超声视频中乳腺病变稳健分割的空间-时间特征聚合网络。通过整合CNN捕获的局部特征、Transformer建模的全局依赖性以及多尺度时空融合，STFNet解决了传统静态2D方法的局限性。在多个临床中心的数据集上的实验结果证明了我们方法的有效性，在分割精度方面达到了最先进的水平

CRediT作者贡献声明

范传松：撰写——原始草稿、可视化、验证、方法论、调查、形式分析、概念化。吴磊：撰写——审阅与编辑、监督、调查、资金获取、概念化。刘宇：撰写——审阅与编辑、资源获取、资金获取、形式分析、数据管理。姚梦霞：资源获取、资金获取、数据管理。闫丽芬：资金获取、形式分析、数据管理。余纳倩：调查、形式

伦理声明

本研究涉及人类受试者，并按照伦理标准进行。所有程序和协议均获得了广东省人民医院伦理委员会的批准（批准编号KY2024-840-01）。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

我们感谢以下机构对当前研究的资助：（1）非传染性疾病-国家科技重大项目（编号2024ZD0531100）；（2）国家自然科学基金（编号82472051, 82471947, 82271941, 82272088）；（3）国家青年科学基金（编号82402270, 82202095）。（4）广州市科技规划项目（编号2025 A04J4774, 2025A04J4773）；（5）自然科学基金

联系信箱：

粤ICP备09063491号

摘要

引言