通过准多模态训练和菱形混合骨干网络提升跨数据集的泛化能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Enhancing cross-dataset generalization with quasi-multimodal training and the diamond hybrid backbone

【字体：大中小】 时间：2026年02月22日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　医疗图像分割面临跨数据集泛化不足和标注成本过高等挑战。本文提出准多模态(QMM)训练策略，通过整合异构非配对数据集，以共享病理目标为中心减少标签空间熵，迫使模型学习扫描器不变的表征。为充分挖掘该范式，设计了Diamond混合架构，采用双路径特征强化机制和残差递归卷积，结合嵌套注意力系统，有效平衡局部细节与全局语义。实验表明QMM使跨数据集IoU和Dice平均提升12.54%，Diamond在14个SOTA基准上提升12.61%且保持高效计算。

徐玉泉|塔哈·M·拉杰|张宇彤|张莉|万玉轩|朱正宇|王月飞

成都大学斯特林学院，中国四川省成都市610106

摘要

医学图像分割面临着持续的挑战，这些挑战源于跨数据集泛化的能力有限以及大规模专家标注的成本过高。为了解决这些问题，我们提出了一种新颖的准多模态（Quasi-Multimodal, QMM）训练范式。这种数据高效策略整合了以共同病理目标为中心的异构、非配对数据集，通过数学方法降低标签空间熵，从而迫使模型学习出与扫描设备无关的表示。为了充分利用这一范式，我们开发了Diamond这一专用混合框架，它采用了双路径特征强化（Dual-Path Feature Reinforcement）机制。与传统单流架构不同，Diamond采用了独特的SkipRes-Connection策略来保留高频空间细节，有效过滤领域特定噪声，同时强化全局语义上下文。作为补充，我们还引入了两个轻量级模块：残差递归门控卷积（Residual Recursive Gated Convolution）用于高阶空间交互建模，以及嵌套注意力系统（Nested Attention System）用于多维特征校准。本文的核心贡献在于将降低熵的QMM策略与抗噪声的Diamond架构相结合，为异构条件下的高保真分割建立了统一的框架。在十个公开数据集上的广泛实验表明，QMM在跨数据集性能上取得了统计学上的显著提升，平均将IoU和Dice分数提高了12.54%。此外，Diamond在交叉验证指标上超越了14个最先进模型，提高了12.61%，同时保持了出色的计算效率。源代码可在以下链接获取：https://github.com/IamDerrick666/Diamond.git

引言

医学图像分割是临床工作流程中的关键任务，因为它能够精确识别医学扫描中的解剖结构和病理区域。它支持多种应用，包括疾病诊断、治疗计划和计算机辅助诊断（CAD）（[1], [2]）。随着医学成像技术的进步，成像数据的分辨率和体积迅速增长。这种增长增加了对既准确又高效且可扩展的分割方法的需求（[3]）。尽管基于深度学习的分割技术取得了显著进展，当前模型仍面临三个主要挑战。

•
泛化能力有限。在范围狭窄的数据集上训练的网络往往无法在不同扫描设备、机构和病变类型之间进行泛化，因为模态、对比度、噪声和病变外观存在显著差异（[4]）。这种对领域变化的敏感性严重限制了它们的鲁棒性和实际应用能力。
•
准确性与效率之间的权衡。多模态学习可以提高鲁棒性，但通常需要大量的配对标注和计算资源，这在实际临床环境中降低了其实用性（[5]）。
•
高昂的数据和资源成本。许多方法依赖于大型标注数据集和强大的GPU基础设施。这些高昂的成本使得中小型医疗机构难以使用先进模型，而专家标注的高成本进一步限制了模型的可扩展性（[6]）。

这些限制凸显了迫切需要一种无需高昂数据和计算成本的训练范式来提高模型泛化能力。

为了解决这些挑战，我们提出了一个统一框架，以协调准确性、泛化和效率。首先，我们引入了准多模态（QMM）训练策略来克服单源训练的局限性。该方法整合了以共同病理目标为中心的异构数据集，促进了鲁棒的特征学习，而不需要严格的配对多模态数据。其次，为了充分发挥QMM的潜力，我们设计了Diamond这一专用混合框架。该架构专门设计用于处理异构训练数据引入的多样化特征分布，确保保留了细粒度细节和全局语义上下文。最后，为了进一步优化性能，我们开发了两个模块化组件：残差递归门控卷积（RrgConv）和嵌套注意力系统（NAS），分别用于精细化空间和维度特征表示。

本文的主要贡献如下：

•
QMM训练策略旨在用更少的资源实现更强的泛化能力。通过选择性地整合病变特定数据集，QMM科学地降低了标签熵，并迫使模型忽略扫描设备噪声等领域特定变化。这一范式使得模型能够从非配对数据中学习出与扫描设备无关的鲁棒表示，显著提升了跨数据集的泛化能力。
•
引入了Diamond这一混合架构，该架构采用了双路径特征强化机制。与标准的U-Net变体不同，Diamond采用了独特的菱形特征聚合策略和SkipRes-Connections。这种设计平衡了CNN的局部归纳偏差和Swin Transformer的全局上下文，有效缓解了异构QMM数据导致的特征稀释问题，同时保持了高计算效率。
•
设计了两个与架构无关的轻量级模块：RrgConv实现了高效的高阶空间特征精细化，NAS提供了增强的多维特征校准。这些便携式模块可以无缝集成到Diamond之外的各种网络中。

本文的其余部分安排如下：第2节回顾了单模态和多模态分割的相关工作；第3节介绍了QMM框架、Diamond网络和模块化组件；第4节讨论了实验结果和评估；第5节总结了工作并展望了未来方向。

方法论

本节详细介绍了QMM训练范式、Diamond混合框架以及两个便携式优化模块RrgConv和NAS。

实验

本节详细介绍了实验中使用的数据集、评估指标、实现细节和基线方法。

结论与讨论

本研究通过将数据为中心的QMM范式与以架构为中心的Diamond框架相结合，建立了一个统一的医学图像分割框架。通过偏离传统的单模态或配对多模态方法，我们证明了有针对性的数据整合结合专门的双路径特征强化机制，有效解决了标注资源有限与跨领域泛化需求之间的矛盾。

我们的研究

CRediT作者贡献声明

徐玉泉：撰写——原始草稿、可视化、验证、方法论、概念化。塔哈·M·拉杰：撰写——审稿与编辑、监督。张宇彤：撰写——原始草稿、可视化。张莉：验证。万玉轩：验证、数据管理。朱正宇：撰写——审稿与编辑、验证。王月飞：撰写——审稿与编辑、监督、项目管理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

方法论

实验

结论与讨论

CRediT作者贡献声明

利益冲突声明

热点排行

新闻专题