基于局部-全局注意力机制与图像分解的无监督可变形图像配准方法

《Expert Systems with Applications》:Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

【字体: 时间:2026年03月03日 来源:Expert Systems with Applications 7.5

编辑推荐:

  提出LGANet++,一种结合局部-全局注意力机制与多尺度特征融合的未监督变形图像配准方法,通过金字塔框架实现层次化优化,在跨患者、跨时间及跨模态任务中显著提升配准精度(分别提高1.39%、0.71%、6.12%),并在五个公开数据集上验证其鲁棒性和泛化能力。

  
黄正勇|孙星文|常旭婷|江宁|王瑶|孙建飞|韩宏斌|隋尧
北京大学健康科学中心医学技术研究所,中国北京

摘要

可变形图像配准是医学图像分析中的关键技术,在临床实践中具有广泛应用,如疾病诊断、多模态融合和手术导航等。传统方法通常依赖于迭代优化,这种方法计算量大且缺乏泛化能力。深度学习的最新进展引入了基于注意力机制的方法,提高了特征对齐的效果,但精确配准具有高度解剖变异性的区域仍然具有挑战性。在这项研究中,我们提出了一种新颖的无监督可变形图像配准框架LGANet++,该框架结合了一种独特的局部-全局注意力机制和特征交互与融合技术,以增强配准的准确性、鲁棒性和泛化能力。我们使用五个公开可用的数据集评估了我们的方法,这些数据集代表了三种不同的配准场景:跨患者、跨时间和跨模态的CT-MR配准。结果表明,我们的方法在跨患者配准中提高了1.39%的准确性,在跨时间配准中提高了0.71%的准确性,在跨模态CT-MR配准任务中提高了6.12%的准确性。这些结果凸显了LGANet++在支持需要可靠和高效图像配准的临床工作流程中的潜力。源代码可在以下链接获取:https://github.com/huangzyong/LGANet-Registration

引言

可变形图像配准在广泛的医学图像处理和分析任务中至关重要(Chen, Xu, Yi, Yang, Hou, Ding, Granichin, 2019; Zheng, Wang, Yang, Deng, Ding, Hou, 2024),例如运动校正(Sui, Afacan, Jaimes, Gholipour, & Warfield, 2025)、多模态图像融合(Yang et al., 2025)、疾病诊断(Lv, Wang, & Li, 2022)和图像引导手术(Li, Stoyanov, & Vasconcelos, 2023)。图像配准的目标是确定一种变换,使图像(移动图像)与其参考图像(固定图像)在空间上对齐。这一过程的准确性至关重要,因为它直接影响下游分析的可靠性。不幸的是,开发一种在各种场景中都能始终提供高精度对齐的配准方法仍然具有挑战性(Song, Wang, & Yan, 2022)。
可变形图像配准通常采用迭代优化技术来实现,这些技术侧重于基于变形图像和固定图像的经验公式化能量函数的重复优化(Meng, Feng, & Kim, 2023)。然而,这种迭代方法的本质上是耗时的,这对其在实时临床应用(如图像引导的术中导航)构成了重大挑战(Liebmann, Snedeker et al., 2024)。
最近,深度学习方法作为可变形图像配准的快速解决方案应运而生(Liu, Gao, Liu, Pan, Liang, Yan, Ma, He, Zhang, Pan, et al., 2021; Zhong, Zhang, Liu, Zhang, Mo, Zhang, Hu, Chen, Qi, 2023),由于其在特征学习方面的先进能力,表现出显著的效果,优于传统技术。无监督学习范式利用相似性度量而不需要真实的变形场,因其实用性和可扩展性而引起了广泛关注(Balakrishnan, Zhao, Sabuncu, Guttag, & Dalca, 2019)。这些方法(Meng et al., 2023)通常首先从一对固定-移动图像开发出一个参数化的映射函数到相应的变形场。然后使用包含未配准对的数据集来细化参数。训练阶段完成后,可以通过单次前馈快速推断出变形场。然而,在图像对之间的位移较大的情况下,估计变形场变得具有挑战性,往往使得这些基于学习的方法无效(Zhao, Chang, & Xu, 2019a)。多项研究指出了这个问题,强调在涉及大位移的复杂临床场景中,直接估计方法的效果通常有限(Kang, Hu, Huang, Scott, Reyes, 2022; Lewis, Rost, Guttag, Dalca, 2020)。
为了解决这个问题,研究人员采用了一种粗到细的学习方法,将目标变形场分解为一系列更容易估计的组成部分(Li, Li, Li, & Lu, 2024)。这种分解过程允许对移动图像进行多次连续的变形处理并纠正误差。因此,先前分解中变形场的错位可以在后续估计中得到纠正,从而实现从粗略到精确的精度提升。根据所实施模型的配置,这些技术通常分为两大类:迭代配准和金字塔配准。迭代技术(Hu, Zhou, Xiong, Wu, 2022; Zhao, Dong, Chang, Xu, et al., 2019b)通过重复提取特征来逐步细化变形场,但由于每一步都需要进行特征提取,因此计算成本较高。基于金字塔的方法(Lv, Wang, Li, 2022; Meng, Feng, Kim, 2023)通过首先在低分辨率下估计一个粗略的场,然后逐步细化它,提供了一种更高效的替代方案。
同时,注意力机制在医学图像配准领域引起了广泛关注,因为它们的设计简单而有效(Kong, Zhou, 2023; Leroy, Deutsch, Lepetit, Paragios, 2023)。大量研究表明,与其他技术(Liu, Carass, 2022; Rühaak, Heinrich, 2017)相比,使用基于注意力机制的方法提高了配准性能。例如,TransMorph(Chen, Zheng, & Gee, 2023)使用变换器进行全局特征相关性处理,而GroupMorph(Tan, Zhang, Lv, Ma, & Lu, 2024)利用分组相关性来捕捉大变形和小变形。然而,这些方法的一个局限性是,移动图像和固定图像之间的特征交互往往探索不足,这限制了模型学习精确的体素级对应关系的能力。
基于这些成功,我们提出了LGANet++,这是一种基于金字塔配准框架的新方法。我们引入了一个局部-全局注意力模块(LGAM),它捕获了细粒度的局部对应关系和长距离的上下文关系,以处理变形中的显著区域变化。此外,我们设计了一个特征交互和融合模块(FIFM)来增强变形图像和固定图像之间的信息交换,以及一个多尺度融合模块(MSFM)来整合不同分辨率下的语义线索。这些组件共同实现了变形场的层次化细化,显著提高了各种任务中配准的鲁棒性。广泛的实验表明,我们的方法在各种配准任务中始终实现了高准确性和强大的泛化能力。定量结果显示,LGANet++在跨患者配准中提高了1.39%的准确性,在跨时间配准中提高了0.71%的准确性,在跨模态CT-MR配准任务中提高了6.12%的准确性。值得注意的是,这些改进突显了LGANet++在具有挑战性的配准场景中的优越有效性和鲁棒性,特别是在存在较大外观差异的跨模态CT-MR配准中。
我们的主要贡献如下:
  • 我们提出了一种新颖的粗到细的编码器-解码器网络LGANet++,其中结合了局部-全局注意力机制,以实现准确和鲁棒的可变形图像配准。
  • 我们设计了一个多尺度融合模块(MSFM),有效地整合和传递不同分辨率特征图之间的语义信息,增强了变形场中的上下文一致性。
  • 我们开发了两个专用模块:LGAM用于捕获局部和全局特征依赖性,以及一个特征交互和融合模块(FIFM),包括一个图像分解模块(IDM)和一个通道级注意力模块(CWAM),以实现结构化和精细的对齐。
  • 我们在五个数据集上进行了广泛的实验,涵盖了三种不同的场景,以评估我们提出方法的有效性,展示了其与九种最先进技术相比的优越配准性能。
  • 我们的初步结果已在(Huang & Sui, 2025)中报告,而当前研究在方法论和实验范围上进行了实质性扩展。本文的其余部分组织如下:第2节详细介绍了所提出的LGANet++框架及其核心组件。第3节描述了实验设置、数据集,并与最先进方法进行了全面比较,随后是消融研究。第4节讨论了我们工作的优势、局限性和结论,以及对未来研究的建议。

    方法

    可变形图像配准旨在确定一个变形场?,以最小化移动图像Im和固定图像If之间的差异(Liu & Gu, 2023)。在这项研究中,我们采用了一种无监督学习方法,通过参数化网络直接从输入图像对预测变形场:Fθ?=Fθ(If, Im),然后使用空间变换网络(STN)(Jia et al., 2023)获得变形图像IwIm, IwRH×W×D, 在此背景下,Im, If, IwR3

    数据集和预处理

    我们提出的配准方法LGANet++使用了五个公开可用的数据集进行评估:LPBA(Shattuck, Bilder, & Toga, 2008)、IXI(Wang et al., 2024)、OASIS(Marcus & Buckner, 2007)、Lung CT(Hering, Murphy, & van Ginneken, 2020)和Abdomen CT-MR(Kavur, Selver, Dicle, Bar??, & Gezer, Linehan, Gautam, Kirk, Lee, Roche, Bonaccio, et al., 2016, Xu, Ourselin, Abramson, Landman, 2016)。
    LPBA数据集 LONI概率脑图谱(LPBA)包含40个人体的T1加权MRI扫描

    讨论

    在这项研究中,我们开发了LGANet++,这是一个局部-全局注意力网络,它通过将金字塔配准、局部-全局注意力机制和多尺度特征融合集成到一个统一的粗到细框架中,推进了无监督可变形图像配准。本研究的主要贡献有三个方面:(1)方法论上,我们引入了局部-全局注意力模块(LGAM)、特征交互和融合模块(FIFM)以及多尺度融合模块(MSFM)

    CRediT作者贡献声明

    黄正勇:概念化、数据管理、形式分析、调查、方法论、软件、验证、可视化、初稿撰写、审稿与编辑。孙星文:调查、数据管理、资源协调。常旭婷:调查、数据管理、资源协调。江宁:概念化、形式分析、可视化。王瑶:形式分析、资源协调、资金获取。孙建飞:资源协调、监督、资金获取。韩宏斌:资源协调

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号