可变形图像配准在广泛的医学图像处理和分析任务中至关重要(Chen, Xu, Yi, Yang, Hou, Ding, Granichin, 2019; Zheng, Wang, Yang, Deng, Ding, Hou, 2024),例如运动校正(Sui, Afacan, Jaimes, Gholipour, & Warfield, 2025)、多模态图像融合(Yang et al., 2025)、疾病诊断(Lv, Wang, & Li, 2022)和图像引导手术(Li, Stoyanov, & Vasconcelos, 2023)。图像配准的目标是确定一种变换,使图像(移动图像)与其参考图像(固定图像)在空间上对齐。这一过程的准确性至关重要,因为它直接影响下游分析的可靠性。不幸的是,开发一种在各种场景中都能始终提供高精度对齐的配准方法仍然具有挑战性(Song, Wang, & Yan, 2022)。
可变形图像配准通常采用迭代优化技术来实现,这些技术侧重于基于变形图像和固定图像的经验公式化能量函数的重复优化(Meng, Feng, & Kim, 2023)。然而,这种迭代方法的本质上是耗时的,这对其在实时临床应用(如图像引导的术中导航)构成了重大挑战(Liebmann, Snedeker et al., 2024)。
最近,深度学习方法作为可变形图像配准的快速解决方案应运而生(Liu, Gao, Liu, Pan, Liang, Yan, Ma, He, Zhang, Pan, et al., 2021; Zhong, Zhang, Liu, Zhang, Mo, Zhang, Hu, Chen, Qi, 2023),由于其在特征学习方面的先进能力,表现出显著的效果,优于传统技术。无监督学习范式利用相似性度量而不需要真实的变形场,因其实用性和可扩展性而引起了广泛关注(Balakrishnan, Zhao, Sabuncu, Guttag, & Dalca, 2019)。这些方法(Meng et al., 2023)通常首先从一对固定-移动图像开发出一个参数化的映射函数到相应的变形场。然后使用包含未配准对的数据集来细化参数。训练阶段完成后,可以通过单次前馈快速推断出变形场。然而,在图像对之间的位移较大的情况下,估计变形场变得具有挑战性,往往使得这些基于学习的方法无效(Zhao, Chang, & Xu, 2019a)。多项研究指出了这个问题,强调在涉及大位移的复杂临床场景中,直接估计方法的效果通常有限(Kang, Hu, Huang, Scott, Reyes, 2022; Lewis, Rost, Guttag, Dalca, 2020)。
为了解决这个问题,研究人员采用了一种粗到细的学习方法,将目标变形场分解为一系列更容易估计的组成部分(Li, Li, Li, & Lu, 2024)。这种分解过程允许对移动图像进行多次连续的变形处理并纠正误差。因此,先前分解中变形场的错位可以在后续估计中得到纠正,从而实现从粗略到精确的精度提升。根据所实施模型的配置,这些技术通常分为两大类:迭代配准和金字塔配准。迭代技术(Hu, Zhou, Xiong, Wu, 2022; Zhao, Dong, Chang, Xu, et al., 2019b)通过重复提取特征来逐步细化变形场,但由于每一步都需要进行特征提取,因此计算成本较高。基于金字塔的方法(Lv, Wang, Li, 2022; Meng, Feng, Kim, 2023)通过首先在低分辨率下估计一个粗略的场,然后逐步细化它,提供了一种更高效的替代方案。
同时,注意力机制在医学图像配准领域引起了广泛关注,因为它们的设计简单而有效(Kong, Zhou, 2023; Leroy, Deutsch, Lepetit, Paragios, 2023)。大量研究表明,与其他技术(Liu, Carass, 2022; Rühaak, Heinrich, 2017)相比,使用基于注意力机制的方法提高了配准性能。例如,TransMorph(Chen, Zheng, & Gee, 2023)使用变换器进行全局特征相关性处理,而GroupMorph(Tan, Zhang, Lv, Ma, & Lu, 2024)利用分组相关性来捕捉大变形和小变形。然而,这些方法的一个局限性是,移动图像和固定图像之间的特征交互往往探索不足,这限制了模型学习精确的体素级对应关系的能力。
基于这些成功,我们提出了LGANet++,这是一种基于金字塔配准框架的新方法。我们引入了一个局部-全局注意力模块(LGAM),它捕获了细粒度的局部对应关系和长距离的上下文关系,以处理变形中的显著区域变化。此外,我们设计了一个特征交互和融合模块(FIFM)来增强变形图像和固定图像之间的信息交换,以及一个多尺度融合模块(MSFM)来整合不同分辨率下的语义线索。这些组件共同实现了变形场的层次化细化,显著提高了各种任务中配准的鲁棒性。广泛的实验表明,我们的方法在各种配准任务中始终实现了高准确性和强大的泛化能力。定量结果显示,LGANet++在跨患者配准中提高了1.39%的准确性,在跨时间配准中提高了0.71%的准确性,在跨模态CT-MR配准任务中提高了6.12%的准确性。值得注意的是,这些改进突显了LGANet++在具有挑战性的配准场景中的优越有效性和鲁棒性,特别是在存在较大外观差异的跨模态CT-MR配准中。
我们的主要贡献如下:
我们提出了一种新颖的粗到细的编码器-解码器网络LGANet++,其中结合了局部-全局注意力机制,以实现准确和鲁棒的可变形图像配准。我们设计了一个多尺度融合模块(MSFM),有效地整合和传递不同分辨率特征图之间的语义信息,增强了变形场中的上下文一致性。我们开发了两个专用模块:LGAM用于捕获局部和全局特征依赖性,以及一个特征交互和融合模块(FIFM),包括一个图像分解模块(IDM)和一个通道级注意力模块(CWAM),以实现结构化和精细的对齐。我们在五个数据集上进行了广泛的实验,涵盖了三种不同的场景,以评估我们提出方法的有效性,展示了其与九种最先进技术相比的优越配准性能。