《Knowledge-Based Systems》:Frequency-Spatial Complementary Attention Network for Computed Tomography
编辑推荐:
CT图像去噪中提出频率-空间互补注意力网络(FSCANet),通过频率域分支建模全局依赖与噪声识别,结合空间域分支精细还原局部细节。创新性地构建真实数据引导的物理噪声模型,将噪声生成过程转化为可微分层,并采用混合数据驱动协同优化策略实现联合训练。在DeepLesion数据集上达到PSNR40.5861dB和SSIM0.9913,验证了方法在真实临床数据中的鲁棒性。
Xing Wu|Yimin Zhu|Shuo Duan|Xinyuan Zhang|Xing Wei|Bo Huang|Quan Qian
上海大学计算机工程与科学学院,上海,200444,中国
摘要
计算机断层扫描(CT)去噪对于临床诊断和工业检测至关重要,但受到各种噪声和结构伪影的挑战。现有的深度学习方法在模拟长期依赖性、忽略频域内在先验以及依赖不真实的合成噪声导致的显著域差异方面存在局限性。为了解决这些问题,提出了一种基于频率域和空间域互补融合的频率-空间互补注意力网络(FSCANet)。频率域分支明确分离结构和相位信息以建模全局上下文,而空间域分支则改善局部细节。同时,引入了一个基于真实数据的物理信息噪声模型,通过将物理噪声生成过程形式化为一个可微分层来弥合域差异。FSCANet和噪声模型通过混合数据驱动的协同优化策略进行联合优化,形成一个动态反馈循环,不仅促使噪声模型生成物理上可解释的噪声,还增强了FSCANet的鲁棒性。FSCANet在DeepLesion数据集上取得了40.5861 dB的PSNR和0.9913的SSIM的领先性能,并在Mayo数据集的真实临床数据上展示了强大的泛化能力。
引言
计算机断层扫描(CT)是现代诊断成像和无损检测的关键组成部分,在临床诊断和工业质量控制中具有关键应用[1],[2]。为了减少患者的辐射暴露或提高工业环境中的检测效率并延长设备寿命,通常使用低剂量或低功率扫描协议。然而,这些协议由于光子匮乏和电子噪声的综合作用,会导致图像严重退化。因此,去噪这些受损图像以恢复其原始清晰版本的任务至关重要。这不仅提高了主观视觉质量,还对自动化分割、临床诊断和缺陷检测等下游任务的性能至关重要。
近年来,基于深度学习的方法已成为图像去噪领域的主流范式[3],[4],[5]。通过在大规模数据集上进行端到端训练,这些方法从噪声图像中学习复杂的非线性映射,超越了传统的过滤或基于模型的技术。
尽管现有方法在提取局部特征方面表现出色,但它们对堆叠的局部卷积操作的依赖性限制了它们模拟长距离依赖性的能力[6],[7],[8]。CT图像不仅受到来自光子统计和电子系统的局部随机噪声的扭曲,还受到散射和束硬化等物理效应引起的低频大规模结构伪影的扭曲。这些伪影具有全局相关性,其影响远远超出了标准卷积核的感受野范围。尽管网络加深和膨胀卷积等技术可以扩大感受野,但它们会引入显著的计算开销,并有可能用无关上下文稀释局部信息。值得注意的是,像视觉变换器(ViT)和Mamba这样的模型通过将图像视为序列来处理,从而建立了全局上下文,从而在长距离依赖性建模方面取得了进展[9],[10]。然而,它们往往缺乏对物理现象的可解释性,并忽略了频域中嵌入的内在物理先验,即每个频谱分量本质上包含全局空间信息,噪声、结构伪影和细节通常表现出可分离的频谱特征。
此外,这些方法在模型训练中面临域差异问题。现有的训练策略主要分为两类:基于真实数据和基于合成数据的策略[11],[12],[13]。对于依赖带有噪声-清晰图像对的监督学习的基于真实数据的策略,获取CT数据集的成本很高,且生成的数据内容多样性严重受限。对于基于合成数据的策略,该过程本质上是一种启发式模拟,使用高斯、泊松或两者的线性组合来清洗图像。这种策略无法全面模拟实际成像系统的物理过程,导致在真实噪声上的泛化性能不足。
为了解决这些问题,提出了频率-空间互补注意力网络(FSCANet)。它采用全局到局部的互补融合策略,利用频域高效捕获图像的全局结构和长距离依赖性,同时在空间域中细化局部细节。这种双焦点架构实现了精确的噪声抑制和高保真的细节保留。此外,引入了一个基于真实数据的物理信息噪声模型。该模型将物理噪声生成过程形式化为一个可微分的噪声层。通过利用真实数据指导其参数的自适应学习,噪声模型的训练与FSCANet的训练通过混合数据驱动的协同优化策略相结合,实现了两个组件的联合优化。
主要贡献总结如下:
•提出了一种新的FSCANet,结合了频率域分支(明确分离和使用结构和相位信息以实现精确的全局上下文捕获和有效的噪声识别)和专注于细粒度细节恢复的空间域分支。
•构建了一个基于真实数据的物理信息噪声模型,将噪声生成过程形式化为一个物理信息可微分层,并将物理先验与基于真实数据的驱动优化相结合,生成具有强物理可解释性的多样化合成噪声。
•设计了一种混合数据驱动的协同优化策略,通过基于真实数据的隐式域对抗学习过程实现噪声模型和FSCANet去噪网络的联合优化,形成了一个动态反馈循环,既促使噪声模型生成更真实的噪声,又推动FSCANet在自适应噪声分布上进行训练,从而提高鲁棒性。
章节片段
传统去噪方法
传统的CT图像去噪技术分为三种主要范式:空间域过滤、变换域过滤和基于模型的迭代重建。
空间域过滤方法直接在图像空间上操作,利用自相似性或局部梯度等属性来平滑噪声。例如,非局部均值(NLM)通过计算图像中相似块的加权平均值来抑制噪声,比
提出的方法
本节详细介绍了提出的图像去噪框架FSCANet。第3.1节概述了整个网络架构,第3.2节详细阐述了核心组件——频率-空间互补注意力(FSCA)模块。最后,第3.3节描述了基于真实数据的物理信息噪声模型和协同优化训练策略。
数据集
训练和评估数据集来自公开可用的DeepLesion数据集。为了生成用于锚定监督分支的成对训练数据,通过处理1,000张无伪影的CT图像和90个不同的伪影掩码,构建了21,000对图像对,遵循[37]的方法。此外,为了促进混合数据驱动的协同优化策略,还使用了额外的10,000张未配对的清晰CT图像。
结论
所提出的FSCANet是一种新的深度学习架构,用于CT图像去噪,解决了全局信息的长距离依赖性建模不足以及依赖启发式合成噪声导致的域差异问题。
FSCANet采用全局到局部的互补融合策略,结合频率域分支捕获全局上下文和空间域分支细化局部细节。频率域分支引入了物理
CRediT作者贡献声明
Xing Wu:撰写 – 审稿与编辑,撰写 – 原稿,资金获取,概念化。Yimin Zhu:撰写 – 原稿,可视化,软件,方法论,形式分析。Shuo Duan:撰写 – 原稿,软件。Xinyuan Zhang:撰写 – 审稿与编辑,撰写 – 原稿,软件。Xing Wei:撰写 – 审稿与编辑,软件,概念化。Bo Huang:撰写 – 审稿与编辑,验证,监督。Quan Qian:撰写 – 审稿与编辑,
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了中国国家重点研发计划(2022YFB3707800)、国家自然科学基金(编号62172267)、国家自然科学基金重点计划(授权号61936001)以及上海大学硅酸盐文物保护重点实验室项目(教育部编号SCRC2023ZZ02ZD)的支持。