通用预训练方法用于泛化性的不完整视图CT重建

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Universal Pre-Training for Generalizable Incomplete-View CT Reconstruction

【字体：大中小】 时间：2026年03月18日 来源：Pattern Recognition 7.6

编辑推荐：

　　本文提出基于预训练的Prompted Contextual Transformer（ProCT）模型，通过整合多 incomplete-view CT 设置的互补知识，解决传统单设置模型泛化性差的问题，有效抑制复杂伪影并提升跨域重构性能。实验表明ProCT在稀疏视图和有限角度CT场景中均优于现有方法，且无需重新训练即可适应新数据集和设置。

马成龙|李子龙|何俊俊|张俊平|张毅|单洪明

复旦大学脑启发智能科学技术研究院，中国上海，200433

摘要

不完全视图计算机断层扫描（CT），包括稀疏视图和有限角度CT，旨在减少辐射暴露、缩短数据采集时间，并实现更灵活的扫描协议。然而，由于投影视图数量显著减少，这会在重建的CT图像中引入复杂的伪影，最终影响诊断准确性。现有的CT重建方法通常单独处理每种不完全视图CT情况，即“一设置一模型”，忽略了多种设置之间的协同效应，导致对新数据集和设置的泛化能力有限。在本文中，我们引入了“通用预训练”方法，利用多设置数据来增强不完全视图CT重建。为了在预训练过程中有效整合不同CT设置之间的互补知识，我们提出了一个基于提示的上下文变换器（ProCT），该模型包含两项关键技术。首先，我们设计了视图感知提示，将视图分布知识编码到ProCT中，以便在单一模型中处理多种设置。其次，我们提出了伪影感知的上下文学习方法，从上下文图像对中提取伪影模式知识，从而有助于去除复杂的、之前未见过的伪影。在两个公开的临床CT数据集上的广泛实验结果表明，所提出的ProCT（i）在各种不完全视图CT设置中均优于现有方法；（ii）对未见过的数据集具有很强的泛化能力；（iii）在少量调整的情况下就能有效适应领域外设置。此外，ProCT在整合正弦图数据时性能进一步提升。我们的工作展示了通用预训练在医学成像领域的潜力，并为鲁棒且泛化能力强的不完全视图CT重建提供了一种新的范式。源代码可在以下链接公开获取：https://github.com/Masaaki-75/proct

引言

X射线计算机断层扫描（CT）是医学成像领域的基石[1]，能够无创地显示人体内部结构。

尽管效果显著，但传统CT需要来自受检者不同视角的完整投影数据集（即原始数据或正弦图）来重建横截面图像，这导致扫描时间延长和辐射剂量增加[2]、[3]、[4]。此外，患者的身体限制往往使得全视图扫描不切实际[5]、[6]。不完全视图CT，包括稀疏视图（SVCT）和有限角度（LACT）变体，通过大幅减少投影视图数量来应对这些挑战[4]、[7]、[8]、[9]。然而，这种减少会使用传统的滤波反投影（FBP）算法在重建图像中产生病态问题和严重的伪影[10]。

如图1所示，典型的SVCT设置¹在完整的角度范围内采样稀疏的投影视图，而LACT设置则在受限的角度范围内采集投影。这些设置提供了互补的信息：SVCT捕捉全局结构，但会出现全局条纹伪影和振荡模式；而LACT保留了局部细节，但由于覆盖不完整，在缺失角度区域会导致结构沿方向模糊和拉长。这种互补性适用于任何两种具有不同投影视图的设置，意味着一种设置中缺失的信息可以通过另一种设置来补偿。

然而，现有方法通常是单独处理每种设置，并为每种设置训练单独的模型。这种“一模型一设置”的方式虽然简单，但忽略了设置之间的协同效应，常常导致对特定视图的过拟合[11]，在实际应用中对变化的鲁棒性和对新设置及数据集的迁移能力不足。这个问题在以正弦图作为输入的模型中更为明显，因为正弦图领域中的微小不一致性会在重建图像中产生严重的二次伪影[12]、[13]，从而影响泛化能力。

动机。我们假设利用多设置之间的协同效应可以提高重建的鲁棒性和迁移能力。为此，我们提出了通用预训练方法，以结合不同不完全视图设置之间的互补知识。通过利用预训练期间学习到的多设置协同效应，CT重建模型可以对新的不完全视图CT任务具有更强的迁移能力，并对设置变化具有更强的鲁棒性[14]、[15]，从实际角度来看，可以显著减少针对特定设置的微调需求和部署新模型的负担[16]。然而，在不同设置上进行训练并非易事，因为这些设置之间存在相互干扰[17]；它们互补的特性会引入冲突的梯度。

为了解决这一挑战并利用通用预训练的优势，我们提出了Prompted Contextual Transformer（ProCT），该模型旨在通过两个关键且互补的方面来捕捉协同效应：投影视图分布的多样性和伪影模式的复杂性。首先，我们提出了视图感知提示技术，将设置区分信息注入网络，使ProCT具备适应多种不完全视图设置的能力。其次，我们提出了伪影感知的上下文学习方法，利用不完全视图和完整视图CT图像对来捕捉复杂的伪影模式。通过这种方式，ProCT有效地利用了多设置之间的协同效应，实现了鲁棒且可迁移的不完全视图CT重建，并优于现有方法。这些特性使ProCT成为下游不完全视图CT任务的可重用基础，且只需最少的调整。我们还展示了在投影数据可用时，ProCT的性能可以进一步提升。

贡献(i)我们提出了通用预训练方法，以整合不同不完全视图CT设置之间的互补知识，从而增强CT重建模型在各种任务中的性能。(ii)我们提出了基于提示的上下文变换器（ProCT），该方法通过预训练有效捕捉了设置间的协同效应。ProCT利用视图感知提示来灵活处理多种不完全视图CT设置，并通过伪影感知的上下文学习来更好地理解每种设置中的伪影。(iii)广泛的实验表明，ProCT在不同CT设置和数据集上的鲁棒性和迁移能力优于现有方法，减少了针对每个设置进行重新训练的需求。

部分内容摘要

通用不完全视图CT重建

现有的基于学习的不完全视图CT重建方法主要包括图像域方法和双域方法。图像域方法[17]、[18]、[19]、[20]以不完全视图CT图像为输入，并将重建视为图像后处理任务。另一方面，双域方法同时利用不完全视图正弦图和图像，通常能够实现比简单图像域方法更优秀的不完全视图CT重建效果。一些方法[21]、[22]

问题表述与动机

典型的CT扫描会在物体在扫描仪内旋转时产生一系列X射线投影（即正弦图）。全视图正弦图

S \in R^{N_{full} \times N_{det}} 表示X射线通过物体在不同视角的衰减情况，其中

N_{full}

表示全视图的数量，N_det表示探测器的数量。通过反投影算法

B

（例如，FBP），S可以用来重建CT图像

Y = B (S)

，从而可视化物体的内部结构。如图1所示

实验

我们通过以下方式验证了模型的有效性：（1）与其他单设置模型进行领域内CT重建性能比较；（2）与未见过的CT数据集和设置进行领域外迁移能力比较；（3）对所提出的方法（包括预训练策略、视图提示、上下文学习等）进行详细消融研究。

讨论与结论

在本文中，我们探索了一种称为通用预训练的新预训练范式，并提出了ProCT模型，通过这种预训练来捕捉不同不完全视图CT设置中的互补知识，实现了强大、鲁棒且可迁移的不完全视图CT重建。尽管单设置模型在固定容量的情况下在其自身领域内可能表现更好，但我们的通用预训练更注重鲁棒性、迁移能力和

CRediT作者贡献声明

马成龙：撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、方法论、调查、数据管理、概念化。李子龙：撰写 – 审稿与编辑、调查、数据管理。何俊俊：撰写 – 审稿与编辑、资源协调、概念化。张俊平：撰写 – 审稿与编辑、资源协调、资金获取、概念化。张毅：撰写 – 审稿与编辑、监督、资源协调、概念化。单洪明：撰写 –

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本研究部分得到了国家自然科学基金（项目编号62471148和62176059）以及上海脑科学与脑启发技术中心的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号