基于规则的半自动化方法，用于在钆增强后的二维T1加权脑图像中分割黑洞多发性硬化病变区域

《European Radiology》：Rule-based semi-automated method to segment black hole multiple sclerosis lesions on post-gadolinium 2D T1-weighted brain images

【字体：大中小】 时间：2026年05月04日 来源：European Radiology 4.7

编辑推荐：

　　摘要目标：开发一种半自动化方法，用于在多发性硬化症（MS）的钆增强后2D T1加权图像（GdT1）上分割“黑洞”病变，该方法遵循放射学强度规则，并进行多中心验证。材料与方法：使用了REFLEXION研究（NCT00813709）中的多中心自旋回波GdT1图像及

　　摘要
目标：开发一种半自动化方法，用于在多发性硬化症（MS）的钆增强后2D T1加权图像（GdT1）上分割“黑洞”病变，该方法遵循放射学强度规则，并进行多中心验证。

材料与方法：
使用了REFLEXION研究（NCT00813709）中的多中心自旋回波GdT1图像及其伴随的质子密度（PD）/T2加权图像，以及手动绘制的T2病变掩模，这些数据来自疑似/早期MS患者。该方法首先分割皮层灰质（GM），以确定一个T1加权强度阈值，然后将该阈值应用于共注册的T2病变掩模中，以分割出“黑洞”病变体素。该方法在训练集（N=40例，57.5%为女性，平均年龄31.4±8.7岁（标准差）上进行了优化；274例患者构成了测试集（61.3%为女性，平均年龄31.8±8.4岁）。性能通过Dice相似系数（DSC）和类内相关系数（ICC）来量化，以评估与手动分割结果的绝对一致性。同时计算了病变的敏感性和特异性。

结果：
优化后的方法包括：
(1) 选择至少包含0.8体积的灰质（GM）作为候选区域，并使用MNI皮层进行掩膜处理；
(2) 基于归一化互信息的线性配准技术，将T2图像与GdT1图像进行配准，使用三线性插值方法插值T2病变掩模，并设置0.6的阈值；
(3) 使用灰质掩模内的平均强度作为上限阈值。优化后的方法具有可接受的空间精度（DSC：0.39±0.26）和良好的体积精度（ICC：0.84，95%置信区间[0.72, 0.90]）。病变的敏感性为0.91±0.19，特异性为0.62±0.22。

结论：
所提出的半自动化方法在钆增强后T1加权图像上分割“黑洞”病变的表现令人满意。作为一种辅助工具，该方法不建议完全脱离人工干预单独使用。

关键点：
问题：T1低信号的“黑洞”病变反映了多发性硬化症的疾病严重程度，但由于缺乏可靠的分析方法，这些病变并未被常规量化。
发现：开发并优化了一种基于规则的半自动化方法用于GdT1“黑洞”病变的分割，随后在大型未见过的数据集上进行了多中心验证。
临床意义：该方法为多发性硬化症疾病严重程度的放射学评估提供了关于GdT1“黑洞”病变的定量信息，尤其是在手动去除假阳性结果后。这有助于更准确地描述个别患者情况，并加深对疾病的理解。

图形摘要：
该图像的替代文本可能是使用人工智能生成的。半自动和真实值黑洞（BH）分割之间的空间重叠是通过Dice相似系数（DSC）[25]来计算的，在特殊情况下，当真实值和半自动分割都不包含BH体素时，DSC被设置为1（完美重叠）。对于每个步骤，选择在整个训练集中平均DSC最高的变体作为最优方案。在我们的数据集中，手动勾画在PD加权图像和GdT1加权图像上的差异导致一些真实值BH病变分割的体素落在了PD/T2病变掩模之外。因为该方法使用PD/T2病变掩模作为检测BH的参考区域，所以真实值的BH被手动PD/T2病变掩模所遮挡（使用三线性插值进行配准，没有设置阈值）。为了评估其影响，我们还评估了不遮挡真实值时的方法性能。

**步骤1. 皮质选择**
测试了三种皮质选择方法，每种方法都基于预处理后的GdT1加权图像的FSL-SIENAX分割，并使用GdT1加权脑掩模（见补充材料）。变体1和2旨在处理有限的白质（WM）-灰质（GM）对比度，而变体3是专门针对GM的。在变体1和2中，FSL-SIENAX的输出被MNI标准空间皮质掩模所遮挡（补充材料）。为了将MNI皮质掩模转换到受试者空间，使用FSL-FLIRT [19]将GdT1加权图像配准到MNI标准空间（分辨率=1×1×1 mm3），并使用最近邻插值对MNI空间掩模进行逆变换。

**步骤2. T2病变掩模与GdT1空间的配准**
为了将PD/T2病变掩模配准到GdT1加权空间，优化了成本函数和插值方法。

**步骤3. 计算BH强度阈值**
用于确定PD/T2病变掩模中哪些体素是候选BH病变体素的强度阈值的计算方法进行了调整，以皮质平均值和中值为起点，并将每个值乘以一个在0.9到1.1之间变化的缩放因子，步长为0.05。

**最终测试**
将优化后的方法应用于测试集。使用DSC评估与真实值分割的空间重叠。此外，还使用平均对称表面距离（ASSD）和Hausdorff距离（全距（HD）、第99百分位数（HD99）和第95百分位数（HD95）来评估分割表面之间的距离，这些距离是使用MedPy和SciPy库中的Python程序实现的，并应用于测试集中每个案例的真实阳性病变的完整3D分割。对于整个测试集的DSC以及测试集中同时具有真实值分割中的BH病变和半自动方法确定的BH病变的子集案例，报告了平均值和标准差。对于DSC，还计算了平均值的95%置信区间（CI）。对于真实值BH体积的每个五分位数，计算了平均值、标准差和中位数DSC，并以图形方式展示了分布。此外，还计算了未被PD/T2病变掩模遮挡的真实值分割的DSC。通过类内相关系数（ICC）评估了与真实值的体积一致性。

**按病变类型评估性能**
通过将每个T2病变分类为BH（如果根据我们的方法它包含了一簇BH体素）或非BH病变来评估性能。与真实值相比，我们计算了BH敏感性=真阳性病变数量/(真阳性病变数量+假阴性病变数量)，以及BH特异性=真阴性病变数量/(真阴性病变数量+假阳性病变数量)，这两个指标都是针对整个测试集以及具有0–5、6–10、11–20或>20个T2病变的子组。

**扩展残疾状态量表（EDSS）分数与真实值BH病变体积和优化方法BH病变体积的相关性**
使用Spearman等级相关系数评估了EDSS分数与真实值BH病变体积和优化方法BH病变体积的相关性。

**结果**
补充表3提供了质量控制（QC）的详细信息。最初包括的323名患者（来自64个站点）中有3名因手动BH分割文件的错误或缺失而被排除，剩下320名患者。其中248名患者在通过lightbox图像QC后被接受。这剩下72个案例需要使用3D正交视图QC进行检查。在这72个案例中，有4个因严重噪声而被排除，而68个案例通过了第二轮QC（补充表3）。这样共有248+68=316个案例通过了QC。在这316个案例中，有40个案例（来自35个站点）被选为训练集。在剩余的276个案例中，最终优化方法在两个案例中产生了配准错误，这些案例被排除，最终得到测试集N=274个案例（加上训练集的40个案例，总共314个案例）。表1列出了训练集和测试集中包含的患者的人口统计信息。

**优化过程**
表2列出了优化的结果，显示了每个步骤的最佳DSC结果；补充表4提供了扩展结果。补充表5提供了在不遮挡真实值BH分割的情况下获得的优化结果。

**总结**
最佳结果是通过以下步骤获得的：
- **步骤1. 皮质选择**：使用MNI皮质掩模遮挡的PVE-WM和PVE-GM之和（变体1），阈值较低为0.8。
- **步骤2.1. 成本函数**：标准化互信息。
- **步骤2.2. T2病变掩模的插值**：使用三线性插值，阈值较低为0.6。
- **步骤3. 计算BH强度阈值**：使用平均值，乘数因子为1.0。

**图2**显示了分割的示例。优化方法在测试集上的平均DSC为0.394±0.257，95%置信区间[0.363, 0.425]。不使用PD/T2病变掩模遮挡真实值得到的平均DSC为0.365±0.246，95%置信区间[0.336, 0.394]。图3展示了总真实值BH体积每个五分位数的DSC：平均值（±SD）和中位数DSC随着总BH体积的增加而稳步增加，从最低五分位数的0.218±0.387和0.0增加到最高五分位数的0.582±0.116和0.576。与真实值体积的绝对一致性ICC为0.84，95%置信区间[0.72, 0.90]。图4显示了一个散点图。在同时具有金标准和半自动分割中BH病变的222名患者子集上计算了距离指标；平均值和标准差分别为：ASSD为0.87±0.87 mm；HD为6.04±4.42 mm；HD99为5.17±3.75 mm；HD95为3.71±2.91 mm。

**按病变类型评估**
平均BH敏感性为0.91±0.19（在N=227名具有BH的患者中确定）；平均特异性为0.62±0.22（N=274名患者）。图5显示了具有0–5、6–10、11–20或>20个T2病变的测试集子组中的敏感性和特异性。

**与临床残疾的相关性**
Spearman等级相关系数显示，真实值BH体积的EDSS分数与优化方法的BH体积的相关性分别为0.182（p=0.003）和0.183（p=0.003）。这个可能违反直觉的优化结果反映了在许多2D T1加权图像中白质（WM）-灰质（GM）组织对比度的局限性，这导致了GM分割的不准确性。通过克服这一障碍，该优化方法产生了一种广泛适用的黑质（BH）分割方法，在来自60个地点的274个案例中，该方法在空间和体积一致性方面都表现出了可接受的性能。尽管如此，在多中心背景下获得的DSC（Discrimination Score）低于之前发表的其他BH分割方法与手动分割直接比较的结果。然而，那些研究仅分析了来自较小群体的单中心数据（补充表1）[9,10,11,12]。几个因素可能导致这种差异，例如由于使用多种扫描仪而不是单一扫描仪而导致的数据集异质性。我们的研究与其他工作之间的病变大小分布也可能不同，特别是因为我们的样本中的患者是在多发性硬化症（MS）首次发作时被纳入试验的。因此，正如预期的那样，与病程较长的MS患者相比，他们的BH病变体积非常小。最后，我们方法中采用的阈值方法存在固有的限制。单一的全局阈值可能无法在整个3D图像体积上提供最佳结果。可以想象，一个解剖学上变化的阈值可能会更准确。尽管我们通过最大化平均DSC来优化了方法的参数，该方法对假阳性和假阴性体素都进行了惩罚，但由此产生的单一全局阈值可能过于宽松。在病变水平上的高敏感性和低特异性与过于宽松的阈值是一致的，这是宽松阈值方法的已知特征。为了更好地在多中心背景下解释我们的DSC值，我们还将我们的方法与多中心T2病变分割性能进行了比较，后者在参考文献[31]中回顾的多种方法中的平均DSC范围为0.26至0.44，与我们的平均DSC 0.394相当。尽管我们的方法出现了一些过度分割的情况，但与真实值的绝对体积一致性仍然很好（ICC = 0.84）。在训练集中，与真实值的DSC更高（平均DSC = 0.560），与之前描述的单中心BH分割方法相当（10-40名受试者的平均DSC范围为0.53-0.73 [9,10,11,12]（补充表1）。训练集包含了较大的病变体积，以确保方法的广泛应用，这导致在剩余的测试集中性能略有下降，因为这些早期MS患者的大多数BH病变体积较小。在测试集中，DSC对于小BH病变体积也是最低的（图3）。未来的工作应该进一步针对低BH体积的案例进行优化，尽管较小的病变体积通常由于对小错误的相对严格惩罚而导致较低的重叠度，正如在MS和其他地方的病变分割中所报告的[14, 32,33,34,35]。需要强调的是，由于这种效应，给定数据集中获得的DSC具体值不仅取决于分割的质量，还取决于所研究对象的大小（以体素表示）。这些对象因研究而异，仅出于这个原因，就很难在不同研究之间比较DSC值。本研究仅包括了疾病早期阶段的患者，因此他们的BH病变负荷非常低，与典型的MS患者相比。此外，在小对象的情况下，DSC对小的分割误差非常敏感。在优化分割方法的背景下，这种敏感性是DSC的一个优点而不是缺点。由于优化的目标是尽量减少这些小错误，DSC对这些错误的严重惩罚是一个有用的属性。因此，这种敏感性使得DSC和类似基于重叠的度量非常适合评估病变分割。为了提供更全面的评估，我们还报告了基于分割之间距离的指标。我们特别选择仅计算真阳性病变的距离指标，以避免那些距离指标完全由假阴性或假阳性病变与另一种分割中最接近的病变之间的距离决定，这将产生一个与分割性能无关的任意数字。ASSD（Average Segmentation Distance）显示平均距离小于平面体素大小，表明我们的半自动化分割具有合理的准确性。其次，我们报告了三种Hausdorff距离的变体：对于完整的HD（Hausdorff Distance），平均值为6.04毫米，患者之间的变异性相当大（标准差4.43毫米），这是可以理解的，因为HD是由发生的最大单一距离决定的。第99和第95百分位的Hausdorff距离HD99和HD95有助于消除这些极端值，在我们的研究中分别得到了5.17毫米和3.71毫米的平均值。应该注意的是，有许多病例的总体BH病变体积很小：在距离分析的222个案例中，有19个案例的总体真实BH体积小于20个体素，95个案例的总体真实BH体积小于100个体素。这意味着必须谨慎解释百分位数距离指标。距离度量可以为大型结构提供重要的额外信息，特别是在分割误差相对较小但与真实分割相比延伸较远的情况下。然而，这里的附加值是有限的，因为BH病变很小，并且排除了T2病变之外的体素。为了最大化方法的泛化能力，我们在训练集中包含了35个中心，从而避免了针对某一特定扫描仪或采集协议的优化。尽管大多数中心在训练集中只代表了一次扫描，这可能会使优化产生偏差，但该方法具有鲁棒性（补充表4）：参数的微小变化导致了性能的微小损失。这里使用的2D T1加权图像的采集参数位于预定义的典型范围内，但如果采集参数偏离，可能需要重新优化。这限制了该方法在其当前形式下的临床适用性。更一般地说，由于我们在具有预定义采集标准的试验数据上优化了我们的方法，其在实际临床数据中的性能可能会较差。我们优先考虑了方法的泛化能力，但针对扫描仪和采集的重新优化可以进一步提高性能，例如，在WM-GM对比度良好的图像中，重新优化可能会产生一个纯基于GM的BH强度阈值，如我们的变体3所示。深度学习方法越来越成为图像分割问题的标准方法，在未来的工作中，我们也打算使用这些技术来解决BH MS病变分割的问题。将迁移学习应用于调整更通用的深度学习分割模型到BH MS病变分割问题，可能会克服具有BH病变体素级标签的数据集稀缺的限制。潜在地，使用基础模型可以为这种重新定位到BH病变分割问题提供一个更加通用的起点，而任务合成可能会利用深度学习在子任务及其组合上的优势，以实现优化的性能。在当前方法中，我们选择不结合深度学习方法，以保持接近放射学定义，最小化预处理，提供可解释和可解释的结果，避免昂贵的计算资源的必要性，并最小化方法的生态足迹。尽管如此，我们打算探索深度学习在这个特定问题上的可能性；当前方法可以用来为未来的深度学习方法提供训练数据，这些方法有望变得更加能够适应不同扫描仪和采集协议之间的差异。方法的第一个重要限制是，它是在注射钆剂后的图像上分割BH病变，而不是在对比度无关的T1加权图像上。做出这个选择是因为我们只能访问在注射钆剂后制作的BH病变的手动分割。尽管BH病变最初是在对比度无关的T1加权图像上定义的，但在GdT1加权图像上定义它们并不是前所未有的[22]；从对比度无关和GdT1加权图像获得的BH病变体积高度相关[36]；一些研究者明确选择使用GdT1加权图像进行BH量化，以排除活动性病变并专注于持续性BH病变[13]。有趣的是，在补充表1中引用的7篇先前的方法论文中有4篇也使用了注射钆剂后的图像，而不是对比度无关的T1加权图像[8, 10, 12, 13]。在我们的方法中，使用GdT1图像可能会以几种方式对结果产生负面影响。尽管采用了大脑和增强对比度的病变掩蔽，一些高强度区域，如静脉，仍可能影响图像分析，包括配准和组织强度分布拟合。此外，局部存在少量对比剂，无论是在病变中、静脉中，还是在非病变组织中，都可能导致强度变化，从而妨碍图像分析，改变WM-GM组织对比度，或掩盖BH病变[22]。由于对比剂的微妙泄漏，与WM等强度的BH病变将被人类专家评分者和我们的方法遗漏。与手动分割的验证显示了可接受的性能，表明该方法在一定程度上可以应对技术限制。尽管如此，由于依赖于注射钆剂后的图像，当前提出的方法的临床适用性受到了限制，特别是考虑到最近限制在MS中使用基于钆剂的MR对比剂的努力。在能够可靠地将其应用于对比度无关的T1加权图像之前，该方法需要重新优化和验证。不幸的是，由于缺乏可用的手动分割数据，我们无法在当前研究中包括这一点。当前验证研究的另一个限制是没有进行完全独立的验证，因为没有额外的包含专家手动BH病变分割的数据集。这种缺乏外部数据的独立验证限制了该方法更广泛的应用。该方法的另一个限制是建议在使用时需要人工干预。特别是在病变级别检测很重要的临床环境中，该方法产生的假阳性太多，无法单独使用。相反，这种方法可以作为辅助工具，加快放射科医生识别BH的过程。这样，半自动分割的BH病变仍然可以由评分者检查，并且可以移除假阳性。虽然我们的方法符合2D T1加权图像上BH病变的定义，但最近的MS脑成像建议倾向于使用3D采集[37]。未来的工作应该包括3D T1加权采集，以适应它们通常更强的T1增强及其对BH病变分类的影响[12, 38]。在不同的图像上制作的手动T2和BH病变分割之间的小不一致性有时会导致BH部分超出相应T2病变的共配准掩模，这违反了BH的定义，并被视为手动分割的（轻微）不准确性：为了确保一致性，真实BH分割被它们各自的共配准T2病变掩模所掩盖。这种影响很小：不掩盖真实值时，测试集中的DSC为0.365 ± 0.246，而掩盖后的DSC为0.394 ± 0.257。未掩盖的真实BH分割在所有步骤中也产生了相同的优化结果，除了皮层选择（补充表5）。对于皮层选择，极端的1.0阈值给出了略高的平均DSC（0.500579对比0.500441），但由于差异很小，而0.9的中间阈值给出的平均DSC比0.8或1.0都要差，我们认为0.8阈值比极端值1.0更稳定。我们半自动化方法依赖于现有的T2病变掩模是一个限制，完全自动化的方法可能更可取。然而，只有两种已发布的完全自动化方法能够处理传统数据中通常可用的图像类型（2D T1加权、PD加权和T2加权）[8, 14]，它们的性能尚不清楚：一种没有报告与手动分割的重叠[8]，而另一种仅在图中可视化了10名患者的DSC[14]。另外两种完全自动化的方法[9, 11]需要不同类型的图像，并且只与手动分割结果进行了一次重叠度测量。在40名受试者的单中心交叉验证中，这两种方法的DSC（Dice Similarity Score）为0.53±0.14[11]，这与我们在40名患者组成的多中心训练集中优化后的方法性能相当（DSC为0.56±0.17）（见补充表1）。我们认为，我们的方法具有公开可用性、能够处理传统的图像类型，并且在多中心数据中表现良好，这些优点足以弥补依赖外部T2病变分割的局限性。尽管自动工具可能会引入与研究地点相关的变异[39]，但这里使用的手动T2病变分割工作量较大，未来可以尝试用自动化方法[39, 40]来替代，特别是在使用FLAIR图像（目前临床推荐的图像类型）[37]进行T2病变分割时。此类研究应评估由于检测到的MS（多发性硬化）病变数量可能增加而导致的假阳性脑白质（BH）病变的风险，并探讨空间分辨率更高的FLAIR病变掩膜是否能够提供更准确的脑白质病变分割结果。虽然所提出的方法在算法上并没有重大创新，但其在大规模、异构多中心数据集上与真实手动分割结果的对比验证，为该领域提供了重要的实证贡献，增强了人们对该方法性能的信心。总之，我们这种公开可用的半自动脑白质病变分割方法在多中心数据中表现良好，当有T2病变分割结果时，它可以帮助获取关于脑白质病变的定量信息。我们建议将这种方法作为辅助放射科医生的工具来使用，但不建议完全依赖它而无需人工干预。

热点排行