用于自动识别年龄相关性黄斑变性萎缩的深度学习模型

《Graefe's Archive for Clinical and Experimental Ophthalmology》：A deep learning model for automated identification of age-related macular degeneration atrophy

【字体：大中小】 时间：2026年05月10日 来源：Graefe's Archive for Clinical and Experimental Ophthalmology 2.4

编辑推荐：

　　摘要：年龄相关性黄斑变性（AMD）是老年人视力障碍和失明的主要原因之一，预计到2040年全球将有2.88亿人受到该疾病的影响。晚期AMD，包括完全性视网膜色素上皮和外层视网膜萎缩（cRORA），由于其手动注释过程劳动强度高、成本昂贵且结果变化较大，给诊断和监测带来了重大挑战。自动

　　摘要：年龄相关性黄斑变性（AMD）是老年人视力障碍和失明的主要原因之一，预计到2040年全球将有2.88亿人受到该疾病的影响。晚期AMD，包括完全性视网膜色素上皮和外层视网膜萎缩（cRORA），由于其手动注释过程劳动强度高、成本昂贵且结果变化较大，给诊断和监测带来了重大挑战。自动化cRORA诊断有望提高注释的一致性并减轻临床负担，例如有助于评估最近获得FDA批准、能够延缓疾病进展的治疗方法。在这项研究中，我们整理了两个大型独立队列，共包含近5,000份3D OCT扫描图像，并对这些图像进行了cRORA存在的标记，随后开发了一个深度学习模型用于自动检测cRORA。该模型在内部验证中取得了先进的性能，ROC AUC为0.97，并在外部评估中展示了强大的迁移能力（零样本学习），ROC AUC为0.88。值得注意的是，该模型对非新生血管性（non-nv）和新生血管性（nv）AMD亚组都表现出高准确性（分别为ROC AUC 0.98和0.93），包括伴有渗出的复杂病例。这种模型和数据集的组合可以通过提供可扩展、标准化的评估方法，促进非nv和nv AMD患者亚组的临床研究和试验分析。

引言：年龄相关性黄斑变性（AMD）是全球不可逆视力丧失的主要原因，晚期AMD的特点是由于视网膜色素上皮和光感受器的退化导致的视网膜萎缩，这种情况既发生在非新生血管性（non-nv）[1, 2] AMD中，也发生在新生血管性（nv）[3, 4] AMD中。这些萎缩性变化是一个具有临床意义的终点指标，与严重的视力障碍相关[2, 5]。光谱域光学相干断层扫描（OCT）是评估AMD相关萎缩的参考标准，也是“萎缩分类会议”（Classification of Atrophy Meetings，CAM）小组制定的基于OCT的定义的基础[2, 6]。这些共识定义为在临床和研究环境中识别AMD相关萎缩变化提供了标准化标准。完全性视网膜色素上皮和外层视网膜萎缩（cRORA；图1）代表了AMD相关萎缩的晚期阶段[5]，通常在已经出现这种情况时才会被首次记录到。在体积光学相干断层扫描（OCT）图像中识别cRORA需要花费大量时间，因为需要审查大量的B扫描图像，特别是在存在新生血管变化的情况下，这些变化可能会掩盖萎缩特征。因此，手动注释需要专门的知识，劳动强度大，并且存在临床医生之间的差异性，从而导致临床实践和试验结果的不一致性[7]。

图1：该图像的替代文本可能是使用AI生成的。

2D OCT B扫描示例展示了非新生血管性（non-nv）AMD和新生血管性（nv）AMD患者的cRORA。上图是一个非新生血管性AMD患者在两次不同访问中获得的OCT体积的中心切片（顶部），下图是一个新生血管性AMD患者的OCT体积（底部），分别显示了有无cRORA的情况。（A）初次访问显示出多个玻璃膜疣（白色箭头）和视网膜色素上皮脱离（PED）（红色箭头）。（B）几年后的随访扫描显示两个cRORA区域（白色框），其特征是向脉络膜的高透射、视网膜色素上皮损伤大于250微米、光感受器退化（包括椭圆形区和外限制膜的破坏）、外核层变薄以及外丛状层和内核层的下陷。（C）初次访问显示黄斑区域有几个玻璃膜疣和视网膜下液体（红色箭头），表明可能存在新生血管性AMD（MNV）。（D）几年后的随访扫描显示在抗VEGF注射后液体消失，在之前发现MNV的相同区域观察到了cRORA。

基于AI的OCT体积自动注释可以减少临床负担并提高标注的一致性，从而能够在跨机构范围内更高效地进行队列构建和纵向监测[8]。这些优势对于在大规模、异构的真实世界数据集中标准化评估AMD相关萎缩尤为重要[7]。之前的AI研究在检测[9]和分割[10,11,12] OCT上的黄斑萎缩方面显示出有希望的性能。然而，许多研究受到数据集规模较小和病例组成有限的限制，通常只关注非新生血管性AMD而排除了新生血管性AMD。例如，Chiang等人仅针对非新生血管性AMD患者进行了训练，虽然在那种情况下表现良好，但在更多样化的外部OCT队列中评估时性能显著下降[9]。这突显了需要开发能够在异质人群中可靠运行的通用和强大模型的必要性。

在这项研究中，我们整理了一个由两个独立数据集组成的庞大多站点队列（在不同大陆收集和注释），包含来自2,500多名患者的近5,000份3D OCT扫描图像。作为对比，我们的队列规模是之前基于3D OCT的AI研究中所包含扫描数量的4到10倍[7]。我们根据cRORA的存在情况对所有图像进行了标注，并用它来开发和评估一个先进的深度学习模型，用于完全自动化的cRORA识别。我们在自己的大型数据集（3,883份体积）上内部验证了模型的适用性和迁移能力，并在第二个数据集（964份体积）上进行了外部验证（零样本学习）。我们还进行了差异性分析，证明了我们训练的模型在非新生血管性AMD和新生血管性AMD中分类cRORA时的稳健性。最终优化的模型版本已向业界开放，可用于后续的临床研究和应用。

结果：为了实现准确的cRORA分类，已经存在几种允许3D OCT分析的深度学习模型[9, 13,14,15]。在本研究中，我们使用了最近开发的SLIViT模型[13]，该模型在各种3D医学成像任务中均取得了先进的性能，包括3D OCT分析。

对于这项研究，我们整理了Hadassah数据集（见“数据集”部分）。简而言之，该数据集包含近4,000份OCT体积，这些体积是从十多年来对老年人群AMD进展进行的纵向研究中随机抽取的。每份OCT体积都由Hadassah阅读中心的三个认证评级员根据cRORA的存在情况进行标记。

我们对数据的一个小子集进行了广泛的超参数调整，以定制和优化模型架构以适应我们的任务（见“模型开发与分析”部分）。然后，我们利用我们的数据集和观察到的最佳超参数配置，训练了这个有潜力的模型来分类cRORA。最终模型版本已在Hadassah数据集的所有OCT体积上进行了训练（并在独立数据集上进行了评估），可通过我们的项目存储库进一步研究（见“数据和代码可用性”部分）。

模型评估：首先，我们旨在评估我们在Hadassah数据集上训练的模型的性能。为此，我们按患者水平将数据集分为训练集（70%）、验证集（15%）和测试集（15%），分别包含2,718份、578份和587份3D OCT体积，这些体积来自1,071名、230名和230名患者。这样可以确保来自同一患者的所有OCT体积（包括双眼和所有可用访问）都被限制在单一数据分割中，从而防止数据泄露和由于相关样本导致的性能膨胀。在这个实验中，我们大致按照SLIViT原始论文中描述的协议训练了模型（详见“方法”部分）。我们测量了接收者操作特征（ROC）曲线下面积（AUC）和平均精度（AP；也称为精确度-召回率AUC）。虽然ROC AUC是二元分类任务的标准指标，但对于不平衡的数据（如我们的情况），AP尤其有价值，因为它捕捉了阳性预测值和敏感性之间的权衡，是实际性能的关键指标。值得注意的是，这个真实世界临床数据集中的体积在特征上有所不同（例如，2D B扫描的数量；见“模型开发与分析”部分）。然而，如表1中所详细说明的，并且在图2最左侧的面板中所展示的，我们优化的模型取得了高性能，ROC AUC为0.97，AP为0.93（详见附表1中的敏感性和特异性）。我们还评估了其他相关基准。第一个是SLIVER-net，这是一种针对OCT生物标志物分类优化的深度学习方法。第二个方法是标准的3D ResNet，通常被认为是可靠的基线方法，不仅在3D OCT[13, 14]中非常流行，在其他体积医学成像模式[16,17,18]中也非常流行。这两种方法的性能都低于我们的专门模型。SLIVER-net的ROC AUC为0.91，AP为0.8，而3D ResNet的ROC AUC为0.72，AP为0.51。尽管不太适合我们（在体积级别标记的）数据集，我们还尝试训练并评估了一个最近开发的基于2D-ResNet的模型[9]。尽管如此，其性能也不如表现最差的方法[见基准测试部分]。

表1：cRORA诊断的性能评估（Hadassah数据集）。

图2：该图像的替代文本可能是使用AI生成的。

cRORA诊断的性能评估（Hadassah数据集）。展示了我们训练模型在内部验证集上的性能，通过ROC AUC（蓝色）和精确度-召回率（PR）AUC（红色）来衡量。每一列显示不同患者亚组的性能。每个面板中的虚线代表个别交叉验证折叠的性能，而粗线代表它们的平均值（也见表1）。虚线表示随机分类器的预期性能（ROC AUC为0.5，PR AUC的正标签患病率为PP）。

此外，如前所述，根据新生血管状态区分不同的AMD亚组并诊断cRORA具有重要的临床意义。因此，我们进行了差异性能分析，使用相同的训练模型评估了在新生血管状态上同质的测试集子集（见图2；表1）。在587份测试体积中，235份处于非新生血管性（non-nv）阶段，187份处于新生血管性（nv）阶段。有趣的是，对这些患者组进行差异分析并没有损害性能。对于非新生血管性AMD患者，我们的模型取得了0.98的ROC AUC和0.96的AP，显著优于第二好的方法SLIVER-net（ROC AUC为0.94，AP为0.81）。对于新生血管性AMD患者，我们的模型在ROC AUC和AP上均取得了0.93，显著优于SLIVER-net（ROC AUC为0.8，AP为0.79）。

为了评估我们模型的应用通用性，接下来我们在一个独立的数据集上探索了其零样本性能，这个数据集在患者、扫描设施以及注释数据的专家认证方面有所不同。为此，我们整理了Houston数据集（见方法部分），包含964份OCT B扫描体积。然后我们在Hadassah数据集的3,883份OCT体积上训练了我们的模型，并在Houston数据集上对其进行了评估（见图3；表2）。在这次外部验证分析中，我们获得了0.88的ROC AUC（置信区间[0.85, 0.91]）和0.75的AP（置信区间[0.69, 0.81）。在对不同的AMD亚组重复差异性能分析时，我们得到了非新生血管性AMD患者的ROC AUC为0.87（置信区间[0.83, 0.91]）和AP为0.74（置信区间[0.67, 0.8），以及新生血管性AMD患者的ROC AUC为0.79（置信区间[0.72, 0.86）和AP为0.83（置信区间[0.75, 0.89）。尽管这些数字最初可能表明性能有所下降，但有几个领域偏移的来源可能导致这种差异，包括临床医生之间的变异性[19]，这将在后面的“临床医生之间的变异性”部分进行讨论。表2 cRORA诊断的可传输性评估（休斯顿数据集）。全尺寸表格图3 这张图像的替代文本可能是使用人工智能生成的。全尺寸图像 cRORA诊断的可传输性评估（休斯顿数据集）。显示了在三个患者亚组（所有患者、非nvAMD患者和nvAMD患者）上进行的零样本评估的性能分数，这些数据来自不同的临床机构（另见表2）。虚线表示随机分类器的预期性能（ROC AUC为0.5，AP的正标签率为...）。箱形图的 whiskers 代表90%的置信区间。为了进行比较，我们还评估了一个最近开发的基于2D ResNet的深度学习模型的可传输性，该模型专门用于cRORA诊断[9]。该模型仅使用切片级别的监督进行训练；因此，虽然其在非nv亚组上的评估反映了领域内的性能，但其应用于整个队列和nvAMD则代表一个零样本设置。对于推理分析，我们使用了该模型的预训练检查点（而不是自己重新训练它）。值得注意的是，这个模型最初训练的数据集和评估数据集的注释都是由具有相同临床认证的评分员（Doheny Image Reading Research Laboratory）完成的。这对我们的模型提出了额外的挑战，因为它减少了2D-ResNet基竞争模型在训练集和测试集之间的潜在临床医生变异性，从而可能理论上带来性能优势。尽管如此，我们的模型在零样本评估中仍然优于这个2D-ResNet基竞争模型（图3；表2）。例如，当我们考虑nvAMD亚组时，它在ROC AUC（0.57；CI [0.48, 0.66]）和AP（0.57；CI [0.47, 0.67]）方面都表现更好。此外，我们还评估了一个SLIVER-net模型，该模型的训练方案与我们的模型相同，也在休斯顿数据集上进行了测试。同样，我们的训练模型在任何AMD亚组中都没有被超越（在两个指标上都是如此），这进一步突显了这个数据集和模型组合的优势。3D ResNet也进行了评估，但其性能不及所有其他方法（ROC AUC为0.64 [0.61, 0.68]，AP为0.39 [0.34, 0.44]）。为了突出Hadassah数据集的显著贡献，我们研究了训练集大小如何影响在外部数据集上的零样本性能（图4）。我们固定了582个体积（Hadassah数据集的15%）用于模型验证，在每个训练周期后使用它们来监控改进情况。然后我们从剩余的3,301个样本（85%）中随机抽取逐渐增加大小的子集，并在每个子集上训练我们的模型。正如预期的那样，随着训练集大小的增加，外部数据集上的性能也得到了提高，这与之前的研究结果一致[20]。例如，在1,087个体积（大约占Hadassah数据集的25%）上进行训练时，我们获得了0.85的ROC AUC（CI [0.83, 0.88）和0.68的AP（CI [0.63, 0.71]）。值得注意的是，大多数基于3D OCT的人工智能研究通常只依赖几十到几百个体积[7]，这仅占Hadassah数据集的25%或更少。尽管性能似乎在这个点左右趋于平稳，但当使用整个Hadassah数据集时，观察到了进一步的显著改进，这强调了其规模的实质性贡献。图4 这张图像的替代文本可能是使用人工智能生成的。全尺寸图像可传输性作为训练集大小的函数。显示了模型在逐渐增加的样本数量上训练并在独立数据集上测试时的整体零样本性能。每个面板中的粗线代表五折交叉验证的平均性能，而细线显示了各个交叉验证折叠的性能。为了评估我们模型进一步性能提升的潜力，我们从休斯顿数据集中随机选择了200个体积，这些体积之前已经由休斯顿的评分员进行了注释，并要求Hadassah的评分员确定是否存在cRORA。为了评估两个评分组之间的一致性水平，我们计算了Fleiss’s \(\kappa\)，发现其值为0.65（CI [0.53, 0.77]），表明一致性中等[21]。这一发现清楚地突出了评分员不一致性作为造成上一节提到的性能下降的一个可能原因，以及其他领域偏移的来源，并表明评分员之间的变异性可能会限制在不改变注释一致性或采集协议的情况下所能实现的性能提升。接下来，为了评估模型的评分员依赖性，我们计算了两个人类评分组与我们的人工智能评分员之间的三方一致性。正如预期的那样，随着第三个评分组的加入，一致性水平略有下降，但下降并不显著（\(\kappa\)=0.6；CI [0.49, 0.7），表明模型与两组评分员都吻合得很好。这一结论还得到了人工智能评分员与每个人类评分组之间的成对一致性水平的支持（\(\kappa\)=0.57；CI [0.42, 0.72] 和 \(\kappa\)=0.56；CI [0.42, 0.68]）。与提供训练数据的人类评分组相比，人工智能评分员的\(\kappa\)并没有更高，相似的值表明人工智能评分员与两个人类评分组之间有一致的水平，这表明我们的人工智能评分员具有很强的泛化潜力。方法数据集 Hadassah数据集一个真实世界的数据集，由体积OCT扫描（SD-OCT Spectralis，海德堡工程公司，海德堡，德国）和相关的电子健康记录（EHR）数据组成，是从Hadassah医疗中心的眼科部门获得的。该数据集是一项关于老年患者中AMD进展的纵向研究的一部分，时间跨度为13年（2009-2022年）。所有纳入这项研究的患者年龄均超过50岁（\(\mu\)=75；\(\sigma\)=9），并被诊断为AMD。为了编制Hadassah数据集，我们随机选择了一部分眼睛，并从每只眼睛的可用扫描轨迹中随机抽取一到三个OCT体积，而不强制要求固定的时间间隔。该研究遵循了赫尔辛基宣言中规定的伦理原则。所有成像和EHR数据在分析之前都经过了严格的去标识化处理。来自Hadassah阅读中心的三个经过OCT认证并经过屏蔽的评分员，他们接受了关于AMD的广泛培训，根据标准化的阅读协议独立评估了所有图像。根据预定义的标准，包括严重的运动伪影、视网膜中心覆盖不足或信号强度不足以可靠评估RPE损失或 hypertransmission，低质量的扫描被排除在进一步的分析和模型开发之外。这些排除是在数据集构建之前的质量控制预处理步骤中应用的，本研究中报告的所有数据集大小指的是经过此过滤后的最终分析准备就绪的队列。由于这种质量控制过滤是在数据集构建前的常规阅读中心预处理过程中进行的，因此没有前瞻性地记录被排除的低质量体积的确切数量。与休斯顿数据集不同，具有其他黄斑并发症（例如，视网膜上皮膜、黄斑孔或血管病理）的眼睛没有被从Hadassah队列中排除，这反映了其纵向的真实世界设计。评分员专注于以黄斑为中心的3 \(m{m}^{2}\) 区域内的发现，并根据CAM定义记录了cRORA的存在。患者亚组被分类为无AMD、非nvAMD和nvAMD[22,23,24,25]（见图1和“分级”部分）。采用了一种系统化的验证方法来确保注释数据的可靠性、一致性和高质量标准（见“分级”部分）。最终数据集包括来自1,531名患者的2,504只眼睛，共计3,883个体积（包括131,929个2D B扫描）。最终数据集中的注释OCT体积在每个体积中的768×512 B扫描数量上有所不同（\(\mu\)=34；\(\sigma\)=11）。扫描覆盖了以黄斑为中心的6×6 \(m{m}^{2}\) 的视网膜区域，代表了大约20度的视野范围。数据集中cRORA的总体频率为32.6%。具体来说，非nvAMD和nvAMD亚组中cRORA的记录频率分别为24.88%和50.36%。关于AMD亚组，无AMD、非nvAMD和nvAMD的频率分别为12.69%、46.55%和40.76%。休斯顿数据集本研究包括了2016年10月至2023年12月在Texas Eye Clinics的Retina Consultants处获得的1,118名连续受试者的OCT体积数据，并筛查了与年龄相关的黄斑变性的证据。每个受试者中只选择了一只眼睛纳入研究。数据集包括海德堡Spectralis（HRA+Optical Coherence Tomography OCT SPECTRALIS；海德堡工程公司，海德堡，德国）6×6 \(m{m}^{2}\) OCT体积（以黄斑为中心，20×20度；49个B扫描，间隔120微米，ART至少为5）。值得注意的是，虽然Hadassah和休斯顿数据集都是使用海德堡Spectralis系统获得的，但在不同队列之间扫描密度和ART设置并不完全相同；休斯顿数据集遵循了一个固定的高密度采集协议（49个B扫描，ART≥5），而Hadassah数据集包含了更广泛的扫描密度和间隔，反映了常规临床实践。数据被传输到Doheny Image Reading Research Laboratory（DIRRL）进行成像分析和注释。图像由一名评分员进行评分，并由一名资深视网膜专家进行审核，符合赫尔辛基宣言的规定。每个体积都针对AMD亚组（无AMD、非nvAMD和nvAMD）以及cRORA的存在进行了评估。包含额外黄斑疾病或图像质量差的案例被排除在分析之外。最终的休斯顿数据集包括964个体积（总共47,236个2D B扫描片）。整个数据集中记录的cRORA频率为24.37%。非nvAMD和nvAMD亚组中记录的cRORA频率分别为25.08%和52.63%。在AMD亚组方面，无AMD、非nvAMD和nvAMD的频率分别为19.09%、69.09%和11.82%。为了确保样本之间的统计独立性，休斯顿数据集中每个受试者只包括一只眼睛，这与原始研究设计和分级工作流程一致。分级 cRORA的注释被认为是任何以下特征重叠的区域：（1）视网膜色素上皮（RPE）损失＞250 μm；（2）hypertransmission＞250 μm；以及（3）存在叠加的光感受器变性[2]。nvAMD亚组使用EHR和OCT生物标志物进行分类，包括活跃和非活跃的nvAMD。活跃的nvAMD的特征包括脉络膜新生血管（CNV），如视网膜下积液、视网膜内囊肿、视网膜下高反射性渗出物（SHREM）、高反射性焦点（HRF）和色素上皮脱离（PED），以及需要临床治疗，如玻璃体内抗VEGF注射[22]。非活跃的nvAMD的特征是以前治疗过的黄斑新生血管（MNV），至少六个月内OCT上没有积液，且不需要进一步注射[23, 24]。验证 cRORA的初步识别是由阅读中心在主要注释过程中完成的。采用了一种系统化的验证流程来确保注释数据的可靠性、一致性和整体质量。为了明确检查评分员之间的注释，每个注释批次完成后，随机选取25%的样本通过两个人类评分员之间的成对评估进行周期性地评估，使用类内相关系数（ICC）。在评分员之间的一致性低于80%的情况下，最终诊断由一名资深视网膜专家进行裁定（不到5%的批次）。模型开发和分析我们使用了来自https://github.com/cozygene/SLIViT的SLIViT模型实现。简而言之，这个模型是视觉Transformer（ViT）架构的泛化[26]。与原始的ViT不同，SLIViT不是将单个图像分成片段并通过Transformer编码器进行整合[27]，而是使用一个强大的预训练特征图提取器来嵌入每个体积切片，并将它们的相应嵌入视为“片段”，以便在下游的Transformer编码器中进行全面整合。与原始的SLIViT论文[13]一样，我们将位置嵌入初始化为原始切片的数量，并在特征图整合器中使用了GeLu作为激活函数[28]。可配置的批量大小默认设置为四个。有关详细的训练规范，请参阅“模型开发和分析”部分。模型超参数调整与原始的SLIViT研究相比，该研究进行了广泛的超参数调整实验，评估了超过150个模型配置，以增强我们模型的性能。实验遵循了以下最佳实践。原始训练数据集被分割成子训练集、子验证集和子测试集（使用与原始分割相同的比例）。不同的超参数配置是使用这种分割来评估的。对于每个超参数配置，使用具有最低子验证损失的模型权重来评估子测试集上的性能。所检查的超参数配置及其相应的性能在补充附录表2中提供。

模型训练
如SLIViT训练协议中所描述的，我们借用了来自https://huggingface.co/facebook/convnext-tiny-224的ImageNet-1K预训练的ConvNeXt-T骨架，并在其后添加了一个密集层以适应四类分类任务，并在公开可用的Kermany数据集[19]上以监督方式进行训练。
在微调阶段，OCT体积中的每个2D B扫描图像都被调整为256×256像素大小。学习任务的损失函数采用了二元交叉熵。由于每个体积的帧数不同，我们通过使用每个体积19个B扫描图像来标准化输入。对于包含超过19帧的体积，应用了等间隔采样。我们还尝试了中间采样，它选择了中间的19个B扫描图像；然而，与等间隔采样相比，这种方法的表现较差（见补充附录表2）。使用随机选择的验证集来监控训练收敛情况并确定最佳模型，对于测试集评估使用了相同的损失指标。与最低验证损失对应的模型权重被认为是表现最好的。为了减少数据分割导致的过拟合风险，我们实施了五折交叉验证并报告了平均结果。相同的数据分割和验证程序也被用来训练和评估其他基准模型。
模型使用fast.ai的默认优化器和默认参数进行了优化。我们考虑了两种基于单周期策略[29, 30]的微调方法。第一种是“端到端微调”（使用fast.ai的fit_one_cycle方法），正如SLIViT原始论文中所采用的。第二种是“差异微调”（使用fast.ai的fine_tune方法），即首先解冻模型的最后几层并以低学习率训练几个周期（默认是一个周期），然后解冻模型的其余部分并进行端到端微调。对于我们的最终模型，我们选择了差异方法，在我们的超参数调整实验中，这导致了更好的性能配置（见补充附录表2）。虽然模型收敛通常需要接近五个周期，但所有模型都进行了10个周期的微调，以进一步探索模型权重搜索空间。Weight&Bias（https://www.wandb.com）用于实验跟踪和训练程序的可视化。
在Kermany数据集上进行10个周期的模型预训练，在整个Hadassah数据集上进行10个周期的模型微调，每个过程大约需要两小时，使用的是单个NVIDIA Tesla V100 Volta GPU加速器32GB图形卡。最终的微调检查点可以在项目的仓库中找到（见数据和代码可用性）。

基准测试
我们使用了在https://monai-dev.readthedocs.io/en/stable/networks.html#resnet中实现的ResNet-18架构的3D版本。我们使用fast.ai的fit_one_cycle方法训练模型。我们使用了SLIViT官方仓库中的实现：https://github.com/nrakocz/sliver_net，并遵循了其训练说明。对于基于2D ResNet的模型，我们使用了相应手稿作者提供的预训练检查点。值得注意的是，尽管这种方法是在体积级别进行评估的，但它的训练是在切片级别进行的。具体来说，在原始论文中，每个包含k个2D B扫描图像的训练体积都有k个单独的标签（每个切片一个标签），并且模型也是据此进行训练的。因此，我们无法直接使用我们基于体积级别的标记数据来训练模型。通过为每个切片分配体积级别的标签来训练模型并没有产生有意义的结果（0.74的ROC AUC和0.5的AP），因此，我们将其从内部评估分析中排除了。

统计分析
本研究中包含的置信区间（CIs）是使用标准的自助法程序计算得出的，迭代次数n=1,000次，正如其他研究中所采用的[31, 32]。简而言之，让t代表测试集的大小；对于每次自助法迭代，从测试集中随机抽取一个包含t个样本的集合，并根据对采样集的预测计算相应的分数。鉴于1,000个自助法分数的分布（每个分数对应一次自助法迭代），选择第50和第950个排名分数来确定90%的CI。为了评估两个自助法分数分布之间性能差异的显著性水平，我们编制了分数差异的分布（每个差异基于在同一采样集上获得的分数）。然后对分数差异的分布进行了配对t检验（\({H}_{0}\): \(\mu\)=0）。如果在应用Bonferroni校正后得到的p值低于0.01，则认为改进是显著的。

讨论
在这项研究中，我们开发了一个深度学习模型，可以自动诊断3D OCT扫描中与AMD相关的萎缩。我们编制了一个大型标记数据集，其中包含不同AMD亚组的患者，这些亚组是根据新生血管状态定义的，并利用它来训练一个名为SLIViT的先进体积医学成像分析架构，以诊断cRORA。训练好的模型可以免费提供给社区，并且有潜力显著加速3D OCT数据集的快速、标准化和可扩展的注释过程（不仅适用于cRORA，如果用作微调起点，也适用于其他视网膜生物标志物），这个过程通常受到专家时间和成本的限制，特别是对于AMD进展的纵向研究。
以前的研究已经调查了导致AMD患者萎缩的因素[9, 10, 33, 34, 35]。然而，这些研究主要集中在检测非新生血管性AMD（non-nvAMD）中的cRORA，而对新生血管性AMD（nvAMD）中的黄斑萎缩的研究有限[3, 4]，往往由于使用了不同的成像模式、依赖临床试验数据或公共数据库，这些数据库不能准确反映现实世界的情况，导致研究结果不一致。此外，一些关键问题仍然没有得到解决，例如萎缩与新生血管形成之间的关系，以及抗VEGF治疗如何影响萎缩的发展。
为了应对这些挑战并促进更广泛的临床和研究应用，与其他先前的研究不同，我们包括了具有广泛AMD严重程度的扫描，包括有严重新生血管渗出的患者。这样，我们的模型在诊断OCT图像中的cRORA时不受限于特定的AMD亚组。我们的模型在多种临床场景中表现出高且一致的性能，使其成为分析全球诊所每天收集的大量OCT图像的宝贵工具。
与其他最先进模型相比，模型的性能提升是在经过广泛的架构优化（通过彻底的超参数调整搜索）后得到了验证。我们在自己的数据集上对模型进行了交叉验证，并证明了它优于其他强大的候选基线模型，用于自动化cRORA的诊断。在此之后，我们训练了最终模型，并在外部独立数据集上展示了其通用性和可迁移性，进行了一次零样本学习实验。值得注意的是，该模型成功地在接受了抗VEGF注射的nvAMD患者中识别出了cRORA，这突显了其处理复杂病例的能力。这突显了其在回顾性研究和基于研究的萎缩评估中的潜力。
虽然性能主要使用ROC AUC和AP指标进行总结，但我们还报告了内部数据集的敏感性和特异性（附录表1）；外部评估关注于与阈值无关的指标，反映了在将模型应用于异构现实世界数据集时选择特定操作点的需求。根据预期的应用，不同的操作点可能是合适的。例如，在筛查导向的设置中，可能会更倾向于更高的敏感性，以减少cRORA的漏诊情况，而在确认或临床试验富集场景中可能会优先考虑更高的特异性以减少假阳性。因此，在下游研究或临床工作流中，假阴性和假阳性的相对成本应该指导阈值的选择。19切片采样策略代表了计算效率和数据集标准化之间的权衡，以及潜在的小型或局部病变的丢失，特别是在扫描密度较高或设备和采集协议不同的情况下。额外的领域偏移源可能包括ART设置和包含标准，如其他黄斑病理的存在。
尽管该模型显示出实际的前景，但进一步的研究对于验证其在不同环境下的重复性、有效性和临床适用性是必不可少的。我们的模型的训练和验证是使用全球常用的海德堡Spectralis设备的OCT扫描完成的，这也影响了CAM共识分类的开发。然而，我们的模型对其他OCT设备的通用性仍然不确定。此外，由于该模型仅限于黄斑OCT扫描捕捉的区域，它无法检测到可能使用其他成像模式（如宽场红外和自荧光成像）识别到的黄斑外萎缩变化。此外，该算法仅限于分类cRORA，并未评估其他类型的黄斑萎缩。尽管如此，未来的工作可以涉及根据相关标签和成像模式调整模型。最后，与其他回顾性体积成像研究一样，无法完全消除受试者内的残余相关性的问题，这一点也被认为是一个限制。
总体而言，这项研究朝着OCT扫描中AMD相关注释的完全自动化迈出了重要一步。通过实现大规模体积数据集的可扩展和标准化cRORA识别，所提出的方法可以促进纵向OCT数据的回顾性注释，并为未来研究建模萎缩的发展和进展奠定基础，这需要额外的分割或回归端点，这些在目前的工作中并未进行评估。

热点排行