人工智能辅助预测新生血管性年龄相关性黄斑变性首次复发：一项基于19位专家验证的前瞻性研究

《Scientific Reports》：Artificial intelligence based prediction of first recurrence in neovascular age related macular degeneration with validation by 19 experts

【字体：大中小】 时间：2026年01月17日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对新生血管性年龄相关性黄斑变性(nAMD)患者抗VEGF治疗后首次复发时间预测的临床难题，通过比较19位眼科专家与AI模型的预测性能，并评估AI辅助对专家决策的影响。结果表明，AI模型(AUROC=0.744)表现优于人类专家，且AI辅助可显著提升专家预测一致性。该研究为AI辅助优化nAMD个体化治疗策略提供了重要依据。

在眼科疾病领域，新生血管性年龄相关性黄斑变性(neovascular age-related macular degeneration, nAMD)是全球范围内导致视力丧失的主要原因之一。这种疾病的特点是血管内皮生长因子(vascular endothelial growth factor, VEGF)水平升高，引发脉络膜和/或视网膜血管系统的新生血管形成。这些异常血管的渗漏会导致病理性视网膜液体积聚，如视网膜内液(intraretinal fluid, IRF)、视网膜下液(subretinal fluid, SRF)或色素上皮脱离(pigment epithelial detachment, PED)，最终损害神经感觉视网膜。

目前，抗VEGF药物治疗已成为nAMD的标准疗法，通过玻璃体内注射抗VEGF抗体可以减少液体积聚并稳定病情。临床医生主要依靠光学相干断层扫描(optical coherence tomography, OCT)图像中的液体变化来确定治疗策略。然而，抗VEGF药物作用持续时间较短，需要持续治疗。不同患者的疾病活动性和复发间隔存在高度异质性，这给临床医生的治疗决策带来了巨大挑战。

理解在三次连续抗VEGF负荷治疗后首次复发的时间，对临床医生应对这些决策挑战非常有益。预测首次复发可以帮助确定在负荷阶段后应多久对患者进行随访并给予抗VEGF治疗。尽管人工智能(artificial intelligence, AI)技术在眼科领域的应用日益广泛，但先前的研究主要集中在nAMD的诊断而非预后预测上。

在这项发表于《Scientific Reports》的研究中，研究人员开展了一项创新性研究，直接比较经过验证的深度学习(deep learning, DL)模型与眼科专家在使用OCT图像预测nAMD首次复发方面的表现。该研究还评估了AI生成的复发评分和热图如何影响专家决策和各环节之间的一致性，从而阐明AI辅助在nAMD复发临床预测中的潜在作用。

研究团队采用了基于OCT的人工智能计算机辅助诊断(computer-aided diagnosis, CADx)系统，该系统此前已使用1,295张来自1,172名患者的OCT图像进行了训练和验证。研究方法的核心是设计了一个包含五个阅读环节的实验，邀请了20位眼科专家（10位视网膜专科眼科医生和10位非视网膜专科眼科医生）参与，最终19位专家完成了全部阅读。每个环节提供的信息逐渐增加，从仅基线OCT图像到包含AI辅助信息的完整临床资料。专家需要基于提供的信息预测nAMD患者在抗VEGF负荷治疗后三个月内是否会出现首次复发。

患者特征与研究方法

本研究回顾性纳入了2008年2月至2021年7月期间在首尔大学医院就诊的初治nAMD患者。最终测试集包含130名患者的149只眼，其中77只眼(51.7%)在3个月内出现复发，72只眼(48.3%)在3个月后复发，显示出相对平衡的类别分布。所有患者均接受了连续三次负荷剂量的雷珠单抗、阿柏西普或贝伐珠单抗玻璃体内注射。复发定义为在三次负荷注射后渗出性变化初步消退后，新出现视网膜出血或视网膜内/下液体积积。

AI模型开发采用了双重步骤：首先通过基于U-Net的分割模型识别液体区域，然后进行二元分类预测负荷阶段后三个月内的nAMD复发。最终预测是通过对基于基线OCT和负荷阶段后OCT图像训练的 classifiers 进行硬投票集成而生成的。在AI辅助环节，系统会输出一个0%到100%的复发评分，以及通过梯度加权类激活映射(gradient-weighted class activation mapping, Grad-CAM)生成的热图，突出显示图像中导致预测的主要区域。

AI模型与人类专家表现比较

研究结果显示，AI模型在测试集上达到了0.744的受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUROC)(95%置信区间：0.665-0.822)。相比之下，眼科专家在不同环节的表现有所差异，AUROC从0.562±0.034到0.679±0.049不等。专家表现随着环节推进而改善，在获得最多信息的第5环节达到最高水平(0.679±0.049)。

值得注意的是，仅基于负荷阶段后OCT图像预测的环节(第2环节)结果与AI辅助环节(第5环节)结果相当，表明负荷阶段后OCT是预测nAMD首次复发的重要因素。AI辅助在多个环节显著提高了专家的AUROC评分，特别是在第1、3和4环节(p<0.05)。

视网膜专家与非视网膜专家表现对比

亚组分析发现，视网膜专科眼科医生(retinal specialist ophthalmologists, RSOs)和非视网膜专科眼科医生(non-retinal specialist ophthalmologists, N-RSOs)在所有环节的表现均无显著差异。这一结果表明，预测nAMD早期复发对于所有眼科医生都具有挑战性，即使是有经验的视网膜专家也是如此。同时，AI辅助系统对两类专家都有相似的提升效果，说明它具有广泛的应用潜力。

专家间一致性与预测共识

通过Fleiss' kappa评估的专家间一致性在AI辅助下得到显著改善。在第5环节，Fleiss' kappa评分达到了中等一致水平，表明AI有助于提高不同专家预测的一致性，促进更标准化的OCT图像解读。

对专家预测共识的分析发现，当存在基线视网膜下出血或基线/负荷阶段后视网膜内高反射点时，专家们能以良好的一致性预测早期复发。这些OCT生物标志物被认为是预测复发时间的重要因素，与AI模型的热图分析结果一致，后者也主要突出病理性液体区域、消退的脉络膜新生血管(chorial neovascularization, CNV)病灶和OCT扫描中的高反射点。

研究意义与局限性

这项研究证实了AI辅助在提高nAMD复发预测准确性和一致性方面的价值。即使AUROC为0.744仅表示中等判别性能，但这一准确度水平仍可能提供有意义的临床价值。能够识别早期复发高风险患者的模型可以支持负荷阶段后的分诊和风险分层工作流程，标记出需要更密切监测或更短随访间隔的高风险个体，同时允许对低风险患者进行更灵活的随访。

研究的局限性包括：AI算法性能未达到优越水平；单中心设计且无外部验证，可能限制结果的普适性；相对小的数据集和异质性抗VEGF治疗方案可能影响结果的稳健性；阅读环节间仅间隔一天可能存在偏倚；专家可同时获取OCT图像和临床信息，而AI模型仅依赖OCT图像，导致比较不完全对称。

结论与展望

本研究通过系统比较AI模型与眼科专家在预测nAMD首次复发方面的表现，证实了AI辅助在提高预测准确性和一致性方面的价值。研究发现负荷阶段后OCT图像对预测复发至关重要，且视网膜下出血和高反射点等OCT生物标志物是专家预测的重要依据。

这些结果为AI辅助优化nAMD个体化治疗策略提供了依据，有望改善患者咨询和管理。未来研究应聚焦于收集更多数据和完善模型，提高AI辅助诊断系统性能；进行多中心数据集的外部验证，评估模型在不同临床环境中的普适性；开发预测实际复发时间的模型，为治疗规划提供更精确信息；以及开发适用于眼科诊所的AI应用，提升诊断过程的效率、准确性和一致性。

总之，这项研究为AI在眼科临床决策支持中的应用提供了重要证据，标志着向更精准、个性化的nAMD管理迈出了关键一步。随着技术的不断进步和验证，AI辅助系统有望成为眼科医生应对nAMD治疗挑战的宝贵工具，最终造福广大患者。

热点排行

新闻专题