评估基础模型在丹麦与格陵兰糖尿病视网膜病变筛查中对超广角视网膜成像的泛化性

《International Journal of Medical Informatics》:Assessing the generalisability of foundation models to ultra-wide field retinal imaging for diabetic retinopathy screening in Denmark and Greenland

【字体: 时间:2026年05月22日 来源:International Journal of Medical Informatics 4.1

编辑推荐:

  背景:基础模型在眼科影像分析中表现出良好前景,但其在未见过的成像类型与人群中的泛化能力尚不明确。研究人员旨在评估眼科基础模型在丹麦与格陵兰人群中应用于超广角(UWF)视网膜图像进行糖尿病视网膜病变(DR)筛查时的泛化性。方法:选取三种眼科基础模型——RETFo

  
背景:基础模型在眼科影像分析中表现出良好前景,但其在未见过的成像类型与人群中的泛化能力尚不明确。研究人员旨在评估眼科基础模型在丹麦与格陵兰人群中应用于超广角(UWF)视网膜图像进行糖尿病视网膜病变(DR)筛查时的泛化性。方法:选取三种眼科基础模型——RETFound DINOv2、VisionFM与EyeCLIP,分别在丹麦(6,374张UWF图像,1,760例参与者)与格陵兰(6,558张图像,1,146例参与者)数据集上进行微调与评估。任务为二分类DR识别(正常 vs 任意程度病变),实验设置包括仅在丹麦数据上微调、仅在格陵兰数据上微调、将丹麦微调模型外部验证于格陵兰数据,以及从丹麦到格陵兰的顺序微调。评估指标包括区分度(AUROC)与校准度。结果:丹麦与格陵兰数据集中DR患病率分别为45%与14%。同人群微调时,两数据集区分度相近,RETFound DINOv2表现最佳(丹麦AUROC 0.76 [95% CI: 0.73, 0.78],格陵兰AUROC 0.76 [0.73, 0.80])。丹麦微调模型在格陵兰外部验证中表现下降(AUROC 0.59–0.62),顺序微调可提升区分度(AUROC 0.70–0.78)。然而所有设置下校准均不理想,校准截距范围为?1.69至0.37,斜率为0.25至0.78。结论:基础模型在未见过的成像环境与人群中泛化能力有限,丹麦与格陵兰人群间存在性能差异。本地微调可提升区分度,但无法解决校准问题,强调临床应用中需严格评估校准性能以确保可靠性。
该研究发表于《International Journal of Medical Informatics》,针对基础模型在糖尿病视网膜病变(DR)筛查中由传统45°眼底照相向超广角(UWF)视网膜成像迁移时的泛化性不足问题展开。当前,UWF成像因可单次覆盖约200°视网膜区域、操作便捷而被临床逐步采用,但多数眼科基础模型仍基于传统45°图像预训练,其在不同人群及成像模式下的稳定性尚未得到系统验证。此外,不同国家与地区的糖尿病及DR患病率存在差异,模型在跨人群部署时可能出现性能偏差,影响公平性与临床适用性。为此,研究人员选取丹麦与格陵兰两个具有不同疾病谱的人群队列,评估三种代表性眼科基础模型的跨域表现,并探索迁移学习策略对性能的提升作用,明确校准性能在真实临床环境中的重要性。
关键技术方法包括:研究使用来自丹麦OPTIMISM研究的6,374张UWF图像(1,760例参与者)与格陵兰电子健康记录的6,558张图像(1,146例参与者),DR分级依据国际临床糖尿病视网膜病变(ICDR)严重程度量表合并为正常与任意病变两类。模型选用RETFound DINOv2、VisionFM与EyeCLIP三种预训练范式的基础模型,采用特征提取方式冻结主干网络仅更新任务特定分类头,设置四种微调与验证方案,并使用最大均值差异(MMD)量化分布偏移,统一预处理至224×224像素输入。性能评估涵盖区分度(AUROC)、算法公平性(均衡赔率差,EOD)及校准度(截距、斜率、期望校准误差ECE)。
研究结果如下:
3.1 数据集特征:丹麦参与者中位年龄57岁,DR患病率为45%;格陵兰中位年龄62岁,DR患病率为14%,糖尿病类型分布亦显著不同。
3.2 区分度性能:同人群微调时,RETFound DINOv2在两队列中AUROC均为0.76,VisionFM略低,EyeCLIP在格陵兰表现下降明显。丹麦微调模型在格陵兰外部验证AUROC降至0.59–0.62,顺序微调可将AUROC提升至0.70–0.78,其中RETFound DINOv2增益最高。EOD分析显示模型在不同阈值下对丹麦人群敏感度更高,格陵兰人群特异性更高,差距最大可达0.62(EyeCLIP),表明存在跨人群性能差异。
3.3 校准性能:所有实验设置中,模型校准均偏离理想状态,截距与斜率远离1,ECE最高达0.20。顺序微调虽改善概率分布,但仍未达理想校准。事后Platt缩放可改善校准指标,但预测概率分布仍存在系统性偏移。
讨论部分指出,该工作是首次在UWF图像上系统评估眼科基础模型跨人群泛化性的研究,结果显示传统眼底图像训练的模型在UWF数据上区分度下降,验证了成像模式转变带来的挑战。不同预训练范式的模型表现差异反映了预训练数据与目标任务的对齐程度的重要性。跨人群验证中性能下降与概率输出偏差提示,临床部署需考虑目标人群的特异性并进行本地化适配。虽然顺序微调提升了区分度,但校准问题仍未完全解决,需结合训练期校准优化或更复杂的后处理策略。研究同时指出,UWF图像在临床中的普及要求未来模型开发纳入此类数据以提升适用性。
结论翻译:主要在传统眼底照片上预训练的眼科基础模型在应用于UWF视网膜成像或新人群时面临挑战,外部验证中的性能下降与差异凸显了跨人群评估的重要性。尽管本地与顺序微调可改善区分度,持续的校准偏差表明仅靠适配不足以保障可靠的风险估计。研究结果强调了在眼科基础模型的临床开发中必须开展严格的外部验证与校准评估。在UWF成像背景下,可靠部署还需针对目标临床环境进行人群特异性适配,并在未来模型开发中纳入UWF数据,以匹配不断演变的临床实践。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号