鸟弹样脉络膜视网膜炎患者及匹配对照的广域眼底图像数据集

《Scientific Data》:A Dataset of Widefield Fundus Images From Patients With Birdshot Chorioretinitis and Matched Control

【字体: 时间:2026年06月07日 来源:Scientific Data 6.9

编辑推荐:

  鸟弹样脉络膜视网膜炎是一种罕见的葡萄膜炎,其研究受限于缺乏大型、公开可用的影像数据集。为弥补这一空白,研究人员提出了 Birdshot-Wide,这是一套标准化的视网膜影像数据集,由5,042张来自742只患有鸟弹样脉络膜视网膜炎(BSCR)的眼的广域眼底照片

  
鸟弹样脉络膜视网膜炎是一种罕见的葡萄膜炎,其研究受限于缺乏大型、公开可用的影像数据集。为弥补这一空白,研究人员提出了 Birdshot-Wide,这是一套标准化的视网膜影像数据集,由5,042张来自742只患有鸟弹样脉络膜视网膜炎(BSCR)的眼的广域眼底照片,以及1,310张来自742只年龄和性别匹配健康对照眼的图像构成。BSCR队列具有纵向随访特征,中位随访时间为4.31年。BSCR队列中的每张图像均经过人工质量审核,并依据主导病灶亚型进行分类。为展示其应用价值,研究人员以该数据集开展了分类任务基准测试;在区分BSCR与对照图像的任务中,深度学习模型获得了最高达0.96的受试者工作特征曲线下面积(AUC-ROC)。该数据集结合详细的元数据,为生物标志物发现、自动化诊断工具开发以及疾病进展建模提供了有价值的资源。
该论文发表于《Scientific Data》,核心贡献在于构建并公开描述了一个面向鸟弹样脉络膜视网膜炎(BSCR,birdshot chorioretinitis)的标准化广域眼底影像数据集,为罕见性后葡萄膜炎的计算机辅助研究提供了基础设施。眼底摄影是眼科诊断与随访视网膜疾病的核心工具,但与糖尿病视网膜病变等高患病率疾病相比,罕见眼病长期缺乏规模充足、结构规范且带有标注信息的公共数据资源,导致自动分析算法、影像生物标志物挖掘和疾病进展研究推进缓慢。BSCR是一种慢性后葡萄膜炎,典型表现为眼底低色素性病灶,其病灶形态识别及随时间变化的定量分析对于诊断和监测具有潜在价值。然而,要开发可靠的自动化工具,前提是具备大规模、经过审核并具有临床语义标注的图像数据。正是在这一背景下,研究人员基于法国巴黎Cochin医院葡萄膜炎门诊的临床资源,整理形成了Birdshot-Wide数据集。

该研究的数据主要来源于前瞻性、单中心、观察性CO-BIRD队列,并通过回顾性方式提取眼底照片。研究纳入依据国际共识标准及SUN工作组标准确诊且HLA-A29阳性的BSCR患者,并要求至少具备1张由超广域视网膜摄影获取的红-绿复合彩图。与此同时,研究人员在同一机构筛选无系统性自身免疫病史、且目标眼无视网膜病变证据的个体作为健康对照,通过年龄和性别进行匹配,从而建立可比较的病例-对照框架。最终形成的数据集包含5,042张BSCR彩色眼底图像和1,310张对照图像,共涉及742只BSCR眼和742只对照眼,是目前已知针对该病经整理的最大影像集合之一。更重要的是,该数据集具有显著的纵向特征,中位眼别随访时间达到4.31年,这使其不仅适用于静态诊断分类,也适用于病灶演变和疾病进展建模研究。

研究人员采用的关键技术方法主要包括以下几类:首先,基于Cochin医院CO-BIRD前瞻性队列及同院健康受试者来源,回顾性提取超广域眼底影像,并从DICOM格式中抽取患者、检查及采集参数元数据后统一转换为JPEG格式;其次,利用计算方法在病例与对照之间执行年龄、性别匹配,并在患者层面完成受试者独立的数据组织;再次,由视网膜和葡萄膜炎专科医师进行图像质量控制与病灶主导形态分型,部分图像进一步完成JSON格式病灶轮廓标注;最后,采用预训练卷积神经网络(CNN)开展BSCR与健康对照的二分类基准验证。

在研究结果方面,论文主体首先从“队列组成与人口学特征”展开。研究人员报告,最终Birdshot-Wide数据集纳入742只BSCR眼的5,042张彩色眼底照片,每只眼在质量控制后均至少保留1张可用图像。BSCR患者平均年龄为66.16 ± 12.27岁,其中女性占59.8%。每只眼平均贡献6.07 ± 5.17张图像,体现出较强的纵向随访属性。与之相匹配的对照队列由742只无已知视网膜疾病的眼组成,共保留1,310张彩色眼底图像;其平均年龄为63.78 ± 14.14岁,女性比例同样为59.8%。这一部分结果说明,该数据集在病例规模、人口学匹配和随访结构上具备较好的研究适用性。

在“图像质量与病灶分类”部分,研究人员对BSCR队列全部5,042张彩色眼底图像进行了人工审核。其中816张图像,占16.2%,因照明不足、运动伪影或屈光介质混浊等原因被判定为质量不足并作相应标记。在其余可判读图像中,最常见的表型为奶油样斑块合并斑点,共2,262张,占44.9%;其次为孤立奶油样斑点,共1,122张,占22.3%。其他模式还包括孤立斑块299张、色素性斑块合并斑点259张、色素性斑点80张以及萎缩性斑点43张。此外,还记录到假性白化和假性黑变病样外观。每张可判读图像均获得一个病灶类型分类标签,并写入元数据文件。该部分表明,数据集不仅具有图像数量优势,还具备适用于监督学习的形态学标签信息。

在“纵向数据特征”部分,研究人员强调该数据集的时间维度价值。BSCR队列中,按眼计算的中位随访时间为4.31年,四分位距为0.89–6.09年,部分眼具有长达7.32年的连续眼底摄影记录。研究人员通过示例展示了同一患者7年期间眼底外观的连续变化,包括低色素病灶的重新分布及萎缩性改变进展。该结果说明,Birdshot-Wide不仅适合横断面识别,也能够支持病变动态监测与自然史研究。

在“用于定量分析的示例性标注”部分,研究人员从具有纵向随访的5例患者中选择超广域图像,在基线与5年随访两个时点对萎缩性病灶进行半自动标注。结果显示,基线时平均标注区域数为29.0 ± 22.9,5年后为27.8 ± 22.1;按三类病灶亚型求和得到的平均总病灶面积由基线的68.1 kpixels2增加至5年后的78.5 kpixels2。研究还报告了相对于视盘的平均角位置在不同病灶类型和时点的变化情况。这一部分结果提示,数据集能够进一步支持病灶分割、数量化测量及空间表型分析。

在“可用于人工智能训练”部分,研究人员以监督式二分类任务对数据集技术效能进行了基准评估。研究采用4种以ImageNet预训练的标准卷积神经网络架构,即ResNet50、VGG16、EfficientNet-B0和Densenet121,并将末端分类层替换为适配二分类问题的全连接层。为保证受试者独立评估,研究在患者层面将数据划分为测试集20%和主训练集80%,后者进一步划分出验证集用于超参数调优和早停。输入图像统一调整为224 × 224像素,对训练集施加随机裁剪、水平翻转、颜色扰动和轻度旋转等数据增强,并以CrossEntropyLoss进行最多15个训练轮次的优化,使用Adam优化器、学习率0.001、批大小64以及混合精度训练。测试集结果显示,各模型均表现稳健,其中ResNet50取得最高AUC-ROC 0.96,总体准确率为89%。这一结果直接证明Birdshot-Wide可有效支撑BSCR自动鉴别诊断模型的开发。同时,错误案例分析指出,低质量图像及病变早期、病灶较细微的图像是当前模型面临的主要挑战。

在数据组织与使用层面,研究人员说明Birdshot-Wide托管于Zenodo受控访问仓库中,解压后包含BSCR/、Controls/和Annotations/三个子目录以及metadata.xlsx元数据文件。影像均为JPEG格式,文件名不含身份信息,所有图像与临床、人口学信息的关联均依赖metadata.xlsx完成。元数据字段包括filename、patient_id、acquisition_date、age_at_acquisition_date、sex、laterality、lesion_type以及cohort等,能够支持按个体、眼别、时间和病灶类型进行灵活分析。考虑到广域眼底图像存在潜在再识别风险,研究采用受控访问共享方式,要求申请者提交访问申请并同意数据使用协议(DUA)。

论文讨论与局限性部分指出,该数据集的主要价值在于填补BSCR这一罕见病在大规模、规范化、可计算影像资源上的空缺,并为诊断分类、异常检测、病灶分割以及疾病进展建模提供了统一平台。尤其是其纵向结构、病例对照匹配设计以及明确标记的低质量图像,使之更贴近真实临床场景,也有助于开发鲁棒性更强的模型。与此同时,研究人员明确指出若干限制:其一,数据来自单一三级转诊中心,可能存在疾病严重程度或转诊模式相关的选择偏倚;其二,尽管做了流程标准化,不同设备及不同时期的采集协议差异仍可能带来技术异质性;其三,病灶分类依赖受训阅片者的人工视觉评估,未以荧光素血管造影或光学相干断层扫描(OCT,optical coherence tomography)等多模态影像作为地面真值验证;其四,每张图像仅赋予一个主导病灶标签,尚不能完整表达多种病灶共存的复杂表型;其五,尽管对照队列按年龄和性别进行了匹配,但由于回顾性提取特征,无法系统排除其他眼科或全身合并症。

论文结论部分可概括翻译为:Birdshot-Wide是一个针对鸟弹样脉络膜视网膜炎的大规模、经整理并带有纵向结构的广域眼底影像数据集,包含匹配健康对照、图像质量标记、病灶形态分类以及示例性病灶注释。基准实验表明,该数据集能够有效支持基于深度学习的BSCR自动分类任务。凭借其详细元数据和时间序列结构,该资源可用于生物标志物发现、自动化诊断工具开发以及疾病进展建模,并为罕见眼底炎症性疾病的计算研究提供基础。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号