通过多模态文生图框架增强基础模型在罕见眼病诊断中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Digital Medicine》：Boosting foundation models for rare eye disease diagnosis via a multimodal text-to-image generative framework

【字体：大中小】 时间：2026年03月25日 来源：npj Digital Medicine 15.1

编辑推荐：

　　针对罕见眼病诊断中面临数据稀缺和不平衡的难题，研究人员开发了名为EyeDiff的生成式基础模型。该模型能够根据文本描述合成高保真的、保留病灶特征的眼科影像。研究证实，通过增强11个全球数据集的少数类数据，EyeDiff能有效提升多种基础模型对常见及罕见眼病的诊断准确性，为推进视网膜疾病诊断提供了一种可扩展的通用数据增强方案。

在当今时代，威胁视力的视网膜疾病日益增多，给全球医疗体系带来了沉重负担。虽然深度学习（DL）技术为提高诊断效率提供了有前景的途径，但在训练稳健的诊断模型，特别是针对罕见眼病时，数据稀缺和类别不平衡的问题依然突出。这就像是试图用寥寥几张照片去识别一种极其稀有的鸟类，模型难以学到全面而准确的特征，导致诊断效能大打折扣。为了突破这一瓶颈，一项发表于《npj Digital Medicine》的研究带来了创新性的解决方案。

研究人员开展了一项旨在通过生成式人工智能技术解决眼科影像数据瓶颈的研究。他们引入了EyeDiff，一个能够从文本描述生成病灶保留性眼科图像的多模态文本到图像生成框架。该研究得出的核心结论是，EyeDiff不仅能生成跨多种成像模式的高保真图像，准确反映各种视网膜疾病和病灶类型的文本描述，还能通过数据增强显著提升不同类型基础模型（包括仅用真实数据训练的模态特定模型、多模态模型和视觉-语言基础模型）对常见及罕见眼病的诊断准确性。这项工作的意义重大，它证明了EyeDiff作为一种通用文生图基础模型的潜力，为生成平衡的、疾病相关的数据以推进视网膜疾病诊断，提供了一种可扩展且灵活的方法。

为开展此项研究，作者运用了几个关键技术方法。研究核心是开发了名为EyeDiff的生成式基础模型，这是一个多模态文本到图像生成框架。模型的训练和评估基于11个来源全球的、包含多种视网膜疾病（如糖尿病性黄斑水肿、青光眼、年龄相关性黄斑变性、病理性近视、视网膜静脉阻塞等）的真实眼科影像数据集。研究采用客观指标（如FID、KID）和专家人工评估来验证生成图像的质量。最终，通过使用EyeDiff合成图像来增强少数类样本，并用于训练和测试多种基础模型，以评估其对诊断性能的提升效果。

EyeDiff能够生成高保真且与文本描述一致的多种模态眼科图像

通过定量评估和人类专家评估证实，EyeDiff生成的图像在多种成像模态（如彩色眼底照相、光学相干断层扫描OCT等）上均具有高保真度，并能准确对应文本描述的疾病和病灶细节。

EyeDiff增强了多种基础模型对罕见和常见视网膜疾病的诊断性能

使用EyeDiff合成的图像增强11个全球数据集中少数类（罕见病）样本后，在多种基础模型（包括模态特定模型、多模态模型和视觉-语言基础模型）上进行测试。结果表明，这种增强策略能持续、一致地提升这些模型对常见及罕见眼病的诊断准确率。

研究结论与讨论

本研究成功开发并验证了EyeDiff，一个通用的、多模态的文生图生成式基础模型。其核心价值在于能够根据语义文本描述，合成高质量的、保留关键病灶信息的多样化眼科影像。实验结果表明，利用EyeDiff生成的数据进行类别平衡增强，是一种有效且通用的策略，能够显著提升多种基于深度学习的基础诊断模型（尤其是针对数据匮乏的罕见眼病）的性能。这项工作的重要意义在于，它为解决医学人工智能领域长期存在的数据稀缺与不平衡问题，提供了一个全新的、可扩展的解决方案。EyeDiff框架的灵活性使其有望超越眼科范围，应用于其他同样受限于高质量标注数据稀缺的医学影像诊断领域，从而加速人工智能在精准医疗中的发展和落地。

联系信箱：

粤ICP备09063491号

热点排行