LMOD+：一个全面的多模态数据集和基准，用于开发和评估眼科领域中的多模态大规模语言模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Computing for Healthcare》：LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

【字体：大中小】 时间：2026年03月21日 来源：ACM Transactions on Computing for Healthcare

编辑推荐：

　　LMOD+数据集通过整合多模态眼科影像和标注，扩展了任务范围至疾病筛查、分级和人口统计预测，并系统评估了24种大语言模型在眼科应用中的性能，揭示其通用性与专科需求间的差距。

要查看此由人工智能生成的摘要，您必须具有高级访问权限。

了解更多登录

摘要

日益普遍的威胁视力的眼病对全球健康和经济造成了重大负担，然而由于劳动力短缺、诊断延迟以及获得专业护理的机会有限，及时诊断仍然受到限制。人工智能（AI）提供了潜在的解决方案。特别是，基础模型和大型语言模型（尤其是多模态大型语言模型，MLLMs）的最新进展在医学图像解释和自动化临床文档记录方面展现出了前景。然而，推进眼科领域MLLMs的发展受到了缺乏统一、全面的基准数据集的阻碍。大多数现有的基准数据集是为早期模型设计的，这些模型专注于狭窄的任务或特定的疾病状况。这些基准数据集通常以疾病标签的形式提供输出，而不是自由文本响应。因此，它们不太适合评估新兴的生成模型。

在这项工作中，我们推出了LMOD+，这是一个大规模的多模态眼科基准数据集，包含32,633个实例，涵盖了12种常见的眼科疾病和5种成像方式，并具有多粒度注释。该数据集整合了成像信息、解剖结构、人口统计数据和自由文本注释。它支持主要的眼科应用，如解剖结构识别、疾病筛查、疾病分期以及人口统计预测，以评估潜在的性能偏差。除了数据集本身，我们还引入了一个系统化且统一的数据管理流程，用于重新利用现有或新的数据集来开发MLLMs。

LMOD+ 在我们的初步LMOD基准数据集的基础上进行了三项主要改进。首先，我们将数据集规模扩大了近50%（从21,933个实例增加到32,633个实例）。其中，彩色眼底摄影（CFP）这一在眼科中最容易获取的成像方式被大幅扩展，以覆盖更广泛的病理状况。其次，我们扩展了任务范围，包括：(a) 12种常见疾病的二元诊断任务，如糖尿病视网膜病变、年龄相关性黄斑变性和视网膜静脉阻塞；(b) 多类眼科疾病诊断；(c) 疾病严重程度分类，其中包括使用两种国际公认的分级标准的糖尿病视网膜病变分期任务：国际临床糖尿病视网膜病变分类和苏格兰糖尿病视网膜病变分级方案；(d) 人口统计预测（年龄和性别），以评估模型的潜在偏差。第三，我们系统地评估了24种最先进的MLLMs，包括来自InternVL、Qwen和DeepSeek系列的最新模型。

我们的评估突显了当前MLLMs在眼科领域的潜力和局限性。例如，在零样本设置下，Qwen-7B和InternVL在疾病筛查任务中的准确率分别为58.26%和57.83%——这比传统的微调方法（即为每个具体任务训练单独的模型）更具挑战性。InternVL在解剖结构识别方面也显示出潜力。尽管如此，整体性能仍然不尽如人意，尤其是在疾病分期等具有挑战性的任务中，其表现往往接近随机基准水平，这凸显了通用领域MLLMs与眼科特定需求之间的巨大差距。

我们公开发布了数据集、数据管理流程和排行榜，以鼓励整个社区对MLMMs进行开发和评估，旨在推动眼科应用的发展，并最终通过AI减少威胁视力的疾病的全球负担。数据集网站、基准排行榜和下载链接可在https://kfzyqin.github.io/lmod_plus找到。

人工智能摘要

人工智能生成的摘要（实验性)

此摘要是使用自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助发现新信息、帮助读者评估文章的相关性，并协助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要，后者仍是文章的官方总结。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的摘要版本。

要查看此由人工智能生成的通俗语言摘要，您必须具有高级访问权限。

联系信箱：

粤ICP备09063491号

摘要

摘要

人工智能摘要

人工智能生成的摘要（实验性)

热点排行