评估大型语言模型在白内障和屈光手术领域的表现与专业医生的水平：基于美国眼科学会自我评估项目的对比分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《JRCS》：Evaluating large language models vs residents in cataract and refractive surgery: comparative analysis using the American Academy of Ophthalmology Self-Assessment Program

【字体：大中小】 时间：2026年02月21日 来源：JRCS 3.2

编辑推荐：

　　ChatGPT-4o在眼科手术问题测试中表现最佳，超越住院医师且提示复杂度对模型效果影响不显著。多数模型准确率超过60%的及格线。

目的：

评估主要大型语言模型（LLMs）在回答白内障和屈光手术相关问题时的准确性，确定提示的复杂性是否会影响性能，并将其准确性与眼科住院医师进行比较。

研究背景：

不适用。

研究设计：

采用基于随机问卷的研究方法，使用了“基础与临床科学课程（Basic and Clinical Science Course, BCSC）自我评估计划”中关于白内障和屈光手术部分的100个问题。

研究方法：

测试了5个大型语言模型（ChatGPT-4、ChatGPT-4o、Gemini、Gemini Advanced和Copilot–Precise Mode）。以1983年BCSC自我评估计划用户的数据作为参考。每个模型进行了两次测试：一次使用简单提示，另一次使用情境化提示。准确性定义为正确答案的比例。

研究结果：

使用简单提示时，ChatGPT-4o的准确率最高，达到84%（95%置信区间77%-91%），其次是Gemini Advanced（82%），Copilot（78%），ChatGPT-4（77%），Gemini（62%；P < 0.05）。使用情境化复杂提示时，ChatGPT-4o再次表现出色（86%；95%置信区间79%-93%）。简单提示和复杂提示之间的性能差异在统计上不显著（P > 0.05）。除Gemini外，所有模型的95%置信区间下限均超过了60%的及格标准。住院医师的平均得分是77%（95%置信区间75%-79%）。只有ChatGPT-4o的表现显著优于住院医师（P = 0.04），而Gemini Advanced和Copilot的表现略高于住院医师（P ≈ 0.10）。

结论：

ChatGPT-4o的表现始终优于ChatGPT-4、Gemini、Gemini Advanced和Copilot，并且是唯一一个显著超越住院医师的模型。提示的复杂性对LLM的性能没有影响。除Gemini外，所有模型的准确率都超过了60%的及格标准，这表明LLM可以作为评估屈光手术相关知识的工具。

本研究测试了5个大型语言模型在回答白内障和屈光手术相关问题时的表现，使用了简单和复杂的提示。ChatGPT-4o的表现优于其他模型和住院医师。提示的复杂性对模型性能的影响很小。除Gemini外，所有模型的准确率都超过了及格标准。

通俗语言总结：本研究测试了5个大型语言模型（LLMs）回答白内障和屈光手术相关问题的能力，并将其准确性与眼科住院医师进行了比较。ChatGPT-4o的表现最为出色，使用简单提示时准确率为84%，使用复杂提示时准确率为86%，均高于住院医师的77%。其他模型如Gemini Advanced和Copilot也表现良好，但只有ChatGPT-4o的准确率显著高于住院医师。提示的复杂性对LLM的性能没有显著影响。大多数模型的准确率超过了60%，表明LLM可以用于评估屈光手术相关的知识。

本文本由机器生成，可能存在不准确之处。常见问题解答

热点排行

新闻专题

联系信箱：

粤ICP备09063491号