今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

大型语言模型在土耳其药学专业考试中的表现:准确性、置信度和可读性的比较分析

《Scientific Reports》:Performance of large language models on the Turkish Pharmacy Specialty Examination: a comparative analysis of accuracy, confidence, and readability

【字体: 大 中 小 】 时间:2026年06月07日 来源:Scientific Reports 3.9

编辑推荐:

  摘要大型语言模型(LLMs)在回答医疗教育中的知识性问题方面表现出了强大的能力。专业考试为评估这些能力提供了一个标准化和客观的框架。然而,迄今为止,还没有研究评估过LLMs在土耳其药学专业考试(EUS)上的表现,该考试是一项全国性的标准化考试,用于选拔药学专业项目的候选人。因此,

  

摘要

大型语言模型(LLMs)在回答医疗教育中的知识性问题方面表现出了强大的能力。专业考试为评估这些能力提供了一个标准化和客观的框架。然而,迄今为止,还没有研究评估过LLMs在土耳其药学专业考试(EUS)上的表现,该考试是一项全国性的标准化考试,用于选拔药学专业项目的候选人。因此,本研究旨在从准确性、自我报告的信心和可读性三个方面,对比评估LLMs在EUS题目上的表现。本研究使用了2017年至2025年间EUS中的84道公开的多项选择题,对三种LLMs(ChatGPT-5.1、DeepSeek-R1和Gemini 2.5 Flash)进行了对比评估。每道题目都通过标准化的提示分别提交给每个模型进行解答。模型表现的评价基于答案准确性、自我报告的信心(1-5分制)以及生成回答的可读性,评估指标包括Flesch阅读易度(FRE)、Gunning Fog指数(GFI)和Simple Measure of Gobbledygook(SMOG)指数。所有统计分析均采用非参数重复测量方法,包括用于配对分类比较的Cochran’s Q检验,以及用于可读性得分的Friedman检验和Durbin–Conover事后分析,双尾显著性水平设定为

0.05。总体而言,所评估的LLMs表现优异。Gemini 2.5 Flash的总体准确率最高(92.9%),其次是ChatGPT-5.1(90.5%)和DeepSeek-R1(89.3%),各模型之间没有统计学上的显著差异(p = 0.584)。自我报告的信心值大多为最高(5/5),其中ChatGPT-5.1、DeepSeek-R1和Gemini 2.5 Flash分别对87.5%、55.6%和66.7%的错误回答给出了最高信心评分。各LLMs在可读性方面存在显著差异:ChatGPT-5.1生成的文本的GFI和SMOG得分低于DeepSeek-R1和Gemini 2.5 Flash(p 0.05),表明其语言复杂性较低。在FRE指标上,各模型之间没有统计学上的显著差异。LLMs在回答药学专业考试中的特定领域问题时表现出高且相当的水平;然而,偶尔出现的错误回答中的过度自信现象凸显了需要谨慎监督的必要性。语言复杂性的差异强调了在教育环境中选择优化可读性的模型的重要性。总体而言,这些发现表明,在基于考试的医疗教育场景中,LLMs有可能作为辅助工具使用,但前提是必须保持专家指导和严格评估,以确保其可靠性和清晰性。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:药学考试评估|大型语言模型|幻觉应对|CRO实验设计|学术诚信核查|学科素养提升|团队协作培训

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号