
-
生物通官微
陪你抓住生命科技
跳动的脉搏
土耳其牙科专业考试中牙颌面放射学试题的认知层面分析:基于布鲁姆修订分类法的分析
《BMC Oral Health》:Cognitive-level analysis of dentomaxillofacial radiology questions in the Turkish dentistry specialization examination: a Bloom’s revised taxonomy analysis
【字体: 大 中 小 】 时间:2026年05月22日 来源:BMC Oral Health 3.1
编辑推荐:
摘要背景布鲁姆修订的分类法被广泛用于评估考试题目的认知难度。随着大型语言模型(LLMs)的日益普及,人们对其在认知分类方面的潜力越来越感兴趣。然而,将基于LLM的分类方法与牙科专业考试中的专家共识进行比较的证据仍然有限。本研究旨在分析土耳其牙科专业考试(DUS)中牙颌面放射学(D
布鲁姆修订的分类法被广泛用于评估考试题目的认知难度。随着大型语言模型(LLMs)的日益普及,人们对其在认知分类方面的潜力越来越感兴趣。然而,将基于LLM的分类方法与牙科专业考试中的专家共识进行比较的证据仍然有限。本研究旨在分析土耳其牙科专业考试(DUS)中牙颌面放射学(DMFR)题目的认知难度,并评估专家共识与ChatGPT v5.2之间的吻合程度。
从DUS中选取了130道基于文本的DMFR题目,分别使用专家共识和ChatGPT v5.2对其进行布鲁姆修订分类法的分类。通过精确一致性和二次加权Cohen’s kappa系数来评估两种分类方法之间的一致性。
在专家共识和ChatGPT的分类结果中,“分析”(Analyze)这一认知难度级别出现的频率最高(分别为41.5%和44.6%),其次是“记忆”(Remember)。ChatGPT与专家共识之间的精确一致性为80.0%,序数一致性几乎达到完美(κw = 0.851;95%自举置信区间:0.769–0.923)。
ChatGPT v5.2在该数据集的布鲁姆分类法应用中与专家共识高度一致。这些发现表明,基于LLM的分类方法可以作为辅助工具来支持认知难度的划分;然而,这些结果应被视为可行性的初步证据,而非实际验证。仍需专家的监督,并且需要进一步的研究来评估不同模型、环境和教育背景下的表现。
布鲁姆修订的分类法被广泛用于评估考试题目的认知难度。随着大型语言模型(LLMs)的日益普及,人们对其在认知分类方面的潜力越来越感兴趣。然而,将基于LLM的分类方法与牙科专业考试中的专家共识进行比较的证据仍然有限。本研究旨在分析土耳其牙科专业考试(DUS)中牙颌面放射学(DMFR)题目的认知难度,并评估专家共识与ChatGPT v5.2之间的吻合程度。
从DUS中选取了130道基于文本的DMFR题目,分别使用专家共识和ChatGPT v5.2对其进行布鲁姆修订分类法的分类。通过精确一致性和二次加权Cohen’s kappa系数来评估两种分类方法之间的一致性。
在专家共识和ChatGPT的分类结果中,“分析”(Analyze)这一认知难度级别出现的频率最高(分别为41.5%和44.6%),其次是“记忆”(Remember)。ChatGPT与专家共识之间的精确一致性为80.0%,序数一致性几乎达到完美(κw = 0.851;95%自举置信区间:0.769–0.923)。
ChatGPT v5.2在该数据集的布鲁姆分类法应用中与专家共识高度一致。这些发现表明,基于LLM的分类方法可以作为辅助工具来支持认知难度的划分;然而,这些结果应被视为可行性的初步证据,而非实际验证。仍需专家的监督,并且需要进一步的研究来评估不同模型、环境和教育背景下的表现。
生物通微信公众号