应用自评核查表(Checklist)提升多选题(Multiple Choice Question, MCQ)质量的准实验研究

《Journal of Taibah University Medical Sciences》:Improving MCQ quality using a self-evaluation checklist: A quasi-experimental study

【字体: 时间:2026年06月06日 来源:Journal of Taibah University Medical Sciences 1.9

编辑推荐:

  摘要:编制高质量的多选题(MCQ)对于医学教育中公正有效的评估至关重要。本研究旨在探讨使用标准化自评核查表(Checklist)作为干预工具,以提升基础医学教师编制的MCQ质量(通过项目分析Item Analysis衡量)。研究采用无对照组的自身前后对照准实验

  
摘要:编制高质量的多选题(MCQ)对于医学教育中公正有效的评估至关重要。本研究旨在探讨使用标准化自评核查表(Checklist)作为干预工具,以提升基础医学教师编制的MCQ质量(通过项目分析Item Analysis衡量)。研究采用无对照组的自身前后对照准实验设计(Quasi-experimental pre–post design),纳入基础医学学科教师参与评估干预前后MCQ质量的变化。研究人员在互动培训会上向教师介绍改编自既往研究的19条标准化自评核查表,要求教师在题目命制后、提交前依据核查表进行自我评估与修正,仅收录经自评的题目进入后测阶段。MCQ质量通过干预前后试卷的项目分析报告进行评估,包括克朗巴赫α系数(Cronbach's α,信度Reliability Index)、难度指数(Difficulty Index, P值)、点二列相关系数(Point–Biserial Correlation, 鉴别/区分指数Discrimination Index)及干扰项效能(Distractor Efficiency),采用卡方检验(Chi?square test)评估统计学显著性。结果显示,使用核查表使试卷整体内部一致性(Cronbach's α)由"低(<0.60)"边缘提升至"可接受(0.6–0.70)",但差异无统计学意义(p > 0.05)。然而,干预后MCQ的区分度(p = 0.04)及干扰项效能(p = 0.001)均显著改善;含有无效干扰项(Non?functioning Distractors)的题目比例显著下降,表明题目构念质量及其区分高低分学生的能力得到提升。结论:标准化自评核查表是改善MCQ心理测量学特性(Psychometric Properties)——特别是区分度和干扰项效能——的有效工具。建议将此类核查表纳入教师常规命题流程,以保障学业评估质量并减少命题错误。
研究背景与目的
在医学教育(Medical Education)中,多选题(Multiple Choice Question, MCQ / Single Best Answer MCQ)因其高效、客观及可考查高阶思维被广泛用于总结性评估(Summative Assessment)。然而,低质量或存在构题缺陷(Item?writing Flaws)的MCQ会降低考试效度(Validity)与信度(Reliability),增加猜测概率及项目偏差(Item Bias),不当影响学生学业成绩。既往研究指出,教师缺乏正规命题培训是导致MCQ质量欠佳的主因,多数干预聚焦于短期工作坊(Workshop)培训效果。Sadiqa Ayesha与Abid Ashar(Department of Medical Education, College of Physicians and Surgeons Pakistan, CPSP)为探究将标准化自评核查表(Standardized Self?evaluation Checklist)作为持续性干预工具对基础医学教师所命制MCQ心理测量学特性的影响,开展了本准实验研究,论文发表于Journal of Taibah University Medical Sciences。研究假设为:使用预设计的自评核查表能显著提升基础医学教师编制MCQ的项目质量。
研究方法概述
研究人员在巴基斯坦拉合尔联合军事医院医学院暨牙科学院(CMH Lahore Medical College & Institute of Dentistry, CMH LMC & IOD)基础医学部(解剖学Anatomy、生理学Physiology、生物化学Biochemistry、口腔生物学Oral Biology)开展无对照组准实验研究(2023年8月—2024年12月),经伦理委员会批准(No. 624/ERC/CMH/LMC)并获教师书面知情同意。干预前收集各科室初级教师(Lecturer/Senior Lecturer,共8人,每科2人)按常规流程命制并提交教研室主任审核通过的MCQ(前测共381道:解剖55、生理40、生化40、口生40;由同一届牙科一年级BDS学生55–75人实考产生OMR作答数据);随后由同一名医学教育专业人员对各科室教师分别开展2小时互动培训,详解基于既往文献改编的含19项建议的自评核查表(涵盖题干清晰性、单一最佳答案、Cover Test、避免绝对词/否定词/All of the above、选项同质性/长度/排序、干扰项不重叠等)及MCQ质量参数(Cronbach's α、难度指数P值、点二列相关系数Point?Biserial rpb、干扰项效能Distractor Efficiency),演示范例并答疑;干预后要求教师命制MCQ时必须先依核查表自评合格方可提交教研室主任,纳入后测(共206道:解剖60、生理56、生化45、口生45;同一学生群体实考)。前后测OMR(Scantron)扫描后经Remark软件生成详细项目分析报告,比较可靠性指数(Cronbach's α:<0.60低,0.60–0.69可接受,0.70–0.80良好,≥0.90优)、难度指数(P<0.3过难,0.3–0.79适中,≥0.8过易)、点二列相关(≤0劣质/负值为缺陷项Defective Item,0.10–0.25差,0.25–0.40可接受/Good,>0.40优/Excellent)及干扰项效能(选择率>5%为功能性干扰项Well?functioning Distractor,≤5%为非功能性Non?functioning Distractor),分类变量采用卡方检验(χ2test),显著性水准α=0.05。
研究结果
Reliability Index(可靠性指数/克朗巴赫α系数)
各科目Cronbach's α均由"低"(0.53–0.60)边际提升至"可接受"(解剖0.58→0.61;生理0.60→0.69;口生0.55→0.62;生化维持0.53),但提升均无统计学意义(p = 0.774、0.284、0.502、1.000)。表明单凭核查表干预短期内不足以使整套试卷达到高信度水平,但趋势向好。
Difficulty Factor Analysis(难度指数分析)
解剖学(p=0.026)、生理学(p=0.005)及口腔生物学(p=0.0007)的难度分布较干预前发生显著变化;生理学科"适中难度(Good & Acceptable, P=0.3–0.79)"题目比例上升(19→35道),"过易"比例下降,显示题目难度分布趋于合理;生化无显著差异(p=0.428)。总体而言干预改善了多数科目的难度层次分布。
Point–Biserial Correlation(点二列相关系数/区分度)
四学科前后测区分度等级分布差异均有统计学显著性(解剖p<0.0001;生理p<0.0001;生化p<0.0001;口生p=0.0002)。需注意:除口生外,其余三科"优良区分(>0.25–0.40及>0.40)"题目占比在后测中下降,"差/缺陷项"占比波动不一。研究人员分析可能原因包括教师工作量压力致偶发关键(Key)标注失误、仅靠核查表不足以保障认知层级匹配等,需辅以蓝图(Blueprint)及同行评审(Peer Review)。
Distractor Efficiency(干扰项效能)
解剖(p=0.000)、生化(p=0.004)及口生(p=0.000)含功能性干扰项(Well?functioning Distractors)的题目比例显著上升(解剖53.57%→80%;生化67.5%→80%;口生40%→86.66%),含非功能性干扰项题目显著减少;生理前后无显著差异但基数已较高(80%→80.35%)。表明核查表对消除"死干扰项(Non?functioning/Unattractive Distractors)"效果明确。
Students' Academic Results(学生学业成绩分布)
四学科成绩等级分布前后差异均显著(均p≤0.0004)。生化、口生及解剖"不及格(<50%)"学生比例下降,"满意(50–59%)"及"良好(60–69%)"比例上升;生理出现"不及格"及"满意"比例上升、"良好/优秀"略降现象,与区分度变化呼应。总体上干预后多数科目不及格率降低。
讨论与结论总结
讨论部分指出,自评核查表作为持续化发展策略较单次工作坊更易促成可持续改进;本研究发现与既往沙特阿拉伯、美国、印度等地类似教师发展项目(Faculty Development Program)结果相仿——干扰项效能及构题缺陷改善明显,但整卷信度提升需长期多轮干预及配套措施(如考核蓝图Table of Specifications、结构化同行评审、充足命题时间)。研究局限性含无真正对照组(存在成熟效应Maturation、测试效应Testing Effect、同期教学变革等混杂)、单中心样本限制外部效度、自评存在社会期许偏倚(Social Desirability Bias)、各学科MCQ数及考生数不完全等同。
结论(译自原文Conclusion):本研究发现干预后各科MCQ试卷内部一致性呈非显著改善,仅由"低"边际升至"可接受";干预对难度分布影响混合不定;区分度在统计上显著降低;但MCQ准确性提高,具功能性干扰项的题目比例上升,且多数科目不及格学生数减少,学生学业表现有所提升。自评核查表可有效改善MCQ心理测量学特性尤其是区分度相关指标及干扰项效能,推荐纳入教师常规命题实践。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号