应用自评核查表(Checklist)提升多选题(Multiple Choice Question, MCQ)质量的准实验研究

《Journal of Taibah University Medical Sciences》：Improving MCQ quality using a self-evaluation checklist: A quasi-experimental study

【字体：大中小】 时间：2026年06月06日 来源：Journal of Taibah University Medical Sciences 1.9

编辑推荐：

　　摘要：编制高质量的多选题（MCQ）对于医学教育中公正有效的评估至关重要。本研究旨在探讨使用标准化自评核查表（Checklist）作为干预工具，以提升基础医学教师编制的MCQ质量（通过项目分析Item Analysis衡量）。研究采用无对照组的自身前后对照准实验

摘要：编制高质量的多选题（MCQ）对于医学教育中公正有效的评估至关重要。本研究旨在探讨使用标准化自评核查表（Checklist）作为干预工具，以提升基础医学教师编制的MCQ质量（通过项目分析Item Analysis衡量）。研究采用无对照组的自身前后对照准实验设计（Quasi-experimental pre–post design），纳入基础医学学科教师参与评估干预前后MCQ质量的变化。研究人员在互动培训会上向教师介绍改编自既往研究的19条标准化自评核查表，要求教师在题目命制后、提交前依据核查表进行自我评估与修正，仅收录经自评的题目进入后测阶段。MCQ质量通过干预前后试卷的项目分析报告进行评估，包括克朗巴赫α系数（Cronbach's α，信度Reliability Index）、难度指数（Difficulty Index, P值）、点二列相关系数（Point–Biserial Correlation, 鉴别/区分指数Discrimination Index）及干扰项效能（Distractor Efficiency），采用卡方检验（Chi?square test）评估统计学显著性。结果显示，使用核查表使试卷整体内部一致性（Cronbach's α）由"低（<0.60）"边缘提升至"可接受（0.6–0.70）"，但差异无统计学意义（p > 0.05）。然而，干预后MCQ的区分度（p = 0.04）及干扰项效能（p = 0.001）均显著改善；含有无效干扰项（Non?functioning Distractors）的题目比例显著下降，表明题目构念质量及其区分高低分学生的能力得到提升。结论：标准化自评核查表是改善MCQ心理测量学特性（Psychometric Properties）——特别是区分度和干扰项效能——的有效工具。建议将此类核查表纳入教师常规命题流程，以保障学业评估质量并减少命题错误。

研究背景与目的

在医学教育（Medical Education）中，多选题（Multiple Choice Question, MCQ / Single Best Answer MCQ）因其高效、客观及可考查高阶思维被广泛用于总结性评估（Summative Assessment）。然而，低质量或存在构题缺陷（Item?writing Flaws）的MCQ会降低考试效度（Validity）与信度（Reliability），增加猜测概率及项目偏差（Item Bias），不当影响学生学业成绩。既往研究指出，教师缺乏正规命题培训是导致MCQ质量欠佳的主因，多数干预聚焦于短期工作坊（Workshop）培训效果。Sadiqa Ayesha与Abid Ashar（Department of Medical Education, College of Physicians and Surgeons Pakistan, CPSP）为探究将标准化自评核查表（Standardized Self?evaluation Checklist）作为持续性干预工具对基础医学教师所命制MCQ心理测量学特性的影响，开展了本准实验研究，论文发表于Journal of Taibah University Medical Sciences。研究假设为：使用预设计的自评核查表能显著提升基础医学教师编制MCQ的项目质量。

研究方法概述

研究人员在巴基斯坦拉合尔联合军事医院医学院暨牙科学院（CMH Lahore Medical College & Institute of Dentistry, CMH LMC & IOD）基础医学部（解剖学Anatomy、生理学Physiology、生物化学Biochemistry、口腔生物学Oral Biology）开展无对照组准实验研究（2023年8月—2024年12月），经伦理委员会批准（No. 624/ERC/CMH/LMC）并获教师书面知情同意。干预前收集各科室初级教师（Lecturer/Senior Lecturer，共8人，每科2人）按常规流程命制并提交教研室主任审核通过的MCQ（前测共381道：解剖55、生理40、生化40、口生40；由同一届牙科一年级BDS学生55–75人实考产生OMR作答数据）；随后由同一名医学教育专业人员对各科室教师分别开展2小时互动培训，详解基于既往文献改编的含19项建议的自评核查表（涵盖题干清晰性、单一最佳答案、Cover Test、避免绝对词/否定词/All of the above、选项同质性/长度/排序、干扰项不重叠等）及MCQ质量参数（Cronbach's α、难度指数P值、点二列相关系数Point?Biserial r_pb、干扰项效能Distractor Efficiency），演示范例并答疑；干预后要求教师命制MCQ时必须先依核查表自评合格方可提交教研室主任，纳入后测（共206道：解剖60、生理56、生化45、口生45；同一学生群体实考）。前后测OMR（Scantron）扫描后经Remark软件生成详细项目分析报告，比较可靠性指数（Cronbach's α：<0.60低，0.60–0.69可接受，0.70–0.80良好，≥0.90优）、难度指数（P<0.3过难，0.3–0.79适中，≥0.8过易）、点二列相关（≤0劣质/负值为缺陷项Defective Item，0.10–0.25差，0.25–0.40可接受/Good，>0.40优/Excellent）及干扰项效能（选择率>5%为功能性干扰项Well?functioning Distractor，≤5%为非功能性Non?functioning Distractor），分类变量采用卡方检验（χ²test），显著性水准α=0.05。

研究结果

Reliability Index（可靠性指数／克朗巴赫α系数）

各科目Cronbach's α均由"低"（0.53–0.60）边际提升至"可接受"（解剖0.58→0.61；生理0.60→0.69；口生0.55→0.62；生化维持0.53），但提升均无统计学意义（p = 0.774、0.284、0.502、1.000）。表明单凭核查表干预短期内不足以使整套试卷达到高信度水平，但趋势向好。

Difficulty Factor Analysis（难度指数分析）

解剖学（p=0.026）、生理学（p=0.005）及口腔生物学（p=0.0007）的难度分布较干预前发生显著变化；生理学科"适中难度（Good & Acceptable, P=0.3–0.79）"题目比例上升（19→35道），"过易"比例下降，显示题目难度分布趋于合理；生化无显著差异（p=0.428）。总体而言干预改善了多数科目的难度层次分布。

Point–Biserial Correlation（点二列相关系数／区分度）

四学科前后测区分度等级分布差异均有统计学显著性（解剖p<0.0001；生理p<0.0001；生化p<0.0001；口生p=0.0002）。需注意：除口生外，其余三科"优良区分（>0.25–0.40及>0.40）"题目占比在后测中下降，"差/缺陷项"占比波动不一。研究人员分析可能原因包括教师工作量压力致偶发关键(Key)标注失误、仅靠核查表不足以保障认知层级匹配等，需辅以蓝图（Blueprint）及同行评审（Peer Review）。

Distractor Efficiency（干扰项效能）

解剖（p=0.000）、生化（p=0.004）及口生（p=0.000）含功能性干扰项（Well?functioning Distractors）的题目比例显著上升（解剖53.57%→80%；生化67.5%→80%；口生40%→86.66%），含非功能性干扰项题目显著减少；生理前后无显著差异但基数已较高（80%→80.35%）。表明核查表对消除"死干扰项（Non?functioning／Unattractive Distractors）"效果明确。

Students' Academic Results（学生学业成绩分布）

四学科成绩等级分布前后差异均显著（均p≤0.0004）。生化、口生及解剖"不及格（<50%）"学生比例下降，"满意（50–59%）"及"良好（60–69%）"比例上升；生理出现"不及格"及"满意"比例上升、"良好/优秀"略降现象，与区分度变化呼应。总体上干预后多数科目不及格率降低。

讨论与结论总结

讨论部分指出，自评核查表作为持续化发展策略较单次工作坊更易促成可持续改进；本研究发现与既往沙特阿拉伯、美国、印度等地类似教师发展项目（Faculty Development Program）结果相仿——干扰项效能及构题缺陷改善明显，但整卷信度提升需长期多轮干预及配套措施（如考核蓝图Table of Specifications、结构化同行评审、充足命题时间）。研究局限性含无真正对照组（存在成熟效应Maturation、测试效应Testing Effect、同期教学变革等混杂）、单中心样本限制外部效度、自评存在社会期许偏倚（Social Desirability Bias）、各学科MCQ数及考生数不完全等同。

结论（译自原文Conclusion）：本研究发现干预后各科MCQ试卷内部一致性呈非显著改善，仅由"低"边际升至"可接受"；干预对难度分布影响混合不定；区分度在统计上显著降低；但MCQ准确性提高，具功能性干扰项的题目比例上升，且多数科目不及格学生数减少，学生学业表现有所提升。自评核查表可有效改善MCQ心理测量学特性尤其是区分度相关指标及干扰项效能，推荐纳入教师常规命题实践。

热点排行