大型语言模型在日本公共卫生护士国家考试中的表现评估:潜力、局限与对专科护理教育的启示

《JMIR Nursing》:Performance of Large Language Models in the Japanese Public Health Nurse National Examination: Comparative Cross-Sectional Study

【字体: 时间:2026年02月23日 来源:JMIR Nursing 4

编辑推荐:

  为解决评估LLM在需要社区健康与公共卫生护理实践专业知识的特定领域考试中表现的研究空白,研究人员对GPT-4o、Claude Opus 4和Gemini 2.5 Pro在日本第111届公共卫生护士国家考试中的表现进行了比较研究。结果显示,所有模型准确率均远超及格线(60%),但在多选题上表现显著下降。该研究揭示了LLM作为公共卫生护理教育支持工具的潜力及其在复杂推理任务中的局限性,为AI在专科护理教育中的谨慎应用提供了依据。

  
随着人工智能的迅猛发展,大型语言模型(LLM)已在医疗、法律等多个专业领域展现出通过标准化考试的潜力。然而,这些评估大多集中在临床医学领域。公共卫生护理作为一个融合了医学知识、社会健康决定因素、公共政策与社区系统理解的综合性学科,其对复杂推理和多重因素整合的要求,对现有的LLM构成了独特挑战。在此之前,尚未有研究系统评估多个LLM在日本公共卫生护士国家考试这一特定专业资格考试中的表现。为了填补这一空白,并探究AI在公共卫生护理教育中应用的可行性,来自日本金泽大学健康科学学院的研究者Yutaro Takahashi、Ryota Kumakura、Rie Okamoto和Shizuko Omote开展了一项研究。
研究者选取了三个具有代表性的前沿LLM:OpenAI的GPT-4o、Anthropic的Claude Opus 4和Google的Gemini 2.5 Pro作为评测对象。研究采用了普查抽样的方法,将2025年2月举行的日本第111届公共卫生护士国家考试的全部110道题目作为评估材料。为了确保评测的公平性与可重复性,研究者根据题目类型(如普通题、情景题、含图题、计算题等)设计了六套标准化的提示词模板。所有问题均以日语输入至各模型的独立聊天窗口,以避免上下文干扰。模型的回答由两名研究者根据日本厚生劳动省公布的官方答案独立评分。
结果
  • 整体表现优异,全部模型通过考试:所有被评估的LLM在考试中的整体准确率均显著超过了60%的及格标准。具体而言,GPT-4o答对了110题中的94题,准确率为85.5%;Claude Opus 4答对101题,准确率为91.8%;Gemini 2.5 Pro表现最佳,答对102题,准确率达到92.7%。模型之间的表现无统计学显著差异。
  • 不同类型题目表现分析
    • 在按题目内容(普通题与情景题)和题目格式(纯文本题与含图或计算题)的分类比较中,所有模型的准确率均保持在高位,且模型间无显著差异。例如,对于含图或计算题,Gemini 2.5 Pro取得了100%的准确率。
    • 在按选择类型的分类中,出现了关键差异。所有模型在单选题上表现优异,准确率介于89.1%至94.6%之间。然而,在面对多选题时,所有模型的准确率均出现明显下降:GPT-4o降至62.5%,Claude Opus 4降至75%,Gemini 2.5 Pro降至81.3%。统计分析显示,GPT-4o和Claude Opus 4模型内部,多选题与单选题的准确率存在统计学显著差异。
结论与讨论
本研究首次系统评估了多个LLM在日本公共卫生护士国家考试中的表现。核心结论是:LLM在该项专业考试中展现出了令人印象深刻的高知识掌握水平,所有模型都能轻松通过考试,这证实了它们作为公共卫生护理教育辅助工具的潜力,例如用于基础知识确认和信息整理。然而,研究也清晰地揭示了当前LLM的一个关键局限:它们在需要同时考量多个因素、进行复杂推理的多选题上表现显著下滑。这一发现至关重要,因为公共卫生护理实践恰恰要求从业者综合评估地区特征、居民需求、社会资源等多重变量以做出判断。
研究者将这一发现置于更广阔的医学教育研究背景中讨论。尽管LLM在笔试中可能媲美甚至超越部分学生个体,但已有研究表明,在需要图像解读、临床推理或集体判断的场景中,人类(尤其是学生群体)的表现仍远胜AI。这强调了LLM应被定位为学习的补充与支持工具,而非人类公共卫生护士的替代品。
文章进一步探讨了将LLM整合进公共卫生护理教育课程所面临的机遇与挑战。在机遇方面,LLM可用于支持学生进行社区健康问题信息收集、评估等学习环节。在挑战方面,必须重视多个伦理考量,包括过度依赖AI可能阻碍深度学习、付费与免费版本可能造成教育不公平、以及隐私泄露风险等。调查显示,许多医学生对于使用LLM完成课业持谨慎甚至负面态度,认为验证AI回答所需时间可能不亚于独立学习,这凸显了培养学生对LLM输出进行批判性评估能力的极端重要性。
此外,研究指出了在实际推广中面临的系统性挑战,例如许多在职公共卫生护士对促进信息通信技术(ICT)使用的流程不了解,医疗机构在推进数字化时也遇到阻力。因此,需要在护生培养阶段就开展系统的数字素养教育,并为教师提供关于如何恰当使用LLM的培训。
综上所述,这项研究为AI在专科护理教育中的应用提供了重要的实证基础。它表明,尽管LLM在专业知识考核上表现卓越,但其在复杂情境判断上存在不足。未来,公共卫生护理教育者在引入LLM时,必须谨慎设计使用场景,明确其辅助定位,着重培养学生的批判性思维和实践判断力,并建立相应的伦理规范与支持体系,以确保技术应用真正服务于提升护理教育质量与促进社区健康的核心目标。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号