虚拟患者与标准化患者相结合的培训能够让医学生的临床推理能力得到提升

《Frontiers in Medicine》：Virtual patients and standardized patients combined training is associated with improved clinical reasoning among medical students

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Medicine 3.0

编辑推荐：

　　摘要目的：开发一种由人工智能（AI）驱动的虚拟标准化患者（VSPs）系统，并评估其在与传统标准化患者（SPs）训练结合时的教育效果。方法：利用自然语言处理和中文大型语言模型，我们构建了一个基于AI的VSPs应用。北京大学第三医院的80名医学院学生被随机分为两组：实验组

　　摘要
目的：开发一种由人工智能（AI）驱动的虚拟标准化患者（VSPs）系统，并评估其在与传统标准化患者（SPs）训练结合时的教育效果。
方法：利用自然语言处理和中文大型语言模型，我们构建了一个基于AI的VSPs应用。北京大学第三医院的80名医学院学生被随机分为两组：实验组（n = 40，VSPs和SPs结合训练）和对照组（n = 40，传统SPs训练）。为期4周的干预包括临床推理、核心能力、OSCE表现和学习体验等方面的评估。
结果：实验组在临床推理分数（1.3 ± 0.7 vs 0.3 ± 0.5，95% CI: 0.73–1.27，P < 0.01）、核心能力总分数（9.9 ± 4.1 vs 3.8 ± 2.7，95% CI: 4.56–7.64，P < 0.01）以及OSCE表现（11.9 ± 5.2 vs 3.2 ± 5.0，95% CI: 6.43–10.97，P < 0.01）方面均显示出比对照组更显著的提升。这些提升体现在沟通能力、患者护理和内科知识方面。学习者的满意度也更高（4.6 ± 0.5 vs 3.2 ± 0.8，95% CI: 1.10–1.70，P < 0.01）。 subgroup分析显示，基线分数较低的学生受益于这种结合训练的方式更为明显。
结论：VSPs和SPs的结合训练比本研究中仅使用SPs的方法表现更好。

1 引言
标准化患者（SPs）在医学教育中被广泛采用，为技能训练提供了一致性和深度。然而，传统的基于SPs的训练成本高昂、资源密集，并且随着时间的推移常常缺乏可重复性和统一性。最近在虚拟现实（VR）和自然语言处理（NLP）方面的进步促进了虚拟标准化患者（VSPs）的发展，这些虚拟患者能够在多样化的临床场景中提供高一致性、可重复性和可扩展性。然而，现有的VSPs主要侧重于病史采集，而忽视了体格检查解读、诊断推理和治疗计划——这些都是全面临床推理的重要组成部分。大型语言模型（LLMs），如ChatGPT和ChatGLM，展现了强大的语义理解和逻辑推理能力，为医学教育中的智能模拟创造了新的机会。为了解决这些问题，本研究介绍了一种基于AI的VSPs系统。该系统建立在XueYiKu应用之上，这是一个专门为训练和评估临床推理而开发的人工智能驱动数据库。当该系统与SPs练习结合使用时，旨在评估这种混合方法是否比本研究中仅使用SPs的方法具有更好的教育效果。

2 材料与方法
2.1 系统架构
临床推理训练系统由三层组成：数据层、模型层和应用层。
数据层：整合了多种医学知识来源，包括电子病历、教科书、期刊文章、临床指南、临床路径、专家评分数据等。这些资料涵盖了高血压、冠心病、肺炎和糖尿病等常见内科疾病。所有记录都经过了匿名处理、清洗，并根据伦理要求进行了结构标准化。
模型层：基于ChatGLM和LLaMA等大型框架开发，通过微调和提示工程构建了一个能够进行多轮交互、评分和反馈的临床推理评估模型。
应用层：通过XueYiKu App实现，这是一个支持VSPs模块的AI驱动训练平台，具备对话模拟、自动评分和结构化反馈功能。系统采用了服务器-前端分离的设计，并通过API级任务调用来促进模型迭代和部署（见图1）。
**图1** 虚拟标准化患者（VSPs）训练应用界面截图。（A）与虚拟标准化患者的互动对话界面。（B）学生病史采集表现的分析显示，包括结构化评估和诊断反馈。（C）统计面板总结了整体学习频率和具体案例的练习次数。VSPs系统提供了结构化的训练和反馈，以支持学生临床推理技能的发展。

2.2 数据集构建
原始记录经过数据清洗、术语标准化、结构分析和文本完成处理。临床指导教师进一步修订了处理后的文本。应用数据增强技术（包括回译）来创建多轮对话数据集。训练数据集包含病历、对话文本、临床推理分数、参考完成时间和反馈建议。定义并标注了五个评估维度。两位指导教师独立对每个维度进行评分，最终结果取平均值作为最终标注。

2.3 模型设计与训练目标
开发了两个子模型：对话生成模型和评估模型。还构建了用户界面、服务调用和数据库管理模块。这些模块共同构成了一个能够进行多轮交互、多维推理评估和结构化反馈的系统。
对话生成模型基于多轮咨询数据集进行监督微调训练。输入包括病历、之前的对话轮次和学生的当前问题。输出是模拟的患者回答。输出内容由指导教师审查，并通过额外的微调和提示工程进行迭代优化。
评估模型使用带注释的对话数据进行训练，生成五维分数、时间评估和个人化反馈（见表1）。模型性能通过回归指标（如MAE、RMSE和R2）、多标签分类指标（如Macro-F1、AUC和Accuracy@1）以及自然语言生成指标（如ROUGE-L和BLEU-2）进行评估。反馈质量也通过专家审查进行了验证。

2.4 干预设计
参与者从2022年4月招募到2022年12月进行随访。北京大学第三医院的80名内科学生以1:1的比例被随机分配到实验组或对照组，分配顺序由计算机生成。直到招募完成和基线评估完成之前，组别分配情况对参与者和指导教师都是保密的。由于这是在一个真实的教学环境中进行的教育干预，因此无法完全对参与者进行盲法处理；不过，使用了标准化的评分标准和评分细则来减少评估偏差。所有参与者都完成了后续跟踪。实验组（n = 40）接受了VSPs和SPs的结合训练，包括每周的VSPs session和自动评分及反馈，随后是SPs咨询和指导教师的点评。对照组（n = 40）接受了传统的SPs训练，包括每周的SPs咨询和集体反馈。

2.5 评估指标
评估框架同时涵盖了模型性能和教育效果。干预前后的评估包括临床推理测试、核心能力、OSCE考试以及简短的学习者满意度问卷。
临床推理分数使用临床推理评估框架进行评估（6）。该工具在五个维度上共计分配10分：信息收集、问题表述、鉴别诊断、理由阐述和管理计划。临床推理分数由两位受过培训的临床指导教师根据预定义的评分标准独立评分。评分者间的可靠性通过类内相关系数（ICC）进行评估，总临床推理分数的ICC为0.87，表明评分者之间的一致性良好。差异通过讨论解决以确定最终分数。
OSCE表现采用结构化的多站考试进行评估，满分100分。每站考试通常持续10分钟，评估内容包括病史采集、体格检查、推理、技能和沟通。OSCE被国际公认为评估临床能力的黄金标准（8）。OSCE表现由受过培训的考官根据标准评分细则进行评估。评分者间的可靠性通过ICC评估，总OSCE分数的ICC为0.84，表明一致性良好。为提高可靠性，所有站点和两组均采用了相同的评分标准和细则。
核心能力使用改编自ACGME Milestones的24项量表进行评估（9, 10）。该量表涵盖了专业素养、沟通与协作、教学能力、终身学习、知识和技能以及患者护理等方面的内容。该量表显示了出色的构念效度（KMO = 0.968，Bartlett’s test P < 0.01）和可靠性（Cronbach’s α = 0.964）。
学生满意度通过为本研究专门设计的简短3项干预后问卷进行评估。所有80名学生都完成了问卷调查。问卷项目涵盖了总体满意度、反馈的及时性和反馈的针对性，采用5点李克特量表进行衡量。问卷项目在使用前经过临床教育专家的清晰性和相关性审查。当前样本的内部一致性可靠性良好，Cronbach’s α为0.81。由于这是一个特定于研究的简短工具，而不是先前建立的经过验证的量表，因此对满意度结果需谨慎解读。

2.6 样本量估计
本研究采用优效性设计，以临床推理分数为主要终点。预试研究表明标准差约为1.5分。假设效应量为中等（Cohen’s d = 0.5），α = 0.05（双侧），功效为80%，每组所需样本量估计为34-36人。因此，最终每组招募40人是合适的。

2.7 统计分析
所有分析均使用SPSS 25.0和Python 3.9（SciPy）进行。连续变量表示为均值 ± 标准差，分类变量表示为频率和百分比。当满足正态性要求时，使用独立样本t检验进行组间比较；对于非正态或有序变量（如李克特量表项），适当时使用Mann–Whitney U检验。使用Shapiro–Wilk检验、Q–Q图和偏度/峰度指数来检查正态性。每组40名参与者使得主要连续变量近似服从正态分布。在组间比较前评估了方差同质性。效应量以Cohen’s d表示，并结合统计显著性进行解读。除了P值外，还计算并报告了组间差异的95%置信区间（CIs）。指导教师评分结果的评分者间可靠性通过ICC进行评估。对于亚组或维度级别的分析未进行正式的多重比较调整；因此，这些发现应被视为探索性和假设生成的。

2.8 伦理声明
本研究获得了北京大学第三医院伦理委员会（No. IRB00006761-M2022063）的批准。所有参与者均提供了书面知情同意书。数据经过匿名处理，符合医学教育研究的伦理要求。

3 结果
3.1 系统的内部技术验证
本节旨在证明该系统支持教育干预的技术可行性，并非作为主要研究结果。这项研究主要作为内部可靠性检查，并非主要的组间比较的一部分。结果显示，本研究中开发的多任务模型在对话生成、结构化评分准确性和反馈质量方面表现良好。对话系统每轮生成响应的时间约为0.8秒，符合教学系统的实时要求。生成响应的质量得到了临床指导教师的认可。在五个维度上的结构化评分准确率超过了90%，F1分数始终高于0.87，表明评分精度很高。为了进一步验证系统的相对优势，还比较了主流模型，如GPT-3.5、ChatGLM、Baichuan和LLaMA2。在测试的模型中，ChatGLM在评分准确性、结构识别和响应效率方面表现相对均衡。Baichuan在文本生成的naturalness（自然性）方面略胜一筹，但在结构识别方面较弱。

3.2 组合培训的教育效果
基线时，实验组和对照组之间没有显著差异（P > 0.05）。干预后，实验组在临床推理得分（1.3 ± 0.7 vs. 0.3 ± 0.5，95% CI: 0.73–1.27，P < 0.01）、核心竞争力得分（9.9 ± 4.1 vs. 3.8 ± 2.7，95% CI: 4.56–7.64，P < 0.01）和OSCE表现（11.9 ± 5.2 vs. 3.2 ± 5.0，95% CI: 6.43–10.97，P < 0.01）方面都有显著提高（表2）。评分者间的一致性对于总临床推理得分（ICC = 0.87）和总OSCE得分（ICC = 0.84）来说都很好。
表2 指标实验组前测实验组后测 Δ 实验组对照组前测对照组后测 Δ 对照组改变差异（95% CI）P值
* 临床推理得分 5.9 ± 1.3 7.2 ± 1.0 1.3 ± 0.7 5.8 ± 1.2 6.1 ± 1.1 0.3 ± 0.5 0.73–1.27 < 0.01
* 核心能力总得分 72.1 ± 6.8 82.0 ± 5.6 9.9 ± 4.1 72.3 ± 7.1 6.1 ± 6.2 3.8 ± 2.7 4.56–7.64 < 0.01
* 专业素养 3.8 ± 0.6 4.3 ± 0.5 0.5 ± 0.4 3.9 ± 0.6 4.1 ± 0.5 0.2 ± 0.1 0.17–0.43 0.02
* 沟通与合作 3.6 ± 0.7 4.4 ± 0.5 0.8 ± 0.4 3.7 ± 0.6 4.0 ± 0.6 0.3 ± 0.1 0.37–0.63 < 0.01
* 教学能力 3.4 ± 0.5 3.8 ± 0.5 0.4 ± 0.3 3.5 ± 0.6 3.7 ± 0.6 0.2 ± 0.1 0.10–0.30 0.08
* 终身学习 3.5 ± 0.6 3.9 ± 0.5 0.4 ± 0.3 3.6 ± 0.6 3.8 ± 0.6 0.2 ± 0.1 0.10–0.30 0.07
* 内科知识和技能 3.7 ± 0.7 4.5 ± 0.5 0.8 ± 0.4 3.8 ± 0.6 4.1 ± 0.5 0.3 ± 0.1 0.37–0.63 < 0.01
* 患者护理 3.6 ± 0.6 4.4 ± 0.5 0.8 ± 0.4 3.7 ± 0.6 4.0 ± 0.5 0.3 ± 0.1 0.37–0.63 < 0.01
* OSCE得分 71.2 ± 7.3 83.1 ± 6.1 11.9 ± 5.2 71.0 ± 7.4 74.2 ± 6.9 3.2 ± 5.0 6.43–10.97 < 0.01

组间比较显示，在核心能力维度中，沟通与合作（0.8 ± 0.4 vs. 0.3 ± 0.1，95% CI: 0.37–0.63，P < 0.01）和患者护理（0.8 ± 0.4 vs. 0.3 ± 0.1，95% CI: 0.37–0.63，P < 0.01）的提升最为显著。专业素养和内科知识和技能也有适度提高（P < 0.05）。相比之下，教学能力和终身学习的提升虽然明显，但没有达到统计显著性（P > 0.05）。实验组的平均每周练习次数（4.9 ± 1.3次）和每次练习时长（28.4 ± 6.5分钟）均高于对照组（仅包含线下SP培训的组），且每次修订平均使临床推理得分提高0.45 ± 0.18分，而对照组仅为0.12 ± 0.02分。此外，实验组在反馈及时性和反馈具体性方面的表现也优于对照组。

3.3 学生和教师的反馈
调查结果显示，92%的学生认为模型的反馈有助于澄清诊断推理；87%的学生认为系统的建议比线下反馈更及时、更具体；81%的学生表示该系统适用于课后重复练习，并可以替代部分传统评分任务。学习者报告的满意度问卷在本样本中具有可接受的内部一致性（Cronbach’s α = 0.81）。实验组在反馈及时性和反馈具体性方面也优于对照组。然而，一些学生建议对AI反馈进行改进，指出其内容有时缺乏临床细节，并在AI评分与教师评分不一致时会导致学生困惑，降低他们的信心。教师反馈表明，该系统将手动评分所需时间从每例约15.0 ± 2.1分钟缩短至7.0 ± 1.2分钟，减少了大约53%的工作量。尽管如此，教师强调AI在理解复杂患者病史方面仍不如人类专家，因此在关键步骤中仍需要教师的监督。

4 讨论
研究结果表明，结合虚拟模拟医生（VSPs）和实际模拟医生（SPs）的培训模型与仅使用SPs的培训方法相比，能够带来更好的教育成果。结果显示，这种综合方法显著提高了学生的临床推理得分和病史记录能力，并有助于学生将这些能力应用到如OSCE这样的客观考试中。该模型的优势在于其互补性：VSPs提供了真实的临床互动和沟通场景，而AI系统的引入则提供了高频练习和即时反馈，弥补了SPs在个性化和重复性方面的不足。从教育角度来看，基线得分较低的学生受益更多，这表明该模型有助于缩小学生之间的性能差距，从而促进教育公平。同时，AI系统的自动评分功能减轻了教师的工作负担，使教师能够更专注于高阶推理和个性化指导，从而优化教学资源的利用。

4.1 技术性能和系统优势
本研究开发的基于深度学习的培训系统展示了教育价值和技术优势。该模型在评分准确性、结构维度识别和文本反馈生成方面表现优异。自动评分与专家评分之间的一致性凸显了可靠自动化评估的潜力。干预结果进一步表明，接受综合培训的学生在临床推理方面的提升优于仅接受SPs培训的学生，这表明综合培训方法可能有助于提高学生的推理结构和逻辑表达能力。先前的研究也支持了大语言模型在医学教育中的潜力。例如，Schaye等人开发了一个LLM模型来评估电子健康记录中的临床推理记录，其结果与专家评分高度一致，证实了AI辅助评估的可行性。Cianciolo等人同样表明，机器评分可以作为教师评估的有用补充。

4.2 教育价值和学习成果
进一步分析表明，综合培训方法中的结构化反馈和修订流程可能有助于提高学生的学习成果。这种诊断、评分、反馈和修订的闭环机制增强了培训频率、学生的参与度以及识别和修正推理漏洞的能力。除了临床推理得分外，实验组在核心能力方面也取得了显著进步，特别是在沟通、患者护理和知识技能方面。这些发现扩展了AI系统在教育中的应用范围，从认知推理延伸到实际能力。总体而言，模型比较和反馈分析的结果证实了该系统的技术稳健性和教育实用性。它可以作为标准教学评估工具的一部分，特别是在资源有限或需要大规模培训的机构中。然而，该系统在处理复杂患者病史、模糊表达或情感细微差别时仍存在局限性。

4.3 适用性和教育意义
subgroup分析显示，基线得分较低的学生（< 6分）的提升更为显著，表明该系统对表现较弱的学生特别有益，有助于促进教育公平。基线得分较高的学生也有所提高，但幅度较小。这表明未来的系统开发应包含分层反馈模块，以提供个性化的学习路径。尽管如此，仍存在学生对AI过度依赖的担忧，这可能会削弱他们的独立推理能力和对不确定性的容忍度。另外，一些教师表示，过度依赖AI和即时反馈可能会降低学生对不确定性的承受能力以及独立推理能力。

4.4 结构化临床推理建模的适用性
该系统将五个核心维度纳入了结构化的标签框架中。结果显示，该模型有效识别了学生推理过程中的缺失元素。这种结构化方法帮助学生发现并纠正推理中的“盲点”，提高了其诊断逻辑的完整性和连贯性。先前的研究也强调了结构化标签的重要性，特别是前提、证据、结论和管理计划之间的逻辑联系，这些对于确保推理质量至关重要。通过从简单评分转向结构化反馈，该系统提供了更具指导性的教育指导，尽管其在处理隐性推理和跨学科知识整合方面的能力仍需改进。

4.5 个体差异和教育意义
subgroup分析显示，基线得分较低的学生（< 6分）的提升更为显著，表明该系统对较弱的学生特别有益。基线得分较高的学生也有提升，但幅度较小。这表明未来的系统开发应包括分层反馈模块，以提供个性化的学习路径。然而，学生对AI的过度依赖可能会削弱他们的独立推理能力和对不确定性的容忍度。值得注意的是，“教学能力”和“终身学习”维度虽有所提升，但未达到统计显著性。这可能是由于干预期较短，以及系统主要侧重于诊断逻辑和沟通技能。未来的改进可以包括教学示范模块、学习轨迹跟踪和跨学科任务场景，以促进终身学习意识。OSCE在实验组的成绩有所提高，特别是在病史采集和理由陈述方面，这表明综合干预可能有助于学生在客观考试环境中应用相关技能。先前的研究支持这种迁移效应，表明基于AI的虚拟模拟实践（VSPs）能够产生与传统模拟实践（SPs）相当甚至更优的学习成果，凸显了它们在大规模医学教育中的潜力（18）。4.6 教师工作量和未来前景教师反馈显示，该系统减少了评分时间，使工作量降低了超过一半。这种人机协作模式让教师能够专注于引导高阶思维，同时将常规评分任务委托给AI，从而提高了效率和资源利用率。先前的研究表明，混合式AI-人类评估系统可以同时实现效率和可靠性，为医学教育提供了新的解决方案（19-21）。本研究开发的基于深度学习的培训系统可能改善短期教育成果，并可作为基于SPs培训的有用补充，在教学应用中具有广阔前景。建议医学教育机构考虑将这些系统纳入标准课程中，尤其是在疫情期间进行在线培训的情况下。不过，教师强调AI应作为一种辅助工具，而不是完全替代人工评估，以避免削弱教师在培养临床思维方面的重要作用（22）。4.7 限制和未来方向需要注意几个限制：首先，干预组比对照组有更多的练习机会和反馈，这可能是观察到的差异的原因之一；其次，这是一项单中心研究，样本量适中，而且在这种教育环境中很难实现完全盲法；第三，满意度结果是基于一个简短的研究特定自填问卷，而非经过验证的量表，因此可能受到响应偏差或霍桑效应的影响；第四，子组分析和维度分析是探索性的，没有进行多重比较调整，这可能增加I型错误的风险；最后，AI生成的反馈可能包含过度标准化的内容或偶尔的不准确性，并且缺乏长期跟踪数据。因此，本研究应被理解为支持所使用的综合培训包的有效性，而不是单独突出VSPs组分的效应。未来的研究应涉及多中心、多队列研究，以验证系统的适应性，并探索分层反馈、个性化培训以及长期跟踪，从而提升AI辅助系统的教育价值。5 结论本研究表明，结合使用基于AI的VSPs和SPs的培训方式比仅使用SPs的培训方法在短期内取得了更好的教育成果。

热点排行