口腔颌面外科住院医师培训中大语言模型应用现状：一项美国全国性住院医师调研

《Oral and Maxillofacial Surgery》：Large language model use in oral and maxillofacial surgery training: a national resident survey

【字体：大中小】 时间：2026年02月22日 来源：Oral and Maxillofacial Surgery 1.7

编辑推荐：

　　本研究探讨了在人工智能（AI）快速融入医疗领域的背景下，大语言模型（LLMs）如何影响口腔颌面外科（OMFS）住院医师的培训。研究人员针对美国OMFS住院医师展开了一项全国性的匿名横断面调查，旨在了解其LLM的使用趋势、感知价值及教育整合现状。结果显示，高达79.0%的受访者使用过LLM，其中绝大多数（96.9%）使用ChatGPT，约半数（51.9%）至少每月使用一次，但近所有（97.5%）均未接受过正式培训。住院医师主要将LLM用于临床决策支持、执照考试准备、研究和职业规划。研究揭示了OMFS住院医师对LLM广泛而多样的使用现状，强调了对负责任和有效使用的培训需求，研究结果为未来将AI纳入外科培训的课程开发提供了重要依据。

想象一下，一位年轻的医生正在为一项复杂的口腔颌面部手术方案做准备，或者在深夜为即将到来的专业执照考试苦苦复习，又或者试图撰写一篇高质量的研究论文，却感到无从下笔。现在，他们或许会转向一个特殊的“智能助手”——大语言模型（Large Language Models, LLMs），比如我们熟知的ChatGPT。这些能理解和生成类人文本的先进人工智能（AI）工具，正迅速渗透到医疗教育、临床诊疗和科研的方方面面。研究表明，它们在内科、放射科和整形外科等住院医师培训中已展现出作为教学助理、辅助临床报告和生成个性化学习材料的潜力。然而，在技术门槛高、专业性强且涉及复杂手术决策的口腔颌面外科（Oral and Maxillofacial Surgery, OMFS）领域，情况究竟如何？那里的未来医生们是如何看待和使用这些AI工具的？他们的使用是否得到了正规指导？学术界对此几乎一无所知。这正是《Oral and Maxillofacial Surgery》期刊上最新发表的一项研究试图回答的核心问题。

该研究的核心假设是：OMFS住院医师正在积极地将LLM用于多种教育、临床和科研目的，并且随着AI在OMFS领域的热度飙升，其使用率很可能持续增长。为了验证这一假设，并填补该领域的研究空白，研究团队设计并开展了一项全国性的调研。研究结果表明，尽管LLM在OMFS住院医师中已相当普及且用途广泛，但正式的培训指导却极度缺乏，这凸显了未来课程开发的紧迫性。同时，住院医师们对LLM在学术写作等领域的伦理性看法存在显著分歧，这提示了建立明确使用指南的必要性。

为了系统探究上述问题，研究人员采用了以下几项关键技术方法：首先，通过全国性的匿名横断面调查，这是本研究收集数据的核心手段。他们设计了一份包含16个问题的结构化问卷，涵盖了人口统计学信息、LLM使用模式、应用场景、感知到的局限性以及对将LLM纳入正式教育的态度，并通过REDCap这一安全在线数据采集工具创建。其次，在调查分发与样本获取环节，研究人员将调查链接通过电子邮件发送给美国所有的OMFS住院医师项目主任，并请他们转发给其名下的住院医师，以此方式触达全美约1200名在职的OMFS住院医师，最终获得了81份有效回复。最后，在数据分析阶段，研究人员将收集到的数据从REDCap导出至安全的Google电子表格，并使用GraphPad Prism 10.5.0软件进行数据制表与分析，以确保结果的可信度。

研究结果

人口统计学特征

共有约6.8%（81/约1200）的美国OMFS住院医师回复了调查。男性参与者（66.7%）约为女性的2.3倍。来自4年制项目（56.8%）的回复略多于6年制项目（43.2%）。回复率随住院医师年级（Post-Graduate Year, PGY）升高而递减。值得注意的是，尽管仅有2名受访者拥有计算机科学背景，但79.0%（64/81）的参与者报告曾使用过LLM。在使用者中，近所有（96.9%， 62/64）使用的是ChatGPT。有17名参与者表示在住院医师培训期间从未使用过LLM。

使用频率与用途

约半数（51.9%， 42/81）的受访者报告至少每月使用一次LLM。然而，与之形成鲜明对比的是，高达97.5%（79/81）的受访者表示在培训期间未接受过任何关于使用LLM的正式教育或指导。住院医师使用LLM的原因多种多样，包括临床决策支持、执照考试准备、研究和职业规划。其中，最常见的用途是用于自学和/或讲座准备（38.3%， 31/81）。此外，分别有9.9%（8/81）和7.4%（6/81）的参与者报告将LLM用于职业相关问题/规划及临床情境。

观点与伦理考量

在使用过LLM的受访者中，48.1%（39/81）的人同意或非常同意LLM对OMFS概念的解释通常是准确的。大多数受访者认为使用LLM来解释OMFS主题（76.5%， 62/81）以及撰写简历和求职信（79.0%， 64/81）是合乎伦理的。相比之下，关于在学术手稿撰写中使用LLM的伦理观点则存在分歧：50.6%（41/81）认为这是合乎伦理的，而49.4%（40/81）则表示不同意或非常不同意。开放性问题进一步揭示了多样化的观点。一些受访者积极倡导将LLM整合到教育课程和患者教育中，认为其有助于形成鉴别诊断、总结大量信息或快速获取各种医学主题的简明信息。另一些受访者则对LLM提供临床和外科信息的准确性表示质疑，并质疑是否需要正式教学。还有受访者展望了未来系统生成临床记录和标准化患者解释的前景。

结论与讨论

这项横断面研究为了解美国OMFS住院医师如何看待并在培训中使用LLM提供了基础性见解。研究发现，LLM在该群体中已得到高频且多样化的使用，主要平台是ChatGPT，最常见的用途是辅助自学。这一现象在低年级住院医师中尤为突出，可能与初期繁重的理论学习和美国医师执照考试（United States Medical Licensing Examination, USMLE）Step 1备考压力有关。

研究揭示了一个关键矛盾：一方面，超过一半的受访者每月至少使用一次LLM，这一比例甚至高于之前一项针对内科住院医师的类似研究（26%）；另一方面，几乎所有人都没有接受过任何正式指导。这种“高使用率”与“零培训”的现状，反映了当前OMFS住院医师培训体系中对于新兴AI工具整合的滞后。这种情况可能源于项目资源分配、以及部分资深口腔颌面外科带教教师对LLM的接受度有限。此外，研究还呼应了先前关于OMFS住院医师研究培训不足的调查，表明他们可能普遍缺乏包括LLM在内的、能有效辅助研究的工具。

在伦理层面，研究结果呈现了复杂性。尽管多数受访者认可LLM在解释概念和辅助职业文书写作方面的伦理性，但仍有相当一部分人（约21%）持反对意见。对于学术写作，支持与反对者几乎各占一半，反映了学界对这一问题的中立或观望态度。开放评论中提及的准确性、可靠性、偏见以及缺乏学术认可等担忧，与更广泛的医学教育领域中对LLM的质疑相符。这突显了在医学和外科教育中，为确保LLM合乎伦理且有效地使用，迫切需要制定全面的指南和框架。

当然，本研究也存在局限性。6.8%的回复率相对较低，这与OMFS住院医师繁重的临床工作负担、有限的可支配时间以及普遍面临的调查疲劳有关，是此类全国性电子调查面临的普遍挑战。此外，自我报告数据可能存在社会期望偏倚。

总而言之，这项研究标志着向理解LLM在专科外科住院医师教育中角色迈出了重要一步。它清晰地描绘了当前的使用图景、感知到的益处以及采用的障碍。随着人工智能不断融入医疗保健教育，这项研究为未来制定循证建议、将LLM整合到OMFS教育中提供了关键信息。通过审慎的整合，这些工具有望增强临床推理能力、优化学术工作流程，并最终提升住院医师的整体学习体验。未来的工作应探索关于LLM使用的结构化培训，并建立最佳实践，以确保其在外科教育中得到负责任和有效的部署。

热点排行

新闻专题