《Oral and Maxillofacial Surgery》:Large language model use in oral and maxillofacial surgery training: a national resident survey
编辑推荐:
本研究探讨了在人工智能(AI)快速融入医疗领域的背景下,大语言模型(LLMs)如何影响口腔颌面外科(OMFS)住院医师的培训。研究人员针对美国OMFS住院医师展开了一项全国性的匿名横断面调查,旨在了解其LLM的使用趋势、感知价值及教育整合现状。结果显示,高达79.0%的受访者使用过LLM,其中绝大多数(96.9%)使用ChatGPT,约半数(51.9%)至少每月使用一次,但近所有(97.5%)均未接受过正式培训。住院医师主要将LLM用于临床决策支持、执照考试准备、研究和职业规划。研究揭示了OMFS住院医师对LLM广泛而多样的使用现状,强调了对负责任和有效使用的培训需求,研究结果为未来将AI纳入外科培训的课程开发提供了重要依据。
想象一下,一位年轻的医生正在为一项复杂的口腔颌面部手术方案做准备,或者在深夜为即将到来的专业执照考试苦苦复习,又或者试图撰写一篇高质量的研究论文,却感到无从下笔。现在,他们或许会转向一个特殊的“智能助手”——大语言模型(Large Language Models, LLMs),比如我们熟知的ChatGPT。这些能理解和生成类人文本的先进人工智能(AI)工具,正迅速渗透到医疗教育、临床诊疗和科研的方方面面。研究表明,它们在内科、放射科和整形外科等住院医师培训中已展现出作为教学助理、辅助临床报告和生成个性化学习材料的潜力。然而,在技术门槛高、专业性强且涉及复杂手术决策的口腔颌面外科(Oral and Maxillofacial Surgery, OMFS)领域,情况究竟如何?那里的未来医生们是如何看待和使用这些AI工具的?他们的使用是否得到了正规指导?学术界对此几乎一无所知。这正是《Oral and Maxillofacial Surgery》期刊上最新发表的一项研究试图回答的核心问题。
该研究的核心假设是:OMFS住院医师正在积极地将LLM用于多种教育、临床和科研目的,并且随着AI在OMFS领域的热度飙升,其使用率很可能持续增长。为了验证这一假设,并填补该领域的研究空白,研究团队设计并开展了一项全国性的调研。研究结果表明,尽管LLM在OMFS住院医师中已相当普及且用途广泛,但正式的培训指导却极度缺乏,这凸显了未来课程开发的紧迫性。同时,住院医师们对LLM在学术写作等领域的伦理性看法存在显著分歧,这提示了建立明确使用指南的必要性。
为了系统探究上述问题,研究人员采用了以下几项关键技术方法:首先,通过全国性的匿名横断面调查,这是本研究收集数据的核心手段。他们设计了一份包含16个问题的结构化问卷,涵盖了人口统计学信息、LLM使用模式、应用场景、感知到的局限性以及对将LLM纳入正式教育的态度,并通过REDCap这一安全在线数据采集工具创建。其次,在调查分发与样本获取环节,研究人员将调查链接通过电子邮件发送给美国所有的OMFS住院医师项目主任,并请他们转发给其名下的住院医师,以此方式触达全美约1200名在职的OMFS住院医师,最终获得了81份有效回复。最后,在数据分析阶段,研究人员将收集到的数据从REDCap导出至安全的Google电子表格,并使用GraphPad Prism 10.5.0软件进行数据制表与分析,以确保结果的可信度。
研究结果
人口统计学特征
共有约6.8%(81/约1200)的美国OMFS住院医师回复了调查。男性参与者(66.7%)约为女性的2.3倍。来自4年制项目(56.8%)的回复略多于6年制项目(43.2%)。回复率随住院医师年级(Post-Graduate Year, PGY)升高而递减。值得注意的是,尽管仅有2名受访者拥有计算机科学背景,但79.0%(64/81)的参与者报告曾使用过LLM。在使用者中,近所有(96.9%, 62/64)使用的是ChatGPT。有17名参与者表示在住院医师培训期间从未使用过LLM。
使用频率与用途
约半数(51.9%, 42/81)的受访者报告至少每月使用一次LLM。然而,与之形成鲜明对比的是,高达97.5%(79/81)的受访者表示在培训期间未接受过任何关于使用LLM的正式教育或指导。住院医师使用LLM的原因多种多样,包括临床决策支持、执照考试准备、研究和职业规划。其中,最常见的用途是用于自学和/或讲座准备(38.3%, 31/81)。此外,分别有9.9%(8/81)和7.4%(6/81)的参与者报告将LLM用于职业相关问题/规划及临床情境。
观点与伦理考量
在使用过LLM的受访者中,48.1%(39/81)的人同意或非常同意LLM对OMFS概念的解释通常是准确的。大多数受访者认为使用LLM来解释OMFS主题(76.5%, 62/81)以及撰写简历和求职信(79.0%, 64/81)是合乎伦理的。相比之下,关于在学术手稿撰写中使用LLM的伦理观点则存在分歧:50.6%(41/81)认为这是合乎伦理的,而49.4%(40/81)则表示不同意或非常不同意。开放性问题进一步揭示了多样化的观点。一些受访者积极倡导将LLM整合到教育课程和患者教育中,认为其有助于形成鉴别诊断、总结大量信息或快速获取各种医学主题的简明信息。另一些受访者则对LLM提供临床和外科信息的准确性表示质疑,并质疑是否需要正式教学。还有受访者展望了未来系统生成临床记录和标准化患者解释的前景。
结论与讨论
这项横断面研究为了解美国OMFS住院医师如何看待并在培训中使用LLM提供了基础性见解。研究发现,LLM在该群体中已得到高频且多样化的使用,主要平台是ChatGPT,最常见的用途是辅助自学。这一现象在低年级住院医师中尤为突出,可能与初期繁重的理论学习和美国医师执照考试(United States Medical Licensing Examination, USMLE)Step 1备考压力有关。
研究揭示了一个关键矛盾:一方面,超过一半的受访者每月至少使用一次LLM,这一比例甚至高于之前一项针对内科住院医师的类似研究(26%);另一方面,几乎所有人都没有接受过任何正式指导。这种“高使用率”与“零培训”的现状,反映了当前OMFS住院医师培训体系中对于新兴AI工具整合的滞后。这种情况可能源于项目资源分配、以及部分资深口腔颌面外科带教教师对LLM的接受度有限。此外,研究还呼应了先前关于OMFS住院医师研究培训不足的调查,表明他们可能普遍缺乏包括LLM在内的、能有效辅助研究的工具。
在伦理层面,研究结果呈现了复杂性。尽管多数受访者认可LLM在解释概念和辅助职业文书写作方面的伦理性,但仍有相当一部分人(约21%)持反对意见。对于学术写作,支持与反对者几乎各占一半,反映了学界对这一问题的中立或观望态度。开放评论中提及的准确性、可靠性、偏见以及缺乏学术认可等担忧,与更广泛的医学教育领域中对LLM的质疑相符。这突显了在医学和外科教育中,为确保LLM合乎伦理且有效地使用,迫切需要制定全面的指南和框架。
当然,本研究也存在局限性。6.8%的回复率相对较低,这与OMFS住院医师繁重的临床工作负担、有限的可支配时间以及普遍面临的调查疲劳有关,是此类全国性电子调查面临的普遍挑战。此外,自我报告数据可能存在社会期望偏倚。
总而言之,这项研究标志着向理解LLM在专科外科住院医师教育中角色迈出了重要一步。它清晰地描绘了当前的使用图景、感知到的益处以及采用的障碍。随着人工智能不断融入医疗保健教育,这项研究为未来制定循证建议、将LLM整合到OMFS教育中提供了关键信息。通过审慎的整合,这些工具有望增强临床推理能力、优化学术工作流程,并最终提升住院医师的整体学习体验。未来的工作应探索关于LLM使用的结构化培训,并建立最佳实践,以确保其在外科教育中得到负责任和有效的部署。