《Journal of Clinical Neuroscience》:Ai-generated personalized informed consent for elective spinal surgery: a comparative study using retrieval-augmented generation
编辑推荐:
阿里·卡普兰(Ali Kaplan)|贝古姆·阿斯拉恩塔什·卡普兰(Begüm Aslanta? Kaplan)|阿里·阿伊迪莱克(Ali Aydilek)|伊尔克尔·索尔马兹(?lker Solmaz)|萨利姆· ?entürk(Salim ?entürk)
土耳其托卡特埃尔巴
阿里·卡普兰(Ali Kaplan)|贝古姆·阿斯拉恩塔什·卡普兰(Begüm Aslanta? Kaplan)|阿里·阿伊迪莱克(Ali Aydilek)|伊尔克尔·索尔马兹(?lker Solmaz)|萨利姆· ?entürk(Salim ?entürk)
土耳其托卡特埃尔巴州立医院(Tokat Erbaa State Hospital)神经外科部门
摘要
背景
在脊柱外科手术中,知情同意(IC)文件常常缺乏针对具体手术的风险数据、定量并发症发生率以及对替代治疗的讨论。这些缺陷会妨碍患者理解手术内容,成为医疗事故诉讼的主要原因之一,特别是在脊柱外科手术索赔中,未能获得充分同意是最常见的指控之一。大型语言模型(LLM)在生成易读的同意书方面显示出潜力,但它们的输出可能包含不准确的信息。基于检索的增强生成(RAG)方法可以将模型输出与用户定义的知识库相结合,从而克服这一限制,但目前尚未应用于知情同意文件的生成。本研究旨在为选择性脊柱外科手术生成基于RAG的个性化知情同意文件,并将其质量与标准同意书进行比较。
方法
对照组使用的是从国家神经外科协会获得的八种脊柱手术的标准同意书。研究组使用NotebookLM生成了相同手术的同意书,该平台基于用户定义的来源并自动引用相关文献。采取的三种策略确保了文件的内容基于证据、个性化且易于阅读:(1)结合北美脊柱协会指南和从PubMed检索的特定手术文献的知识库;(2)为每种手术设计三种患者原型,并将它们的临床变量纳入生成提示中;(3)生成的提示语言符合六年级学生的阅读水平。使用Spatz工具对文件质量进行了评估,由三位盲评员进行评分。此外,还通过四领域评分标准评估了AI文件的个性化程度、所有事实声明的准确性以及使用Flesch指数评估了可读性。
结果
AI生成的同意书在修改后的Spatz工具上的得分显著高于标准同意书(平均分为14.75 ± 0.35分,对比标准同意书的10.17 ± 0.69分;p < 0.001),其中75%的文件获得了最高分。平均个性化得分为7.44分(满分8分,占比93.1%)。在661个经过验证的事实声明中,89.0%包含自动引用;引用准确率为98.1%,报告准确率为99.7%,伪造率为0.76%。平均Flesch-Kincaid阅读等级为7.76级,95.8%的文件符合推荐的阅读水平。评分者间的可靠性良好(ICC = 0.844)。
结论
当基于精心策划的证据库并在结构化提示的指导下进行时,基于RAG的系统生成的同意书在内容质量上优于标准同意书,能够针对个别患者情况进行了个性化定制,并可追溯其引用的来源,同时具备适当的阅读难度。这种工作流程可以减少准备合适知情同意文件的工作量,同时为医疗法律文档提供可验证的披露记录。
引言
知情同意(IC)是指患者在充分了解拟进行的干预措施的性质、风险、益处、替代方案及成功率后,自愿同意或拒绝该手术的过程[1]。如果操作得当,这一过程有助于患者做出符合个人价值观的选择,提高治疗依从性,并为外科医生提供法律保障。相反,未经有效同意实施的任何外科手术都可能引发侵权或披露不充分的诉讼[2]。要使同意书具有法律效力,必须满足四个条件:患者具备决策能力,医生必须提供充分的信息,患者必须理解所呈现的信息,且决定必须是自愿做出的[3],[4],[5]。实际上,知情同意书具有双重作用:它帮助患者做出知情决定,并记录医生已履行告知义务的事实。
然而,多项研究指出,脊柱外科手术的知情同意书往往未能达到这两个目的。虽然常见的手术风险(如感染和出血)会得到常规记录,但特定手术的并发症(如持续疼痛、性功能障碍或永久性神经损伤)则很少得到充分说明[6],[7]。在一项针对腰椎减压手术同意书的多中心分析中,只有58%的文件提到了瘫痪风险,仅有一半的文件提到了复发风险[8]。替代治疗方案和非手术治疗的自然病程通常完全缺失,而术后恢复相关信息是最缺乏的部分[2],[8],[9],[10]。此外,标准知情同意书具有通用性:它们对所有患者使用相同的模板,无法体现与特定患者最相关的个体风险因素[2]。除了这些内容缺陷外,知情同意书的可读性也给患者理解带来了额外的障碍。美国医学会(AMA)建议知情同意书的阅读难度应达到六至八年级水平,但多项研究表明,大多数外科手术同意书的编写难度远高于患者的平均健康素养水平[11],[12]。
脊柱外科手术是医疗事故诉讼率最高的手术领域之一[13]。Grauberger等人对233例脊柱外科医疗事故案例的分析显示,三分之二的案例存在知情同意不足的问题,其中未能披露具体风险和讨论替代方案是最常见的指控[13]。Epstein等人报道,在颈椎手术后导致四肢瘫痪的案例中,42.6%的诉讼以知情同意不足为由[14]。Kurapatti等人分析了2020至2024年间美国的脊柱外科医疗事故索赔,发现未能获得知情同意是最常被提及的手术错误(占21%的案例);55%的判决支持原告,平均赔偿金额为约200万美元[14],[15]。Wang等人强调,未能提供非手术替代方案会剥夺患者选择风险较低治疗方案的机会,这是原告在主张如果充分了解情况就不会同意手术时经常提出的理由[6],[16]。相反,有证据表明,对知情同意过程感到满意的患者在发生并发症时不太可能提起诉讼,而妥善执行的知情同意是获得有利判决的预测因素[6],[17]。
综上所述,显然需要制定能够提供充分且个性化临床信息的同意书,且语言应便于患者理解。近期研究探讨了大型语言模型(LLM)是否能够帮助解决这一问题。Ali等人表明,GPT-4能够在不牺牲医学或法律内容的情况下,生成适合八年级学生阅读水平的手术同意书[11]。不过,作者也指出,LLM往往会生成不准确的信息,即所谓的“幻觉”,这在法律文件中尤为重要[11]。
这种问题可以通过基于检索的增强生成(RAG)方法来解决,该方法让LLM从预定义的知识库中获取信息,而非依赖其内部预训练数据[18]。通过将生成文本与具体文档关联起来,RAG降低了生成错误的风险,并实现了自动引用来源的功能。本研究旨在测试基于RAG的LLM是否能够为选择性脊柱外科手术生成基于证据、个性化且易读的知情同意书,并将其质量与当前使用的标准同意书进行比较。我们假设基于RAG生成的同意书在内容质量上会优于标准同意书,同时伪造声明的比例较低,阅读难度也适中。
章节片段
研究设计
这是一项横断面比较研究,评估AI生成的知情同意书(研究组)与标准同意书(对照组)在选择性脊柱外科手术中的应用效果。由于本研究不涉及人类受试者、患者数据或临床干预,因此无需机构审查委员会的批准。报告遵循STROBE(加强流行病学观察性研究报告)指南。
同意书质量:Spatz评分
AI生成的同意书在修改后的Spatz质量工具上的得分显著高于标准同意书(表1)。AI生成文件的平均Spatz得分为14.75 ± 0.35分,而标准同意书的平均得分为10.17 ± 0.69分(p < 0.001)。
在单个文件层面,24份AI生成的同意书中,有18份(75.0%)获得了满分15分。未达到满分的6份文件分别为ACDF-A(14.67分)、ACDF-B(14.33分)、TFESI-B(13.00分)等。
结论
本研究探讨了基于RAG的LLM在预定义知识库内运行时,是否能够为选择性脊柱外科手术生成个性化且易读的知情同意书。在多种脊柱病理情况下,AI生成的同意书在Spatz质量工具上的得分显著高于标准同意书(平均分为14.75分,对比标准同意书的10.17分;p < 0.001),其中75%的文件获得了满分。这些文件在不同患者类型中也表现出强烈的个性化特征。
AI在知情同意书生成中的应用
如“材料与方法”部分所述,AI工具被用于知情同意书的生成。除此之外,AI工具(Claude)仅用于语言编辑,未参与数据分析、解释或结论生成。作者在使用该工具后对内容进行了必要的审核和编辑,并对已发表文章的内容负责。
所有科学内容、数据解释和结论均由作者负责。
CRediT作者贡献声明
阿里·卡普兰(Ali Kaplan):撰写——审阅与编辑、初稿撰写、方法论制定、数据整理、概念构思。贝古姆·阿斯拉恩塔什·卡普兰(Begüm Aslanta? Kaplan):撰写——审阅与编辑、初稿撰写、软件开发、概念构思。阿里·阿伊迪莱克(Ali Aydilek):撰写——审阅与编辑、监督、数据分析。伊尔克尔·索尔马兹(?lker Solmaz):撰写——审阅与编辑、项目管理、概念构思。萨利姆· ?entürk(Salim ?entürk):撰写——审阅与编辑、初稿撰写、监督、数据分析。
伦理批准
鉴于本研究属于计算机模拟研究,因此未征求机构审查委员会的批准。
利益冲突声明
作者声明不存在可能影响本文研究的已知财务利益或个人关系。