大型语言模型生成的患者导向型出院小结对患者激活的影响：一项在德国开展的单中心、单盲、随机对照试验

《The Lancet Digital Health》：Effects of large language model-generated, patient-oriented discharge summaries on patient activation: a single-centre, single-blind, randomised controlled trial in Germany

【字体：大中小】 时间：2026年05月20日 来源：The Lancet Digital Health 24.1

编辑推荐：

　　住院到家庭的过渡是患者照护的关键阶段，现有证据表明提升患者激活（patient activation，指患者自我照护的知识、技能与信心）可减少出院后不良结局。患者导向型出院小结（Patient-Oriented Discharge Summaries，PODS

住院到家庭的过渡是患者照护的关键阶段，现有证据表明提升患者激活（patient activation，指患者自我照护的知识、技能与信心）可减少出院后不良结局。患者导向型出院小结（Patient-Oriented Discharge Summaries，PODS）在提升患者激活方面具有潜力，但人工撰写耗时费力。研究人员旨在验证由大型语言模型（Large Language Model，LLM）生成的PODS相比标准出院小结能否提升患者激活水平。本研究为单中心、单盲、随机对照试验，在德国伍珀塔尔赫利俄斯大学医院内科开展，纳入18岁及以上成年患者并按1:1比例随机分配至对照组（接受标准出院小结）或干预组（接受LLM生成的PODS）。研究所用LLM为GPT-4o（2024-11-20版本），输入经匿名化处理的标准出院小结生成PODS，所有生成内容均由主管医师审核。主要结局指标为患者激活水平，采用患者激活量表（Patient Activation Measure，PAM-13）评估。该研究已在德国临床试验注册中心注册（编号DRKS00035739），目前已完成。2025年1月7日至2月5日期间共招募128例参与者，每组各64例，其中68例（53%）为男性，57例（45%）为女性，2例（2%）为多元性别，1例性别数据缺失。出院时干预组PAM-13评分显著高于对照组，差异中位数为9.6分（95%CI 4.3–15.1，p=0.0009）。结果表明LLM生成的PODS可有效提升患者激活，有望支持更具患者导向性的照护过渡。尽管结果积极，但在常规临床推广前仍需进一步研究质量保证、数据隐私及监管相关问题。本研究由德国维滕/黑尔德克大学健康学院医学院资助。

研究背景

住院患者从院内治疗过渡到家庭自我管理是康复过程中的关键环节，但这一阶段常伴随较高风险，近五分之一的患者在出院后出现不良事件，导致急诊就诊或再入院。现有证据显示，患者激活（patient activation，即患者掌握自身健康管理的知识、技能并具备相应信心）可改善再入院率等预后指标，是降低出院后风险的重要策略。然而传统出院小结主要为供方之间的沟通文件，包含大量复杂医学术语，高达78%的患者难以完全理解，限制了其在促进患者自我管理中的作用。患者导向型出院小结（Patient-Oriented Discharge Summaries，PODS）已被证实可提升患者理解度、满意度与健康素养，并可能减少再入院，但因人工撰写耗时耗力，尚未广泛普及。近年来，大型语言模型（Large Language Model，LLM）的发展为自动化生成PODS提供了可能，不过其对患者激活的实际影响仍缺乏随机对照试验证据。因此，研究人员开展了这项首次针对LLM生成PODS对患者激活影响的随机对照试验，成果发表于《The Lancet Digital Health》。

技术方法

本研究为单中心、单盲、随机对照设计，在德国伍珀塔尔赫利俄斯大学医院内科开展，样本来源于该科室计划出院的成年患者。纳入标准为德语流利并签署知情同意书，同意LLM基于云端处理数据；排除罕见病患者、新确诊严重疾病者及因身体、认知或精神障碍无法独立完成测评者。随机化采用计算机生成的置换区组设计，按1:1分配至对照组或干预组，患者设盲至研究结束。干预组将去标识化的标准出院小结输入GPT-4o（2024-11-20版本，训练数据截至2023年10月1日）生成PODS，生成参数设定温度（temperature）为0.7、top_p为0.95，所有输出由主管医师审核并补全信息，未发现重大错误。对照组仅接受标准出院小结。主要结局采用患者激活量表（PAM-13）测评，次要结局包括健康素养（采用欧洲健康素养调查简表）及患者对出院小结质量的感知（涵盖有用性、可理解性、共情性、信任度与总体满意度五个维度）。统计分析采用Wilcoxon秩和检验及Holm–Bonferroni校正，显著性水平设为p<0.05。

研究结果

主要结局

干预组出院时PAM-13评分显著高于对照组，Hodges–Lehmann差异中位数为9.6分（95%CI 4.3–15.1，p=0.0009）。患者激活水平分布存在显著差异（χ²(3)=17.41，p=0.0006），干预组处于最高激活水平4的比例更高（53% vs 19%，p=0.0004），处于水平3的比例更低（22% vs 45%，p=0.026）。

次要结局

健康素养评分两组无显著差异（差异中位数1.0分，95%CI 0.0–2.0，p=0.17），健康素养等级分布亦无统计学差异（p=0.69），事后功效分析显示对健康素养的检测功效仅为16%。患者对出院小结质量的感知方面，干预组在有用性（Cliff’s δ=0.28，p=0.0078）、可理解性（Cliff’s δ=0.61，p<0.0001）、共情性（Cliff’s δ=0.40，p=0.0001）及总体满意度（Cliff’s δ=0.20，p=0.041）四个维度显著优于对照组，信任度差异无统计学意义（Cliff’s δ=0.02，p=0.82）。

讨论与结论

本研究表明，LLM生成的PODS可使患者激活评分提升近10分，超过4分的已确立的最小临床重要差值，且显著推动患者向最高激活水平转移。该效应可能源于两方面：一是将复杂医学术语转化为易懂表述，增强患者知识；二是通过明确行动指引和直接交流语气提升患者信心。既往研究显示，高激活水平患者的30天出院后医疗服务使用风险约为低激活患者的一半，医疗费用约低8%，因此该干预具有潜在卫生经济学价值。尽管未观察到健康素养显著改善，这可能与该概念更广泛且本研究样本量不足有关。患者对LLM生成PODS的整体评价更高，尤其在可理解性与共情性方面优势明显，这与LLM采用面向患者的表达方式有关。

研究局限性包括仅在出院时点评估、缺乏长期临床结局数据、单中心设计限制外推性，以及排除了语言能力不足或认知障碍患者。推广前需解决输出质量保障、数据隐私保护、临床工作流程整合及监管审批等问题，同时应维持医师审核的人机协作模式以确保安全。

结论翻译

综上所述，本研究提供了有力证据，表明LLM生成的患者导向型出院小结可提升患者激活水平并改善对出院信息质量的感知，从而支持更加以患者为中心的照护过渡。尽管当前在临床推广中面临输出质量、数据隐私与监管审批方面的挑战，持续的研究与技术优化有望逐步克服这些问题，使LLM生成的PODS成为出院沟通的新标准。

热点排行