《Journal of Surgical Research》:Comparing the Readability and Usability of Patient Education Materials Generated by Different Large Language Models: ChatGPT, Copilot, and Gemini
编辑推荐:
摘要:健康素养(HL)较低的患者在理解及接受外科诊疗过程中面临障碍,导致外科健康差异。大语言模型(LLM)的日益普及可能为优化患者教育材料(PEM)并提供可扩展途径以提升患者理解度。本研究旨在评估公开可用LLM所生成的PEM之可读性与可用性。研究人员选取某学术
摘要:健康素养(HL)较低的患者在理解及接受外科诊疗过程中面临障碍,导致外科健康差异。大语言模型(LLM)的日益普及可能为优化患者教育材料(PEM)并提供可扩展途径以提升患者理解度。本研究旨在评估公开可用LLM所生成的PEM之可读性与可用性。研究人员选取某学术医疗中心现有结直肠术前、术后及造口护理PEM为基线,采用预先优化的指标引导提示词(metric-based prompt),分别使用ChatGPT 3.5、Copilot及Gemini重新生成全新材料。所有材料通过Flesch-Kincaid阅读容易度(Flesch-Kincaid Reading Ease, 简称Ease)、Flesch-Kincaid年级水平(Flesch-Kincaid Grade Level, 简称Grade Level)及修正年级水平分(modified grade-level scores, 即Simplified Measure of Gobbledygook, SMOG)评估可读性;通过患者教育材料评估工具(Patient Education Materials Assessment Tool, PEMAT)评估理解性(understandability)与可操作性(actionability)。双变量分析采用t检验。结果显示,基线及三种LLM共生成208份教育材料,平均词数分别为基线844–869、ChatGPT 259–271、Copilot 163–223、Gemini 275–319。Gemini生成材料可读性改善(年级水平5.9;P < 0.001),优于基线(7.7),而ChatGPT(12.5)与Copilot(8.8)可读性变差(均P < 0.001)。虽所有材料理解性得分高于70%阈值,但LLM生成材料理解性(75%–83% vs 基线75%–100%)与可操作性(40%–80% vs 基线80%–100%;P < 0.001)均劣于基线。结论:不同LLM在生成全新PEM时表现存在显著异质性。Gemini在可读性上有改善且所有LLM达理解性目标,但现有基线材料在理解与可操作维度仍优于LLM生成材料。尽管LLM有潜力提升PEM可读性与可用性,其应用须结合临床专业人员审阅。
论文解读:比较不同大语言模型生成的患者教育材料可读性与可用性——ChatGPT、Copilot与Gemini
研究背景与目的
美国约90%成人存在健康素养(Health Literacy, HL)缺陷,半数成人阅读水平低于六年级,而现有患者教育材料(Patient Education Materials, PEM)平均阅读年级水平常达8.6–10.2年级,远超推荐的≤6年级水平,低HL患者更少提问且难理解书面指导,影响术前用药依从、出院随访及增加再住院风险,造成外科健康差异。人工编写符合HL标准的PEM成本高、耗时长。大语言模型(Large Language Model, LLM)被认为可低成本简化文本,但免费版LLM生成外科PEM的全面可读性(readability)与可用性(usability)尚未在结直肠外科中被系统评估。因此,Harsono AAH等研究人员开展本研究,对比基线结直肠PEM与ChatGPT 3.5、Microsoft Copilot、Google Gemini免费版生成材料的Flesch-Kincaid可读性指标及PEMAT理解性(understandability)与可操作性(actionability),探讨LLM能否生成更优PEM,论文发表于《Journal of Surgical Research》。
主要技术方法概述
研究人员收集美国东南部单所三级学术医疗中心电子病历中既有结直肠外科PEM(n=52;术前19份、术后18份、造口护理15份,来源为Elsevier、ExitCare及本地编写)作为基线。分别使用免费版ChatGPT 3.5、Microsoft Copilot、Google Gemini,对每个PEM主题输入统一优化提示词("Please give me patient education information about topic, risks, expectations, and preparation, i.e., health literate and at a sixth grade reading level using short sentences and words with <3 syllables."),每主题开新对话以防上下文干扰,各LLM生成对应52份新材料,形成基线:LLM=1:3的208份语料。可读性用在线工具计算Flesch-Kincaid Reading Ease(Ease)、Flesch-Kincaid Grade Level(Grade Level)及Simplified Measure of Gobbledygook(SMOG/modified grade level),并统计词数、每词音节数、句数、每句词数、词汇密度(lexical density);为避免偏倚,评估前将术式名缩写为单字母。可用性由三名经过培训评价者独立用PEMAT(排除仅适用于音视频的第13、14题)评分,理解性与可操作性≥70%视为达标,组内相关系数(ICC)>90%,分歧经讨论达成共识。连续变量正态性经Shapiro–Wilk检验,组间比较用ANOVA及非配对t检验;PEMAT分数非正态分布,用Kruskal–Wallis及Dwass–Steel–Critchlow–Fligner两两比较,P<0.05为差异有统计学意义,采用SAS 9.4分析。
研究结果
Characteristics of surgical patient education materials
基线材料平均词数855±289、句数72±28、每词音节1.6±0.5、每句词数12±2、词汇密度56±3%。LLM生成材料均显著缩短:ChatGPT词数263±31(P<0.001)、每词音节增至1.8(P=0.01)、句数减至15±3、每句词数增至18±2、词汇密度升至60(P<0.001);Copilot词数199±52(P<0.001)、音节数与基线无差异、句数16±5、词汇密度58(P<0.001);Gemini词数305±41(P<0.001)、音节数降至1.5(P=0.02)、句数30±5、每句词数降至10±1、词汇密度与基线无差异。表明Gemini在缩短篇幅同时更接近基线句长与用词简洁度。
Readability scores for surgical patient education materials
基线平均Ease为61.7±7.5,Grade Level为7.7±1.4(超六年级推荐),modified grade level为10.1±1.1。ChatGPT Ease降至37±10(P<0.001),Grade Level升至12.5±1.8(P<0.001),modified grade level升至13.7±1.6(P<0.001);Copilot Ease 54.4±10.3(P<0.001),Grade Level 8.8±1.9(P<0.001),modified grade level 10.6±1.6(P=0.05,无统计学显著恶化);Gemini Ease升至71.5±4.9(P<0.001),Grade Level降至5.9±0.9(P<0.001,唯一达≤6年级推荐),modified grade level降至8.1±0.8(P<0.001,但仍未达六年级SMOG标准)。结论:仅Gemini显著改善可读性至接近或达到推荐年级水平。
Understandability and actionability scores for surgical patient education materials
基线理解性中位数88%(IQR 81%–100%),可操作性中位数80%(IQR 80%–100%)。ChatGPT理解性降至75%(IQR 75%–75%,P<0.001),可操作性60%(IQR 40%–60%,P<0.001);Copilot理解性78%(IQR 70%–89%,P<0.001),可操作性40%(IQR 20%–40%,P<0.001);Gemini理解性83%(IQR 83%–83%,P=0.128,整体无显著差异,但术后亚组低于基线P<0.001),可操作性60%(IQR 40%–60%,P<0.001)。所有LLM可操作性均未达70%阈值。PEMAT缺陷分析显示LLM材料普遍缺失可视化辅助(Q15、Q26全未满足)、少提供总结(Gemini 83%缺Q11)、未将行动拆解为明确步骤(Copilot 58%、Gemini 75%缺Q22)及未提供可操作工具如清单(ChatGPT 92%、Gemini 96%缺Q23);ChatGPT还100%未用日常用语(Q3)。
讨论与结论总结(翻译结论部分)
本研究评估三种常用免费LLM生成材料与基线PEM之可读性与可用性。研究发现现有人工编写PEM在理解性与可操作性上优于所有受试LLM生成PEM。虽三种LLM生成材料均达理解性阈值,但基线表现更优,且多数LLM PEM未达可操作性阈值。可读性方面,虽基线平均未达年级推荐,但仍优于ChatGPT与Copilot,仅Gemini可读性超越基线。ChatGPT生成材料可读性及可用性显著差于基线。结论:研究人员发现三种LLM生成全新PEM存在显著可读性与可用性差距。虽LLM生成材料词、句更少,仅Gemini达六年级阅读年级水平可读性目标,且所有模型相较现有材料可操作性有限。这表明LLM虽可辅助文本简化,仍须结合专业人员干预与结构化临床审核方可产出高质量符合健康素养标准的PEM。未来研究应重新评估更新版本LLM生成材料、考察患者对LLM生成PEM的反馈,并探索医务人员如何提升个体化PEM的可扩展生成。