综述：患者教育材料文本简化的自动化方法：综述

《Journal of Medical Internet Research》：Automated Approaches of Text Simplification of Patient Education Materials: Scoping Review

【字体：大中小】 时间：2026年05月10日 来源：Journal of Medical Internet Research 6

编辑推荐：

　　康妮莉亚·克伦（Cornelia Krenn）|克里斯汀·洛德（Christine Loder）|娜塔莉·伯杰（Natalie Berger）|克劳斯·艾特勒（Klaus Jeitler）|托马斯·塞姆利奇（Thomas Semlitsch）|安德烈亚·西本霍弗（Andrea Siebenhofer）|丹妮丝·威尔弗林（Denise Wilfling）
格拉茨医科大学（Medical University of Graz）全科医学与循证健康服务研究所（Institute of General Practice and Evidence-based Health Services Research）

**背景**
患者教育材料（Patient Education Materials, PEMs）的阅读难度往往超过了美国医学会（American Medical Association, AMA）推荐的六年级水平（RGL）。虽然人工智能（AI）在文本简化方面具有潜力，但人们仍然对简化后的文本的语言质量、内容准确性以及普通民众的理解程度存在担忧。

**目的**
本综述旨在梳理现有关于使用自动化语言处理技术简化患者教育材料的研究证据。

**方法**
遵循乔安娜·布里格斯研究所（Joanna Briggs Institute, JBI）的方法论以及PRISMA-ScR（系统评价和荟萃分析的优选报告条目扩展，适用于范围性评价）指南，从2019年至2025年5月，系统地检索了5个数据库（Ovid MEDLINE、Embase、CINAHL、PsycInfo和IEEE Xplore）中的相关文献，并通过参考文献筛选和灰色文献搜索进行了补充。符合条件的研究为以英语发表的实证研究，这些研究探讨了大型语言模型（Large Language Models, LLMs）、AI辅助写作工具、基于AI的对话式代理程序或专为患者教育材料自动化文本简化设计的其他工具。评价指标包括简化后的文本的语言质量（如可读性、语言正确性）和内容准确性（如事实准确性、内容完整性）。排除的对象包括基于规则的系统、手动文本简化方法、非普通民众为目标群体的研究，以及以技术性能为导向的评估指标。通过主题分析整合了各项研究结果。根据JBI方法论的要求，未进行偏倚风险评估。

**结果**
共有31项符合纳入标准的研究，涉及多种LLM，如OpenAI的GPT系列、Gemini、Bard、Claude、Copilot和Llama。其中，GPT-4.0在标准化可读性指标（如Flesch-Kincaid年级水平[FKGL]）方面取得了最一致的改进效果。然而，所有LLM在达到预设的六年级阅读水平方面仍存在挑战，尤其是在较低的水平上。关于内容准确性的研究结果并不一致：尽管内容相似度评分较高，但事实准确性常常受到影响。

**结论**
这是首项全面总结自动化文本简化技术在患者教育材料应用中的证据的综述。研究发现存在两个关键验证缺口：首先，没有研究评估自动简化文本的语言正确性（如语法和排版错误）；其次，简化文本的可理解性仅由专家进行评估，缺乏普通民众的参与。尽管LLM在客观可读性指标上有效降低了文本复杂度，但依赖这些指标存在局限性，因为它们仅作为结构性的代理指标。可读性的提高并不能保证内容的准确性或普通民众的理解程度。现有证据还受到系统提示质量评估的缺乏以及主要针对英语患者教育材料的局限性的影响，限制了研究的普遍性。该综述为未来研究提供了基础，强调了需要包含普通民众测试和内容验证的评估框架。在临床实践中，LLM目前应作为辅助工具使用，但在向普通民众传播简化后的文本之前，必须经过专家审核以验证内容准确性。

**引言**
有效的健康传播被视为公共卫生的优先事项[1]。健康传播旨在通过确保健康信息的有效理解和应用来改善健康状况。其中心是健康素养——即个人获取和理解所需健康信息的能力[2]。具有较高健康素养的患者更有可能参与促进健康的行为、利用医疗服务，并有效管理慢性疾病[3]。然而，复杂的医学语言使用对患者的理解构成了显著障碍。建议医疗专业人员使用适合患者理解水平的浅显语言，这在时间敏感的临床环境中尤其具有挑战性[4,5]。患者教育材料（PEMs）在提供关于健康状况、治疗和健康促进的清晰易懂的信息方面发挥着核心作用[6]。个性化患者教育材料已被证明可以通过共同决策、提高患者满意度以及改善身心健康来改善患者护理[7]。为了提高PEMs的可访问性，美国国立卫生研究院和美国医学会（AMA）建议将其写作难度控制在六年级阅读水平或以下[8,9]。然而，大量研究表明现有的PEMs未能达到这一标准，其阅读难度往往超出许多患者的理解范围。对PEMs的分析显示，不同医学领域的平均可读性在8至15年级阅读水平之间[10-16]。这一可读性问题在2001年至2022年间并未得到改善。这些发现表明，简化版的PEMs是必要的，医疗专业人员应向患者提供易于阅读的材料[17,18]。

人工智能（AI）为提升有效健康传播提供了有力工具。特别是大型语言模型（LLMs）在自然语言处理（NLP）领域已成为变革性工具，能够用于回答患者问题、总结或简化医学文本、支持临床文书工作以及提供个性化医疗指导[19-21]。LLMs有潜力通过使复杂的医学语言更易于普通民众理解，从而帮助患者更好地了解自己的健康状况[22,23]。近年来，文本简化作为NLP任务取得了显著进展，尤其是自2019年LLMs的发展以来。早期技术主要依赖基于规则的系统或机器学习模型，而LLMs实现了NLP领域的范式转变，使这些能力更广泛地应用于医疗专业人员和健康研究人员。此外，LLMs的能力不断进化，展现出越来越复杂的语言理解和生成能力[24,25]。尽管取得了积极成果，但仍存在重要挑战，如事实错误的风险（如错误信息）、关键信息的遗漏，以及原始文本与简化文本之间的意义损失。更重要的是，尽管在标准质量指标上表现良好，也不能保证简化文本真正为普通民众所理解[26]。此外，AI语言处理技术的快速发展使得研究人员和医疗提供者难以持续掌握现有工具和支持性证据的最新动态。

**目的**
本综述旨在梳理利用自动化语言处理技术将患者教育材料简化为普通民众易于理解的语言的现有证据。其中，普通民众易于理解的语言被定义为具有可读性、简单句子结构以及避免使用医学专业术语的文本。

**方法**
本综述遵循乔安娜·布里格斯研究所（JBI）的方法论框架[27]，并按照PRISMA-ScR（系统评价和荟萃分析的优选报告条目扩展，适用于范围性评价）[28]（多媒体附录1）和PRISMA-S（系统评价中的文献搜索报告规范）[29]（多媒体附录2）指南进行报告。研究方法已在开放科学框架（Open Science Framework）中注册[30]。

**偏离协议的情况**
预先登记的协议规定纳入任何用于自动简化复杂医学或健康相关文本的研究。如图1所示，全文本筛选发现了大量异质性极强的文献，涵盖了放射学报告、电子健康记录、出院通知、患者教育材料、知情同意书和科学论文等多种类型。这种异质性给基于不同目的、受众和复杂性的健康信息材料的综合分析和比较带来了挑战。

**下载**：下载高分辨率图片（175KB）| 下载全尺寸图片
图1. PRISMA（系统评价和荟萃分析的优选报告条目）研究选择流程图。PEM：患者教育材料。

此外，本研究属于更大项目A+CHIS项目[31]的一部分，该项目旨在开发一个系统，为用户提供根据其个人信息需求和认知能力定制的多样化健康文档和初步患者教育材料。为了更加聚焦和连贯地整合证据，从而为面向患者的健康传播系统（如A+CHIS）提供见解，后来决定将研究范围缩小到专门探讨患者教育材料简化的内容。这一调整符合提高普通民众健康信息可访问性的主要目标，并确保了评估简化方法的方法学一致性。这一决定是在初次全文本筛选后、但在提取完整数据之前做出的。其他所有方法均保持与预先登记的协议一致。

**筛选和识别相关研究：信息来源与搜索**
2025年5月，在5个数据库（MEDLINE、Embase、CINAHL、PsycINFO和IEEE Xplore）中进行了全面文献搜索。MEDLINE和Embase的搜索同时在Ovid中以多文件方式执行，并使用Ovid去重工具去除重复结果。搜索策略基于数据库特定的控制词汇和自由文本术语。使用MeSH浏览器（关键词分析工具[32]和同义词识别工具[33]来确定相关搜索词。搜索时间限制在2019年至2025年，因为这一时期自动化语言处理技术取得了显著进步，特别是LLMs的出现显著增强了文本简化能力。未应用任何搜索过滤器。“自动化语言处理技术”的搜索块基于两种现有搜索策略[34,35]。数据库的详细搜索策略见多媒体附录3。MEDLINE的搜索策略由另一位研究团队成员（KJ）进行了同行评审。

**纳入研究的参考文献列表**
手动筛选了所有纳入研究的参考文献列表以识别更多相关研究。2025年7月还使用如下搜索字符串在Google中搜索灰色文献：“patient education material” AND (“large language model” OR “ChatGPT”) AND “simplifying”。仅筛选了每个搜索结果的前5页内容。未联系纳入研究的作者进行进一步核实，因为现有数据足以完成综述。未使用其他方法寻找额外研究。符合条件的研究被导入EndNote 21.5（Clarivate Plc）以识别和删除重复项。

**适用标准**
采用Population-Concept-Context（PCC）框架来定义纳入标准和指导搜索策略[27]。

**纳入标准**
- **目标人群**：需要患者教育材料的普通民众，包括患者及其家属、健康素养较低的个体以及缺乏特定医学专业知识的医疗专业人员。
- **核心概念**：使用自动化语言处理技术简化患者教育材料。
- **背景**：简化后的文本仅限于旨在向普通民众介绍医学或健康相关主题的任何文本（包括全文或摘录）。本综述不考虑非文本格式，如视频、音频材料或信息图。

基于PCC框架，应用了以下纳入和排除标准：
- **纳入标准**：
- 评估自动化语言处理技术的研究，特别是AI辅助写作工具（如DeepL Write）和基于AI的对话式代理程序（如ChatGPT、Gemini），或其他专为自动文本简化设计的AI工具。
- 评估简化后文本在至少两个领域的质量指标的研究：
- （1）语言质量（如可读性、文本复杂性、词汇选择、结构清晰度、医学专业术语）和语言正确性（如语法准确性、排版错误）；
- （2）内容准确性（如事实准确性、内容完整性）。
- 客观（如Flesch-Kincaid年级水平[FKGL]）或主观（如专家评分、用户反馈）评估结果的研究。
- **排除标准**：
- 评估非学习型或基于规则的系统、手动文本简化、AI输出的后期人工编辑、无简化目的的自动语言翻译，或文本分析软件工具的研究。
- 评估针对医疗专业人员的自动化简化患者教育材料效果的研究。
- 仅评估技术性能指标（如Bilingual Evaluation Understudy [BLEU]或Recall-Oriented Understudy for Gisting Evaluation [ROUGE]得分）的研究。
- 非同行评审的出版物（如预印本、社论、评论、致编辑的信件）、缺乏完整方法学描述的出版物，以及非英语语言的出版物。

**证据来源的选择**
根据JBI指南[27]，两名作者（CK、DW、CL或NB）独立根据纳入标准筛选所有标题和摘要。通过包含25个标题和摘要的试点阶段来确保标准的一致应用，并通过讨论解决任何冲突。潜在符合标准的研究的全文随后由2位独立评审者（CK、DW、CL或NB）使用相同的评估标准进行评估。出现分歧时，通过讨论或邀请第三位评审者（CK、DW、CL或NB）来解决。数据图表化：开发了一种标准化的数据提取表格，并在3个符合标准的研究中进行了试点测试，以评估其清晰度和完整性。在试点测试和团队内部讨论后，最终表格中增加了一个项目（简化患者教育材料（PEMs）的语言）。数据项目：从纳入的研究中提取了以下数据：文献详情（作者、发表年份和国家）、技术细节（使用的LLM名称和版本及提示）、源文本（PEMs的医学领域、分析的材料数量和语言）、结果（文本质量指标和测量方法）以及主要发现（与语言质量和内容忠实度相关的主要结果）。根据JBI方法学对范围审查的建议[27]，由1位评审者（CK）提取数据，然后由另一位评审者（DW）进行验证。批判性评估：根据JBI指南[27]，不要求对符合标准的研究进行批判性评估。结果的整理、汇总和报告：按照JBI范围审查方法[27]，我们对提取的数据进行了描述性综合分析。我们没有进行结果的分析性综合，而是描述性地绘制和总结了发现。提取的数据通过基于框架的方法进行了迭代整理，并将发现分类为两个预定义的结果领域：语言质量（包括语言可读性和语言正确性）和内容忠实度（包括事实正确性和事实完整性）。在每个领域内，由第一位作者（CK）进行了描述性定性内容分析，总结了评估的自动化语言处理技术类型、应用的测量方法以及报告的效果方向（例如，可读性得分的提高或识别出的事实错误）。结果通过叙述性总结、表格和图表来描述性地呈现，以回答审查问题。在适当的情况下使用频率计数来量化特定技术或结果测量的出现频率。所有描述性分析均使用Microsoft Excel进行。证据来源的选择：系统数据库搜索确定了7218篇参考文献。经过去重后，筛选了5456个标题和摘要，随后对129篇全文进行了符合标准的评估。这一过程最终纳入了24项[36-59]专门针对PEMs的研究。此外，从相关综述中还纳入了2项[60,61]研究。通过对纳入研究的参考列表进行筛选，又发现了2项[62,63]研究，进一步的Google搜索还找到了3项相关研究[64-66]。总共，这项范围审查包括了31项关注PEMs的研究。图1展示了使用PRISMA（系统评价和元分析的优先报告项目）流程图的研究选择过程。在全文筛选阶段被排除的研究及其主要排除原因是在多媒体附录4中提供的。证据来源的特征：所有纳入研究的主要特征在表1中呈现。所有纳入的研究都专门调查了LLMs，评估了8种不同的模型。OpenAI的GPT系列模型是研究最广泛的模型：GPT-4.0（n=10）[36-43,62,64]、GPT-3.5（n=8）[44-49,60,61]和GPT-3.0（n=1）[50]。其他评估的LLMs包括Google的Gemini（n=4）[51,52,65,66]和Bard（n=5）[53-56,63]、Anthropic的Claude（n=2）[57,65]、Microsoft的Copilot（n=1）[66]以及Meta的Llama（n=1] [57]，有12项研究在多个模型之间进行了比较分析[51-59,63,65,66]。如多媒体附录5所示，所有纳入的研究都发表得非常近期，其中11项在2025年[36-40,44,51,57,64-66]，19项在2024年[41-43,45-48,50,52-56,58-63]，1项在2023年[49]。尽管文献搜索覆盖了2019年以后的时期，但在2023年之前没有发现相关研究，这凸显了该领域的新兴性质。表1总结了纳入研究的主要特征。研究国家研究设计 LLM；分析的PEMs数量（PEMs的语言） PEMs的医学领域可读性评分 Spina等人[36] 美国未报告 GPT-4.0；9（英语）青光眼 FKG Le和FRE[5] Reaver等人[37] 美国横断面研究 GPT-4.0；57（英语）和56（西班牙语）骨科手术 FRE, Fry, LIXg, RIXh, SMOGi, GPMj Fry, FHRIk, and SOL[6] Picton等人[38] 美国未报告 GPT-4.0；340m（英语）神经学和神经外科 FKGL和FRE[5] Li等人[44] 美国横断面比较研究 GPT-3.5；50（英语）白内障手术 FKGL, SMOG, GFIn, and CLIo[5] Dihan等人[51] 美国横断面比较研究 GPT-3.5, GPT-4.0, 和Gemini Advanced；20（英语）干眼病 FKGL和SMOG[6] Chandra等人[39] 美国未报告 GPT-4.0；30（英语）骨科手术 SMOG[6] Busigo Torres等人[40] 美国未报告 GPT-4.0；77（西班牙语）骨科 FHRI和SOL[5] Andalib等人[57] 美国未报告 GPT-3.5, GPT-4.0, Claude 2, 和Llama 2；48（英语）骨科 FKGL和FRE[5] Will等人[65] 美国横断面研究 GPT-4.0, Gemini 1.5-flash, 和Claude 3.5 Sonnet；60（英语）心脏病、癌症和中风 FKGL, FRE, SMOG, 和GFI[5] Naghdi等人[66] 荷兰比较观察研究 GPT-3.5, GPT-4.0, Copilot, 和Gemini；30（英语）生殖遗传 FKGL, FRE, SMOG, GFI, CLI, 和LWF[6-8] Singh等人[64] 美国未报告 GPT-4.0；25（英语）神经外科 FKGL, FRE, SMOG, CLI, 和ARI[6] Zaki等人[41] 美国未报告 GPT-4.0；73（英语）干预放射学程序 FRE, GFI, 和ARI[5] Vallurupalli等人[45] 美国未报告 GPT-3.5；18r（英语）手部手术 FKGL, FRE, SMOG, ARI, GFI, LWF, 和CLI[6-8] Shehab等人[42] 美国横断面研究 GPT-4.0；124（英语）唇裂和腭裂 FKGL和FRE[6] Patel等人[43] 美国概念验证研究 GPT-4.0；71（英语）耳鼻喉科 FKGL, FRE, SMOG, 和GFI[6] Olivia等人[46] 美国横断面研究 GPT-3.5；109（英语）耳鼻喉科 FKGL和FRE[5] Kianian等人[53] 美国未报告 GPT-4.0 和Bard；9（英语）葡萄膜炎 FKGL[6] Rasika等人[47] 美国未报告 GPT-3.5；15（英语和西班牙语）眼科 FKGL, FRE, GFI, FHRI, Crawford Nivel-de-Grado, Gutiérrez, Szigriszt-Pazos/INFLESZ[6] 和Legibilidad-μ[6] Gupta等人[52] 美国未报告 GPT-4.0 和Gemini；7（英语）放射科 FKGL, FRE, SMOG, 和GFI[6] Garcia Valencia等人[58] 美国和泰国未报告 GPT-3.5 和GPT-4.0；27t（英语）活体肾脏捐赠 FKGL[8] Fanning等人[59] 美国未报告 GPT-3.5 和GPT-4.0；75（英语）整形外科 FKGL, FRE, Fry, SMOG, GFI, 和Raygor Estimate[6] Dihan等人[54] 美国横断面比较研究 GPT-3.5, GPT-4.0, 和Bard；20（英语）特发性颅内高压 FKGL和SMOG[6] Dihan等人[55] 美国横断面比较研究 GPT-3.5, GPT-4.0, 和Bard；20（英语）儿童青光眼 FKGL和SMOG[6] Dihan等人[56] 美国横断面比较研究 GPT-3.5, GPT-4.0, 和Bard；20（英语）儿科白内障 FKGL和SMOG[6] Baldwin[50] 英国未报告 GPT-3.0；50（英语）烧伤急救 FKGL, FRE, SMOG, GFI, 和CLI[6] Ayre等人[48] 澳大利亚观察性研究 GPT-3.5；26u（英语）无限制 vSMOG[8] Manasyan等人[60] 美国未报告 GPT-3.5；34（英语）牙槽骨移植 FKGL, FRE, 和GFI[5] Vallurupalli等人[61] 美国未报告 GPT-3.5；18（英语）颅面外科 FKGL, FRE, SMOG, ARI, GFI, LWF, 和CLI[8] Abreu等人[62] 美国横断面研究 GPT-4.0；34（英语）癌症 FKGL, SMOG, Fry, 和GFI[6] Rouhi等人[63] 美国试点研究 GPT-3.5 和Bard；21（英语）主动脉狭窄 FKGL, FRE, SMOG, 和GFI[5] Kirchner等人[49] 美国概念验证研究 GPT-3.5；20（英语）骨科 FKGL和FRE[5] aLLM：大型语言模型。bPEM：患者教育材料。cRGL：阅读年级水平。eFKGL：Flesch-Kincaid年级水平。fFRE：Flesch阅读难度。gLIX：可读性指数。hRIX：评分指数。iSMOG：简单混淆度测量。jGPM Fry：Gilliam Pe?a Mountain Fry图。kFHRI：Fernandez-Huerta可读性指数。lSOL：西班牙语正字法长度。m274篇关于神经学的PEMs，66篇关于神经外科的PEMs。nGFI：Gunning Fog指数。oCLI：Coleman-Liau指数。pLWF：Linsear写作公式。qARI：自动可读性指数。rPEMs的摘录。sINFLESZ：Flesch-Szigriszt指数。t至少300字的摘录。v由公认的国内外健康信息提供商网站发布的在线健康信息。地理分布显示美国占据主导地位（n=27）[36-47,49,51-57,59-65]，英国[50]、澳大利亚[48]、荷兰[66]以及美泰合作[58]也有贡献。这种地理聚焦体现在研究的语言上，有30项研究考察了英语PEMs[36-39,41-66]，2项研究同时评估了英语和西班牙语PEMs[37,47]，1项研究仅关注西班牙语PEMs[40]。样本量差异很大，每项研究从7篇到340篇PEMs不等，包括全文、文本摘录[45,48]和常见问题部分[58]。图2展示了纳入研究中PEMs涉及的医学领域分布。外科是最常研究的领域（n=14），包括骨科、神经外科、整形外科、口腔颌面外科、颅面外科和耳鼻喉科。眼科是第二常见的领域（n=7），涵盖青光眼、白内障、葡萄膜炎和干眼病等主题。其他领域包括内科（n=4；心脏病、主动脉狭窄、癌症）、神经学（n=3；一般神经学、中风、特发性颅内高压）和诊断放射学（n=2）。个别研究涉及急诊医学（烧伤急救）[50]、妇产科（生殖遗传学）[66]和泌尿外科（肾移植）[58]。没有在以下医学领域找到研究：过敏和免疫学、麻醉学、皮肤病学、牙科、家庭医学、医学遗传学、核医学、病理学、儿科、物理医学和康复医学、预防医学、精神病学或放射肿瘤学。下载：下载高分辨率图片（91KB）下载：下载全尺寸图片图2. 纳入研究中患者教育材料所涵盖的医学领域分布。为了评估提示工程的效果，有1项研究[59]使用两种不同的提示比较了GPT-3.5和GPT-4.0的输出。第一种提示是简单的指令，要求在保持文本结构的同时简化文本。第二种更详细的提示提供了明确的限制，提到了具体的可读性评分标准，并包含了示例来指导模型的输出[59]。所有纳入研究中使用的提示都在多媒体附录6中呈现。所有纳入研究报告的结果的全面概述在多媒体附录7中提供。语言质量：语言可读性评估与语言正确性缺失的评估：所有31项纳入的研究至少使用了一种语言可读性指标来评估简化PEMs的语言质量。值得注意的是，没有任何研究评估语言正确性，如语法准确性或排版错误。语言可读性：所有纳入的研究都至少使用了一种可读性评分标准来评估语言可读性。对于英语PEMs，最常用的评分标准是FKGL（n=23项研究）[38,42-44,46,47,49-60,62-66]、Flesch阅读难度（FRE；n=18）[36-38,41-43,46,47,49,50,52,57,59,60,63-66]和简单混淆度测量（SMOG；n=17）[37,39,43,44,48,50-52,54-56,59,62-66]。其他指标包括Gunning Fog指数（GFI；n=12）[41,43,44,47,50,52,59,60,62,63,65,66]、Coleman-Liau指数（CLI；n=4）[44,50,64,66]、自动可读性指数（ARI；n=3）[41,52,64]、Fry分数（n=3）[37,59,62]，以及一次性使用的评分标准如Raygor Estimate、评分指数（RIX）[59]、可读性指数（LIX）[37]和Linsear写作公式（LWF）[66]。两项研究使用了基于7种可读性指数（FRE, FKGL, SMOG, GFI, CLI, ARI, 和LWF）平均值的综合评分系统[45,61]。几项研究使用了多种可读性评分标准进行比较分析。表2提供了用于评估英语PEMs的可读性评分标准及其用于测量可读性的基础评分成分。表2. 纳入研究中使用的语可读性评分标准及其相应的评分成分[67,68]。评分成分每词的音节数平均每个句子的单词数 Flesch阅读难度平均每个句子的音节数平均每个句子的单词数平均每个句子的单词数简单混淆度测量平均每个句子中≥3个音节的单词数平均每个句子的单词数 Gunning Fog指数句子数量每个句子的单词数每个句子中≥3个音节的单词数 Coleman-Liau指数每100个单词的平均字母数平均每个句子的单词数平均每个句子的字符数（例如，任何字母、数字、符号）平均每个句子的单词数 Fry 每个句子的句子数每100个单词的音节数 Raygor估计每个句子的长单词数（≥6个字符）平均每个句子的句子数可读性指数每个句子中超过6个字母的单词百分比 Linsear写作可读性每个句子中简单单词（≤2个音节的单词）数量每个句子中难单词（≥3个音节的单词）数量如图3所示，英语PEMs的可读性提高因LLM和可读性评分标准而异。GPT-4.0是最常评估ARI：自动可读性指数；CLI：科尔曼-廖指数；FKGL：弗莱施-金凯德年级水平；FRE：弗莱施阅读难度；GFI：冈宁雾度指数；LIX：可读性指数；LWF：线性写作公式；RIX：速率指数；SMOG：简单晦涩度测量。对于西班牙语的患者教育材料（PEMs），3项研究[37,40,47]使用了特定于语言的可读性量表，如费尔南德斯-乌尔塔可读性指数、GPM弗莱图、LIX、RIX、西班牙语正字法长度（SOL）、克劳福德年级水平、古铁雷斯、Szigriszt-Pazos/弗莱施-Szigriszt指数（INFLESZ）和Legibilidad-μ，在12项分析中有9项取得了改进（75%）。

阅读年级水平
除了客观的可读性测量外，几乎所有包含的研究（n=30）都调查了大型语言模型（LLMs）是否能够达到提示中指定的预定义目标阅读年级水平（RGLs），通常范围从五年级到八年级。所有包含的研究中，LLMs被提示将PEMs重写为特定RGL后的原始年级、目标年级和实际达到的年级水平详见图4（另见[38-40,42-46,48-52,54-59,61-63,66-68]）。

下载：下载高分辨率图像（109KB）
下载：下载全尺寸图像

图4. 在提示各种LLMs将PEMs简化为预定义目标RGL后的原始和实际RGL的比较。LLMs：大型语言模型；PEMs：患者教育材料；RGL：阅读年级水平。

如图4所示，GPT模型的成功率各不相同。在五年级目标水平上，GPT-3.5和GPT-4.0的表现最低，分别在10次尝试中只有4次（40%）和7次尝试中只有2次（29%）成功。在六年级目标水平上，GPT-3.5的表现明显提高，在6次尝试中有3次（50%）成功，而GPT-4.0则在12次尝试中有8次（67%）成功。在八年级目标水平上，出现了相反的情况：GPT-3.5的成功率超过65%（2/3，67%），而GPT-4.0的成功率仅低于35%（2/6，33%）。

在其他LLMs中，Gemini的表现最好，成功率为83%，其次是Claude模型，为75%。相比之下，Bard的表现明显较差，仅在20%的尝试中达到了目标RGL。关于GPT-3.0和Llama 2的证据仅限于个别研究，无法进行有意义的比较。

三项研究探索了灵活的目标范围（六年级到八年级），而不是固定目标，其中只有2项分析达到了美国医学协会（AMA）推荐的六年级水平[39,45,66]。

对西班牙语PEMs进行分析以达到特定RGLs的结果参差不齐：一项研究使用GPT-4.0成功将可读性从六年级降低到五年级[40]，而另一项研究尽管目标是六年级，但仅实现了最小的降低[37]。第三项研究没有报告具体的目标RGL[52]。

其他语言可理解性指标
通过14项研究[37,38,40,42,48,51,52,54-57,60,65,66]评估了减少文本长度的能力，通过5项研究[51,54,55,57,66]评估了减少句子数量的能力。GPT-3.5在所有8项分析中都减少了单词数量，而GPT-4.0在近80%的情况下实现了减少（15/19，79%）。在大多数情况下，这两种模型在减少文本的同时保持了可读性的提高：GPT-3.5在75%的情况下，GPT-4.0在89%的情况下。其他LLMs，如Bard、Claude（2.0和3.5）、Llama 2和Copilot，也类似地减少了单词数量的同时保持了可读性。在17项分析中有13项（76%）减少了句子数量，不同LLMs之间没有显著差异。

在8项研究[37,51,54-57,60,62]中评估了词汇复杂性。所有测试的LLMs（GPT-3.5、GPT-4.0、Bard、Gemini和Llama 2）都减少了基于音节的指标（多音节词、每个词的音节数和每个句子的音节数），Claude 2在1项分析中除外[57]。GPT-4.0还减少了超过6个字符的单词数量[62]。

在3项研究[37,62,66]中评估了句法复杂性。多个LLMs（GPT-3.5、GPT-4.0、Gemini和Copilot）成功减少了长句（>20-22个单词）和被动语态的使用。

在2项研究中评估了词汇复杂性。LLMs有效地简化了词汇，减少了医学术语、缩写词、不常见的词和复杂的词[48,66]。西班牙语研究还确认了单词数量、音节数和长句频率的减少[37,40]。

内容保真度
共有20项研究检查了简化后的文本是否保持事实正确性和完整性[36-38,40,43,46,48,49,51,52,54,55,57,58,61-66]。

事实正确性
通过6项研究[36-38,57,58,62]的内容相似性和16项研究[37,38,40,43,46,49,51,54,55,58,61-66]的内容准确性评估了事实正确性。内容相似性通过自动和人工评估方法进行评估。使用余弦相似值的自动分析一致显示了高程度的语义保留。GPT-4.0在所有4项分析中显示出最强的证据基础，产生了“几乎相同”的输出[36,37,57,62]，另外3项研究报告了“高相似性”[37,38,58]。GPT-3.5、Claude 2和Llama 2在单项分析中也实现了“几乎相同”的相似性[57]。由研究团队成员或专业医疗保健专家进行的专家评估进一步支持了这些发现。人工评分者在所有测试的LLMs中一致确认简化后的文本不包含额外信息[57]。一项报告GPT-4.0的定量专家评估显示，平均相似性得分在0-1的量表上为0.72（其中1表示完全相同的内容[38]。

内容准确性总体较高，但在不同研究中有差异。自动F1分数反映了精确度和召回率（即陈述是正确还是错误以及是否存在），GPT-4.0在不同研究中的范围从72%到92%[37,38,62]。专家评估的结果不一。对于GPT-4.0，8项研究没有报告事实错误[43,51,53-55,58,64,65]，1项研究在3位评分者中报告了90%-100%的准确性[52]，2项使用5点李克特量表的研究报告了3.55到4.1的准确性[38,66]。一个显著的例外报告了只有52%的事实正确性[40]。对于GPT-3.5，几项研究没有报告事实错误[46,49,51,54,55,61,63]，在使用5点李克特量表的情况下，得分为3.8[66]。其他LLMs也显示出类似的变异性：Gemini获得了48%-71%的专家准确率或适合性评分（其中最多有14%被判断为不准确[52]），而其他研究报告了无错误输出[51,65]或10%的不准确性率[65]。Claude在一些分析中显示出5%的不准确性；Copilot的平均得分为3.51；Bard在1项研究中获得了88.9%的准确性和适合性[53]，而在其他研究中则被报告为无错误[54,55,63]。

事实完整性
通过内容保留[43,46,48,49,52,66]和内容省略[66]在较少研究中评估了事实完整性。与GPT-3.5、Gemini和Copilot相比，GPT-4.0在内容保留方面表现最为稳健[66]。此外，GPT-4.0在保留足够细节的同时保留了一些冗余信息（例如，将慢性咳嗽提及为支气管炎的症状4次[43]），其95%的输出保留了至少75%的信息[52]。相比之下，Gemini的保留率较低，只有68%的输出达到了相同的保留阈值[52]。GPT-3.5的表现不一致，有些研究报告了足够的细节保留[49]，80%的平均内容保留[48]，或者在9%的输出中存在截断问题[46]。

内容省略在1项研究[66]中进行了评估。GPT-4.0在简化文本的同时保持基本信息的方面获得了最高评分，其次是Copilot。相比之下，Gemini获得了最低评分[66]。

文本质量指标评估方法概述
如图5所示，语言可理解性主要通过自动方法进行评估，因为手动评估可读性、句子长度或单词数量等客观指标效率低下。相比之下，验证事实正确性和完整性以及评估简化PEMs的可理解性本质上需要人工判断，无法完全自动化。虽然包括的研究中简化PEMs的内容保真度由专家进行了评估，但这总体上较少发生。重要的是，分析揭示了两个主要的验证差距：首先，没有研究评估简化PEMs的语言正确性。其次，最值得注意的是，没有研究让非专业人士参与评估简化PEMs的实际可理解性。

下载：下载高分辨率图像（65KB）
下载：下载全尺寸图像

图5. 按评估类型（非专业人士、专家和自动方法）分层的研究中使用的评估方法的证据差距图（语言质量、内容保真度和可理解性）。

可读性、内容准确性和简化PEMs的可理解性之间的关系
共有6项研究通过人类专家评估（包括研究团队成员或医疗保健专业人员）使用经过验证的工具（如患者教育材料评估工具[51,54,55,65]）和主观评估（PEMs是否对普通患者可理解或在不丢失关键信息的情况下成功提高了可访问性[52,58]）来评估简化PEMs的可理解性和清晰度。然而，只有4项研究直接考察了可读性改进、内容准确性和简化PEMs的整体专家评分可理解性之间的关系[54,55,58,65]（表3）。

表3. 可读性、内容准确性和可理解性之间的关系。

大型语言模型
可读性改进a，n/N (%)
内容准确性保持b，n/N (%)
可理解性成功c，n/N (%)
医学主题

研究
GPT-4.0 9/9 (100) 6/6 (100) 3/6 (50) ?
儿童青光眼、癌症和活体肾脏捐赠
? 特发性颅内高压、心脏病和中风
[54,55,58,65]
GPT-3.5 3/4 (75) 2/2 (100) 0/2 (0) ?
特发性颅内高压和儿童青光眼
[54,55]
Bard 4/4 (100) 2/2 (100) 0/2 (0) ?
特发性颅内高压和儿童青光眼
[54,55]
Gemini 1.5 4/4 (100) 2/3 (67) 1/3 (33) ?
癌症 ? 心脏病和中风
[65]
Claude 3.5 4/4 (100) 1/3 (33) 1/3 (33) ?
心脏病 ? 癌症和中风
[65]

a：至少在一个可读性指标（弗莱施-金凯德年级水平、弗莱施阅读难度、简单晦涩度测量或冈宁雾度指数）上显著改进的分析数量。
b：未检测到事实错误的分析数量。
c：人类专家的判断。
d：可理解的。
e：不可理解的。

研究确认GPT-3.5、GPT-4.0、Bard、Gemini 1.5和Claude 3.5在标准指标上一致地提高了可读性分数，除了GPT-3.5在使用FKGL的一项分析中[54]。内容准确性总体较高，但因LLM和医学领域而异。GPT-3.5、GPT-4.0和Bard在多种情况下实现了100%的内容准确性。然而，Gemini 1.5在心脏病内容方面有10%的不准确性，而在癌症和中风方面保持了100%的准确性。Claude 3.5显示出相反的情况：心脏病方面100%的准确性，但在癌症和中风方面有5%的不准确性。可理解性是最具挑战性的。GPT-4.0在生成儿童青光眼[55]和肾脏捐赠[62]的易于阅读、准确和可理解的材料方面表现最好；然而，在特发性颅内高压方面失败了[45]。其他模型的表现差异较大：GPT-3.5和Bard生成了专家认为不可理解的易于阅读和准确的输出。疾病特定的表现差异很大：GPT-4.0为癌症生成了可理解的PEMs，但对于心血管疾病则没有；Claude 3.5仅在心脏病内容方面实现了可理解性[65]。这一验证差距揭示了一个关键的概念混淆：可读性，通过公式来衡量，仅捕捉文本的表面特征，如句子长度、单词长度和音节计数。然而，它并不能衡量读者是否真正理解了内容。相比之下，可理解性指的是读者从文本中提取意义、将信息应用到自身情况以及基于所读内容做出明智决策的能力。因此，提高的可读性指标分数并不能保证医疗内容在事实上是正确的、符合上下文的或真正被目标群体理解的。这种区别在医疗环境中尤为重要，因为患者不仅需要阅读，还需要正确解读并根据信息采取行动。完全缺乏以患者为中心的结果评估是这项范围审查中最重要的发现。

**与以往工作的比较**
据我们所知，这是第一项专门针对医学教育材料（PEMs）自动文本简化方法的范围审查。这使我们的工作与以往关于医学AI的研究区分开来，后者主要集中在文本生成[69-78]而不是文本简化或临床记录的简化[79-82]上。Nguyen等人[83]对与唇裂和腭裂相关的在线PEMs进行了系统回顾和元分析。与我们的发现一致，他们指出了可理解性测试的严重缺失，因为只有一项研究直接评估了患者对简化文本的理解。与他们的疾病特定方法不同，我们的审查涵盖了更广泛的医疗主题，评估了语言质量和内容真实性，并采用了更广泛的搜索策略。在另一项范围更广的范围审查中，Aydin等人[84]考察了语言模型（LLMs）在患者护理多个领域的应用，包括教育、参与度提升、工作量减少、以患者为中心的健康定制和沟通。然而，他们的搜索仅限于PubMed，并且是在2024年6月进行的。他们同样报告了自动文本简化研究中的可读性改进。他们的结论认为LLMs可以创建易于理解的材料，帮助解释复杂信息，并增强患者与提供者之间的沟通——同时也指出准确性、可读性问题以及伦理问题需要进一步发展——这与我们的发现一致。

在所有31项研究中完全缺乏对普通人群可理解性的直接测试是非常重要的，反映了该领域的一个系统方法学限制：不加批判地接受可读性公式作为文本简化的有效衡量标准。这些发现得到了进一步的研究支持，这些研究表明标准的可读性公式存在重大局限性。它们主要计算句子长度、单词长度或多音节词等变量，但并不评估文本是否与目标受众的实际理解能力、上下文、专业知识、语义理解和文本连贯性相匹配。常见的可读性公式无法充分评估医疗文本的实际可理解性[85]。此外，可读性公式可能会将简短的技术术语和缩写视为简单的，尽管它们实际上比长而通俗的描述更难以理解[86,87]。例如，“HbA1c”这个术语非常短但不为人知，而“长期血糖”这个术语更长但更容易理解。此外，文本中通常需要对术语进行解释才能理解；然而，这些解释可能会使句子变长并变得复杂[88]。

**研究意义**
这项审查的发现突出了几个研究空白，为未来的研究提出了紧迫的行动呼吁。审查中发现的验证差距——即完全缺乏以患者为中心的理解测试和语言正确性评估——应在未来的研究中作为优先事项来解决。以下研究空白应指导该领域的发展：
- **以患者为中心的评估**：这是最重要的研究空白。未来的研究必须从纯粹的算法可读性评估转向以患者为中心的可理解性测试[37,46,47,55-57,60,62,66]。未来的研究应让具有不同健康素养水平、年龄、教育和文化背景的普通人参与使用经过验证的方法进行可理解性评估，而不仅仅依赖专家判断或可读性公式[44,48,58]。例如，Ondov等人[89]建议了两种理解评估方法：
- **选择题**：用户在阅读原文或简化文本后回答需要理解文本才能正确回答的问题。当这些问题设计并经过适当验证时是可靠的，但需要大量人力并且需要领域和专业知识。
- **完形填空测试**：这些测试涉及从段落中删除单词，并要求用户根据上下文补充缺失的词语。它们与其他理解测量方法相关性很高，并且大部分可以自动化。常见的变体包括基本完形填空（隐藏重要内容词）和多项选择完形填空（每个空白处提供干扰选项）。

**提示工程**
提示工程需要系统的研究。在这项范围审查中，只有一项研究[59]系统地研究了提示设计。Fanning等人[59]使用GPT-3.5和GPT-4.0比较了通用提示和特定提示，并证明良好的提示设计可以使GPT-3.5达到与GPT-4.0相当的可读性改进，这表明提示优化可能比模型生成对文本简化任务的影响更大。他们的特定提示包括对可读性标准的明确引用、关于写作风格的详细说明（例如，缩短句子和简化词汇）、目标可读性水平的指定，以及要求重写的文本保持原始意义和信息的明确约束。尽管这些发现基于一项研究，但它们为观察到的研究结果不一致提供了一种可能的解释。内容准确性的广泛差异（48%-100%）以及经常未能达到特定的RGLs可能归因于提示设计的差异，而不仅仅是模型本身的限制。然而，需要进一步的研究来确认这一点。未来的研究应建立提示工程的最佳实践[36,37,39,41,42,45,47,51,53,59,61,65]。这涉及系统地比较不同的提示策略。例如，超越基本的零样本提示，结合高级技术，如少样本提示（为模型提供期望的简化输出示例）[37,65]或思维链提示（引导模型逐步推理）。思维链提示可以指示LLM首先识别复杂的医学术语，然后提出通俗的等效表达，然后缩短句子，最后检查事实准确性[90]。同样，探索风格约束的影响、详细的上下文特定指令以及使用词汇替换列表也是必不可少的[37]。此外，未来的研究应侧重于基于专家和患者评估的迭代提示设计，并持续优化，同时评估不同LLM世代之间的提示稳定性[47,61]。还应通过测试-重测一致性来评估提示的可靠性，确保相同的提示在时间上产生一致的高质量输出[91]。最后，一个关键的长期目标应该是开发一个经过验证的、开放获取的提示库，证明其在医疗文本简化方面的有效性，以便在研究和临床应用中实现标准化。虽然现有的医学领域技术提示集合主要针对推理和问答任务（例如Microsoft MedPrompt），但它们既不是为医疗文本简化设计的，也没有经过临床验证[92]。

**技术进步**
LLM技术的快速进步需要持续的评估。未来的研究应系统地比较新兴的LLMs，特别是超越GPT系列，以识别具有独特优势的模型（例如Claude 2在处理长上下文方面的能力）[44,47,48,59,65]。此外，还需要对商业和开源LLMs的成本效益进行比较[47,55,63]。

**地理和语言多样性**
包含的研究主要集中在美国医疗环境中的英语PEMs上，只有3项研究[37,40,47]评估了西班牙语文本。因此，这些发现在其他语言和文化医疗系统中的普遍性有限。具有复杂形态学的语言（例如德语或斯拉夫语）或独特句法结构的语言可能在自动化简化方面面临不同于英语的挑战。此外，不同地区的医疗沟通风格的文化差异可能会影响“对普通人群友好”的定义和实现方式。因此，未来的研究应探讨在不同语言和文化背景下的简化性能[48,49,62,65,66]。

**医疗领域范围**
包含的研究主要集中在外科专业和眼科，而许多医疗领域（如牙科、皮肤病学、精神病学或预防医学）在基于LLM的PEMs文本简化方面尚未被探索。例如，这些领域经常使用包含复杂术语的PEMs，这对患者来说可能难以理解[93]。未来的研究应在更广泛的医疗领域探索基于LLM的文本简化，特别是在罕见疾病和不太普遍的健康状况方面，因为在这些领域，训练数据有限的LLMs可能更容易出错[48,65]。

**语言正确性**
没有一项包含的研究评估了与语言正确性相关的文本质量指标。因此，未来的评估应纳入语法和排版错误的指标，因为这些因素对于建立可信度和信任至关重要，无论它们对理解的直接影响如何[94,95]。

**实践意义**
基于这项范围审查的发现，本研究对临床实践有几项建议。首先，LLMs应作为辅助工具而不是自主工具来简化临床实践中使用的PEMs[51]。这一建议得到了最近一项研究的支持，该研究表明LLMs在简化关于精神病学的信息材料时可以接近目标RGLs，但它们的输出不一致，阅读水平存在显著差异且偏离了预期内容，使它们不适合在医疗环境中独立使用[96]。其次，所有由AI简化的PEMs在传播给普通人群之前必须经过合格医疗专业人员的强制性专家审查，以验证内容真实性和临床适用性[38-41,45-49,52,59-61,66]。第三，使用AI辅助文本简化工具的医疗机构应建立明确的协议，定义质量检查点和审批工作流程。持续监测性能可以跟踪不同医疗领域的可读性改进和错误率[59]。

尽管LLMs通过简化文本版本在提高患者健康素养方面具有相当大的潜力，但其在临床实践中的使用需要谨慎应对固有的限制，包括强化训练数据中嵌入的偏见和刻板印象的风险。在医疗通信中使用AI需要持续关注生成内容的准确性[50]。

**局限性**
尽管这项范围审查采用了严格和系统的方法，但仍需承认一些局限性。首先，基于规则的技术被排除在外。这一决定是为了关注由生成式AI主导的当前快速发展的领域，后者在文本简化方面提供了更大的可扩展性和适应性。其次，尽管包含的研究使用了不同的提示策略，但这些提示的质量并未得到评估。根据范围审查的方法论，其目的是描绘可用证据的范围和性质，而不是批判性地评估方法论质量，因此没有系统地评估提示设计。因此，无法确定未能达到特定目标RGLs的现象是模型限制还是提示策略欠佳所致。然而，这样的分析可以提供关于PEMs简化最佳提示工程的更深入见解。最后，数据库搜索是在2025年5月进行的，灰色文献搜索是在2025年7月进行的。鉴于AI发展的快速步伐，特别是LLMs方面，自那时以来可能会出现新的相关研究，一些发现可能在发表后不久就过时了。此外，包含的研究主要集中在英语PEMs和美国背景下，这限制了发现的普遍性，因为不同语言（例如语法复杂性不同的语言）的文本简化方法可能会表现不同。此外，LLMs主要是基于英语数据进行训练的[97]，这可能导致在其他语言中的性能较低。此外，使用的可读性指标（例如美国RGLs）特定于美国教育系统，可能无法直接转换为其他文化医疗系统的通俗指南。

**结论**
据我们所知，这是第一项全面综合关于自动语言处理技术用于PEMs简化的证据的范围审查，系统地映射了语言、质量和内容真实性的结果。我们的范围审查发现表明，尽管LLMs可以改善PEMs的可读性，但它们主要未能达到推荐的六年级水平RGL。然而，最重要的发现是识别了一个关键的验证差距：没有任何研究评估普通人群是否真正理解了简化的PEMs，也没有研究评估语言正确性。结合内容准确性的变化性和仅仅依赖可读性公式（这些公式对普通人群实际理解能力的预测能力较差），这些发现对临床实践有重要意义。目前，LLMs应作为辅助工具而不是自主解决方案。所有由AI简化的材料在传播给普通人群之前必须经过强制性的专家审查，以验证内容真实性。未来的研究必须紧急转向以患者为中心的验证，直接评估普通人群的理解能力。

热点排行