对大型语言模型在普及百日咳知识方面的可读性、质量以及教育适用性进行评估
《Frontiers in Public Health》:Benchmarking the readability, quality, and educational suitability of large language models in communicating pertussis
【字体:
大
中
小
】
时间:2026年05月11日
来源:Frontiers in Public Health 3.4
编辑推荐:
摘要
背景:百日咳是一种高度传染性的呼吸道感染,继续导致大量的发病率和死亡率,尤其是在婴儿中,并且在全球范围内在青少年和成人中重新出现。大型语言模型(LLMs)越来越多地被用于健康传播和科学普及;然而,关于它们在特定疾病患者教育方面的可读性、质量和教育适用性的证据仍然有限。到目前
摘要
背景:百日咳是一种高度传染性的呼吸道感染,继续导致大量的发病率和死亡率,尤其是在婴儿中,并且在全球范围内在青少年和成人中重新出现。大型语言模型(LLMs)越来越多地被用于健康传播和科学普及;然而,关于它们在特定疾病患者教育方面的可读性、质量和教育适用性的证据仍然有限。到目前为止,还没有系统性的评估关注LLM生成的白日咳健康教育材料。
目的:本研究旨在系统地评估和比较五种主流LLM在生成与白日咳相关的科学普及内容方面的表现,特别关注可读性、信息质量和教育适用性。
方法:进行了一项横断面模拟研究,使用了20个关于白日咳的常见问题,涵盖了五个领域:基础知识、症状表现、诊断方法、治疗和管理以及预防和预后。2025年10月28日,所有问题都被输入到五个公开可访问的LLM中。使用七个经典指标来评估文本的可读性。两位独立的药剂师使用中国版的《患者教育材料评估工具》(C-PEMAT-P)和《全球质量评分》(GQS)进行了盲评。此外,两位独立的临床专家使用4分制评估了每个LLM生成的回答与《中国白日咳诊断和治疗指南》(2024年)的事实准确性和指南一致性。使用Cohen的kappa系数来评估评分者间的一致性。
结果:ChatGPT、DeepSeek和Doubao的C-PEMAT和GQS得分显著高于Wenxin Yiyan和Gemini(p<0.001),表明它们在可理解性、可操作性和整体质量上更优。所有模型的中位数C-PEMAT得分表明其通常适合患者教育。在事实准确性和指南一致性方面,ChatGPT获得了最高平均分。在任何模型的输出中都没有发现有害的建议或直接与指南相矛盾的内容。相关分析显示,传统的可读性指标与GQS之间的关联较弱,而C-PEMAT与GQS之间存在中等的正相关(r=0.34)。
结论:主流LLM在生成与白日咳相关的健康教育材料方面显示出初步的能力,尽管模型间的差异仍然存在。特定领域的患者教育评估工具比通用的可读性指标更能捕捉到信息质量。这些发现支持在人机协作框架内谨慎、辅助地使用LLM进行健康传播。
引言
百日咳,通常称为“吼咳”,是由百日咳博德特氏菌引起的一种急性呼吸道传染病。临床上,其特征是阵发性咳嗽发作,通常伴随着特有的吸气性“吼声”。传播主要通过呼吸道飞沫发生,疾病过程通常分为三个阶段——卡他期、阵发性期和恢复期——大约持续2-3个月(1, 2)。婴儿是最脆弱的人群,面临肺炎、脑病和死亡等严重并发症的风险增加(3, 4)。尽管广泛接种了含有百日咳成分的联合疫苗(如DTaP),但近年来全球范围内白日咳的发病率有所回升,尤其是在青少年和成人中。疫苗诱导的免疫力下降、病原体适应性增强、监测工作的加强以及免疫策略的变化被认为是促成因素(5)。重要的是,老年群体的白日咳表现往往不典型,导致诊断不足并促进家庭内传播。提高公众意识、改进早期识别和加强预防教育仍然是控制白日咳的关键组成部分(6, 7)。
健康科学普及是指将专业医学知识转化为公众易于理解、可操作的信息(8)。在白日咳的背景下,有效的科普可以提高疫苗接种率、早期症状识别和适当的就医行为(9)。大型语言模型(LLMs)有潜力通过提供按需、个性化且简化的医学内容解释来支持这些努力,从而弥合临床指南和患者理解之间的差距。最近的研究表明,当适当提示时,LLMs可以生成准确且易于理解的患者教育材料,使它们成为健康传播的有希望的工具(1)。尽管仍存在某些挑战,但LLMs的整体能力为提高公共卫生素养提供了巨大的机会。
大型语言模型(LLMs),包括生成预训练Transformer(GPT)系列和其他当代架构,已经迅速改变了获取医疗信息的途径。这些模型在大型通用和科学语料库上进行了训练,表现出强大的自然语言理解和生成能力,能够进行对话互动、信息合成和基本推理(1, 10-12)。在医疗保健领域,LLM的应用大致分为两类:(1)面向公众的智能健康助手,用于科学普及和初步咨询指导;(2)辅助工具,用于医疗专业人员,支持文献检索、文档起草和教育任务(1, 13)。迄今为止,对于LLM在生成特定疾病健康科普材料方面的性能的系统性评估仍然很少,特别是针对儿科呼吸道传染病如白日咳。因此,我们提出了核心假设,即主流LLM在生成可读、高质量且适合教育的白日咳健康内容方面的能力存在显著差异,并且特定领域的评估工具比通用可读性指标更能反映用户感知的质量。本研究旨在全面评估五种主流LLM——ChatGPT、Doubao、DeepSeek、Wenxin Yiyan和Gemini——在生成与白日咳相关的问答内容方面的表现。性能从三个维度进行评估:可读性、信息质量和教育适用性。这些发现旨在为公共卫生传播提供信息,指导考虑AI辅助患者教育的临床医生,并为优化LLM在健康传播中的部署提供实证证据。
材料与方法
伦理考虑
本研究中使用的所有数据均由LLM生成。该研究不涉及任何人或动物对象,且不包含任何个人身份信息或生物样本。根据现行的国际和中国相关学术伦理指南,这种不含人类参与的数据中心研究不需要机构伦理委员会的审查或批准。
研究程序
2025年10月28日,两位具有3年和5年临床工作经验的临床药剂师根据中国一家三级医院的患者和护理人员经常提出的问题,编制了20个关于白日咳的常见问题。这20个问题被分为五个方面:基础知识、症状表现、诊断方法、治疗和管理以及预防和预后(表1)。这些问题还由另一位患者教育工作者和一位患者进行了代表性审查。研究人员将这些20个问题输入到五个公开且免费可访问的大型语言模型中:Doubao、DeepSeek、Wenxin Yiyan、Gemini和ChatGPT。具体的模型版本分别为:ChatGPT(GPT-5,2025年8月8日发布);Gemini(Gemini 2.5 flash,2025年10月7日发布);Doubao(Doubao 1.6,2025年10月版本);DeepSeek(DeepSeek-V3.2-Exp,2025年9月发布);Wenxin Yiyan(Wenxin yiyan 4.5,2025年4月发布)。所有提示都使用简体中文在新的、清空记忆和禁用网络搜索的聊天会话中提交。使用免费账户和默认的安全设置。每个问题在当天上午9:00至11:00之间提交一次,以最小化时间变化。每个问题的确切提示以中文和英文提供:“请用适合患者教育的简体中文回答以下关于白日咳的问题:[问题]”。
表1 问题列表
1. 疾病认知
1. 白日咳的定义是什么,其核心病理生理机制是什么?
2. 白日咳与常见急性上呼吸道感染的主要区别是什么?
3. 白日咳的典型临床阶段有哪些,每个阶段的特点是什么?
4. 白日咳具有传染性吗,其主要传播途径是什么?
2. 症状表现
1. 导致白日咳的主要病原体是什么?
2. 白日咳发展的关键风险因素是什么?
3. 为什么婴儿和幼儿更容易发展成严重的白日咳?
4. 与白日咳患者密切接触是否会显著增加感染风险?
3. 诊断和检查
1. 通常用于诊断白日咳的实验室检测有哪些?
2. 如何根据临床表现和实验室结果确认白日咳?
3. PCR检测在白日咳诊断中的作用是什么?
4. 白日咳与其他引起阵发性咳嗽的疾病之间的鉴别诊断的关键点是什么?
4. 治疗和管理
1. 白日咳的一线抗生素治疗方法是什么?
2. 不同年龄段的白日咳治疗策略有何不同?
3. 严重或复杂白日咳的临床治疗策略是什么?
4. 常用于治疗白日咳的药物可能产生哪些不良反应?
5. 预防和预后
1. 预防白日咳传播的关键公共卫生措施是什么?
2. 白日咳疫苗(如DTaP/Tdap)的接种策略和保护效果是什么?
4. 白日咳儿童恢复期间应考虑哪些护理和生活方式管理?
5. 如何评估白日咳治疗后的治疗效果,如何防止复发或进一步传播?
20个与白日咳相关的问题被分为五个领域。这些问题是根据中国一家三级医院的患者和护理人员经常提出的问题开发的,然后由一位患者教育工作者和一位白日咳患者进行了代表性审查。这五个领域对应于表4中使用的内容类别。
准确性分析
为了评估事实准确性,两位独立专家(一位拥有超过10年临床经验的内科资深主治医师和一位拥有6年临床经验的传染病科资深医师)根据《中国白日咳诊断和治疗指南》(2024年)和CDC白日咳指南(2025年)对每个LLM的回答进行了评分(14, 15)。使用了4分制的一致性评分:0=与指南相矛盾,1=遗漏关键点,2=基本一致,3=完全一致。评分者间的一致性非常好(κ=0.82)。
可读性评估
我们使用了在线文本可读性评估工具提供的各种计算公式(表2)来分析LLM生成的答案(表2)。由于目前没有权威数据表明哪种可读性指标更准确或可靠,也没有既定的黄金标准,本研究采用了先前文献中广泛使用的一组指标(16, 17)。
表2 可读性指标
描述
公式
Gunning FOG (GFOG):估计理解给定文本所需的教育年限。
G = 0.4 × (W/S + ((C×W) × 100))
Flesch Reading Ease Score (FRES):用于评估报纸的可读性,特别适用于评估教科书和技术手册。分数范围从0到100,分数越高表示阅读越容易。
I = (206.835 – (84.6 × (B/W)) – (1.015 × (W/S)))
Flesch–Kincaid grade level (FKGL):确定理解书面材料所需的学术能力水平。
G = (11.8 × (B/W)) + (0.39 × (W/S)) – 15.59
Simple Measure of Gobbledygook (SMOG):衡量普通人理解文本所需的教育年限。
G = 1.0430 × √C + 3.1291
Coleman–Liau (CL) score:评估理解文本所需的教育水平,并提供美国教育系统中的相应年级。
G = (?27.4004 × (E/100)) + 23.06395
Linsear Write (LW):提供对理解文本所需学术水平的近似评估。
LW = (R + 3C) / S
• 如果 >20,则除以2
• 如果 ≤20,则减去2,然后除以2
Automated Readability Index (ARI):评估在美国教育机构中能够理解书面材料所需的学术等级。字符数越多,术语越复杂。
ARI = 4.71 × I + 0.5 × ASL – 21.43
使用了七个经典的可读性指标来评估LLM生成的文本。G = 年级水平;B=音节数;W=单词数;S=句子数;I=Flesch指数得分;SMOG=简单难懂度;C=复杂单词(≥3个音节);E=预测cloze百分比=141.8401 – (0.214590 × 字符数) + (1.079812×S);C*=包括专有名词、通过加“ed”或“es”构成3个音节的单词、由简单单词组成的复合词在内的复杂单词。ASL=每100个单词的平均句数 R=不超过2个音节的单词数。
质量评估
本研究使用了C-PEMAT-P量表(《患者教育材料评估工具》的中国版本)和GQS(全球质量评分)量表来确定文本答案的可靠性(18–21)。C-PEMAT-P包含24个项目,分为两个维度:“可理解性”(16个项目,包括信息的逻辑组织、专业术语的简化等)和“可操作性”(8个项目,包括提供具体的行动指导、适用于目标人群等)。每个项目的得分范围为0-1(0=完全不符合,1=完全符合),总分范围为0到24。较高的分数表示材料对用户的可用性更高。GQS采用1-5分的评分标准:1分表示“质量差,内容逻辑混乱,缺乏关键信息,对用户没有实际价值”;2分表示“质量一般,逻辑不够严谨,核心信息不完整,实际价值有限”;3分表示“质量中等,重要信息部分得到讨论,具有基本的实际价值”;4分表示“质量良好,内容逻辑清晰,涵盖了大部分相关信息,具有很高的实际价值”;5分表示“质量优秀,逻辑严谨,内容连贯,对用户具有显著的实际价值”。2025年10月28日,两位独立的药剂师使用上述评分标准对材料进行了评估。评估者对模型身份不知情:所有100份回复(20个问题×5个模型)都通过随机代码进行了随机化和匿名处理。当评分出现分歧时,第三位专家(具有12年经验的高级主治医生)对最终评分进行了裁决,评审人员通过深入讨论达成共识,记录的最终分数为共识分数。本研究使用Cohen's Kappa系数来量化评分者间的一致性,其解释标准如下:κ > 0.75表示一致性优秀,0.40 ≤ κ ≤ 0.75表示一致性可接受,κ < 0.40表示一致性较差。所有分歧都通过共识讨论解决,以确保评估的严谨性和可靠性。经验证,C-PEMAT-P和GQS评分的Cohen's Kappa系数均大于0.75,符合优秀一致性的标准。
**统计分析**
我们使用Shapiro–Wilk检验来评估每个变量的正态性。对于正态分布的测量变量(如C-PEMAT-P分数和GQS分数,以平均值±标准差[Mean ± SD]的形式表示),采用单因素方差分析(ANOVA)来比较多个组别。对于非正态分布的变量(如ARI和FRES,以中位数和四分位数范围[M, Q1, Q3]的形式表示),应用Kruskal–Wallis H检验来评估组间差异。双侧p值<0.05被视为具有统计显著性。所有数据分析和数据可视化均使用Python 3.14进行。相关矩阵使用Pandas库计算,热图使用Seaborn库生成,其中每个单元格代表成对的r值。颜色强度表示相关性的强度和方向(红色:正相关,蓝色:负相关)。
**结果**
**正态性分析**
C-PEMAT和GQS分数近似正态分布(Shapiro–Wilk p > 0.05),而所有可读性指标(ARI、FRES、GFOG、FKGL、CL、SMOG、LW)显示非正态分布(p < 0.05),表明C-PEMAT和GQS分数近似正态分布(p > 0.05),而所有可读性指标均显示非正态分布(p < 0.05)。
**准确性分析**
根据指南的事实准确性(表3):平均一致性分数(0-3分)分别为:ChatGPT 2.85 ± 0.41、DeepSeek 2.63 ± 0.57、Doubao 2.42 ± 0.60、Wenxin Yiyan 1.77 ± 0.74、Gemini 1.56 ± 0.61。没有回复包含有害建议或与指南直接矛盾的内容。然而,Wenxin Yiyan和Gemini遗漏了更多关键信息。
**表3变量**
| 总计 (n = 100) | Doubao (n = 20) | DeepSeek (n = 20) | Wenxin Yiyan (n = 20) | Gemini (n = 20) | GPT-5 (n = 20) |
|--------------|----------|------------|----------------|----------------|------------|
| 一致性分数,平均值 ± 标准差 | 1.71 ± 0.95 | 2.42 ± 0.60 | 2.63 ± 0.57 | 1.77 ± 0.74 | 2.85 ± 0.41 |
| F = 9.27 | 0.007 | 7.99 ± 2.17 | 8.35 ± 1.73 | 8.45 ± 1.88 | 7.25 ± 2.07 |
| F = 4.58 | 0.002 | 3.08 ± 1.24 | 3.50 ± 0.76 | 3.75 ± 0.55 | 1.80 ± 0.52 |
| GQS分数,平均值 ± 标准差 | 3.08 ± 1.24 | 3.50 ± 0.76 | 3.75 ± 0.55 | 1.80 ± 0.52 | 1.80 ± 0.41 |
| F = 89.72 | <0.001 | | | | |
**ARI,中位数 (Q1, Q3)** | 16.90 (15.20, 19.47) | 18.32 (15.16, 20.46) | 15.91 (15.41, 25.69) | 15.21 (13.84, 16.47) | 19.49 (16.93, 21.16) | 16.84 (15.17, 18.16) | χ2 = 20.06 # <0.001 |
| FRES,中位数 (Q1, Q3)** | 22.00 (11.00, 35.00) | 27.00 (17.00, 35.75) | 18.00 (0.00, 34.25) | 24.50 (18.50, 40.25) | 12.00 (4.50, 26.00) | 28.50 (17.00, 34.00) | χ2 = 10.70 # 0.03 |
| GFOG,中位数 (Q1, Q3)** | 15.80 (13.62, 17.68) | 15.05 (12.15, 16.60) | 16.05 (14.40, 20.10) | 15.45 (12.97, 17.20) | 17.15 (15.88, 18.82) | 14.30 (12.70, 17.32) | χ2 = 13.98 # 0.007 |
| FKGL,中位数 (Q1, Q3)** | 15.77 (13.42, 17.74) | 16.08 (13.77, 17.86) | 15.25 (13.00, 22.38) | 14.59 (12.62, 16.15) | 17.84 (15.91, 19.00) | 15.07 (12.99, 16.30) | χ2 = 13.54 # 0.009 |
| CL,中位数 (Q1, Q3)** | 16.29 (14.87, 18.05) | 15.32 (13.84, 16.71) | 17.16 (15.47, 18.85) | 15.27 (14.53, 16.39) | 17.34 (16.19, 18.49) | 16.81 (15.30, 17.93) | χ2 = 11.22 # 0.024 |
| SMOG,中位数 (Q1, Q3)** | 13.60 (11.98, 15.23) | 13.96 (11.57, 15.29) | 13.07 (11.98, 19.25) | 12.46 (11.15, 14.11) | 15.23 (13.63, 16.54) | 12.91 (11.27, 14.28) | χ2 = 15.80 # 0.003 |
| LW,中位数 (Q1, Q3)** | 55.00 (52.00, 61.00) | 55.00 (53.00, 60.50) | 56.50 (48.50, 61.25) | 57.50 (53.75, 63.25) | 53.00 (50.00, 54.75) | 59.50 (54.00, 65.00) | χ2 = 10.27 # 0.036 |
**五个大型语言模型在一致性分数、C-PEMAT、GQS和可读性指标上的性能比较**
数值以正态分布变量的平均值±标准差(一致性分数、C-PEMAT、GQS)或非正态分布可读性指标的中位数(Q1, Q3)的形式呈现。正态分布变量使用ANOVA,非正态分布变量使用Kruskal-Wallis H检验。加粗的p值表示统计显著差异(p < 0.05)。F: ANOVA,#: Kruskal-Wallis检验;SD: 标准差;M: 中位数;Q1: 第一四分位数;Q3: 第三四分位数。
**可读性分析**
本研究系统地考察了不同大型语言模型生成的百日咳相关健康教育材料的文本质量和可读性在两个维度上的差异:模型类型和内容主题。首先,五个主流LLM(Doubao、DeepSeek、Wenxin Yiyan、Gemini和ChatGPT)在患者教育适宜性、使用全球质量评分(GQS)进行的整体质量评估以及多个可读性指标方面进行了比较。其次,分析了这些指标在五个健康教育主题类别中的变化:疾病认知、症状表现、诊断与检查、治疗与管理以及预防与预后。
**模型间比较(表3)**显示C-PEMAT和GQS分数存在显著差异。ChatGPT、DeepSeek和Doubao的C-PEMAT分数(分别为9.15 ± 1.79、8.45 ± 1.88和8.35 ± 1.73)和GQS分数(分别为4.55 ± 0.60、3.75 ± 0.55和3.50 ± 0.76)显著高于Wenxin Yiyan和Gemini(所有p < 0.001)。这些发现表明,这三个模型生成的内容具有更高的可理解性、可操作性和整体呈现质量。此外,在多个可读性指标上也观察到显著的模型间差异,包括ARI、FRES、GFOG、FKGL、SMOG、词汇词比(LW)和Coleman–Liau指数(CL)。
**按内容主题分析(表4)**显示五个主题类别的C-PEMAT分数存在显著差异,而GQS分数没有统计显著性差异。在可读性指标方面,涉及诊断方法、治疗与管理以及预防与预后的材料在多个阅读难度指标(如ARI和FKGL)上始终表现出更高的分数,表明语言复杂性更高。Flesch阅读易度指数进一步表明,基础疾病知识内容的可读性最高,而治疗与管理内容的可读性最差。Gunning Fog指数、SMOG指数和Coleman–Liau指数也显示出类似的趋势。
**结论**
本研究提出了一种系统性的多维度评估方法,用于评估大型语言模型在百日咳相关健康科学传播中的表现。通过结合模型类型和内容类别,我们的发现阐明了文本质量和可读性的关键决定因素,为LLM在患者教育和公共卫生传播中的标准化和负责任整合提供了实证支持。
**模型类型在文本质量中的决定性作用及机制分析**
我们的结果显示,AI生成的百日咳健康教育材料的质量存在显著的模型间差异,模型类型是主要决定因素。在核心质量指标——患者教育适宜性(C-PEMAT)和整体信息质量(GQS)方面,GPT-5取得了最高分数,其次是DeepSeek和Doubao,而Wenxin Yiyan和Gemini的表现始终较低。这些差异具有统计学意义(所有p < 0.001),强调了架构设计、训练数据组成和对齐策略对LLM生成临床适宜且以患者为中心的教育内容能力的重要影响。
**输出稳定性**
除了平均表现外,输出稳定性是现实应用的关键维度。高性能模型(特别是GPT-5和DeepSeek)在GQS和C-PEMAT分布上的四分位数范围更窄,低分异常值较少,表明它们具备更可靠的医疗通信标准满足能力。相比之下,其他模型的分数分布更广,低质量输出频繁,这突显了其在临床和公共传播环境中的可靠性和适应性方面的问题。
**内容类别对文本可读性的调节作用及其临床意义**
除了模型效应外,我们的发现还揭示了文本可读性的明显主题依赖性。在多个可读性指标(如ARI、FRES、SMOG等)中,随着内容领域的专门化,语言复杂性系统性增加。涉及治疗与管理以及诊断与检查的文本始终显示出更高的阅读难度,反映了传递复杂治疗策略、药理机制和程序信息的必要性。相反,关注基础疾病知识和症状表现的材料具有更高的可读性。这些发现对临床沟通和公共卫生教育具有重要意义,表明内容类别是信息可访问性的独立调节因素。在利用LLM进行健康科学普及时,必须明确预期不同主题的固有语言需求。对于治疗相关内容,需要采取简化策略(如将信息分段、定义专业术语、使用类比)以保持清晰度。对于预防和日常护理指导,则需优先考虑简洁性和直接性,而不牺牲清晰度。值得注意的是,虽然内容类别对可读性指标有显著影响,但对核心质量指标(C-PEMAT和GQS)影响不大。这表明高性能模型能够在不同复杂性的主题中保持准确性、逻辑连贯性和可操作性。从实际角度来看,这一发现支持了在大规模语言模型(LLMs)作为辅助工具在多种患者教育场景中的灵活使用,包括初始疾病教育、诊断结果的解读以及治疗计划的解释,前提是必须保持适当的监督(33)。文本质量和可读性的特点及优化路径进一步明确了文本可读性与其感知质量之间的微妙关系。传统的可读性公式与C-PEMAT和GQS之间的直接关联较弱,这强调了仅仅依靠语言表面的简洁性并不足以实现有效的健康沟通。即使由短句和简单词汇组成的文本,如果缺乏逻辑结构、必要内容或可操作的指导,也可能无法达到预期效果(34)。尽管如此,一些相关性模式为优化提供了宝贵的见解。首先,GQS与词汇长度之间的正相关表明,要传达严谨和可信的健康信息,需要达到一定的信息完整性。过度简略可能会遗漏重要的元素,如禁忌症或逐步推荐。其次,词汇复杂性与教育适用性之间的平衡突显了医学沟通中的一个核心矛盾:专业术语对于科学准确性往往是不可或缺的,但脱离上下文的术语会妨碍患者的理解。因此,有效的健康教育依赖于对技术术语的审慎引入和清晰解释,而不是彻底消除它们(12, 13, 34)。
基于这些发现,未来对LLMs在健康科学沟通中的优化应侧重于:(1)根据用户特征(如健康素养和年龄)动态生成个性化内容,以适应其可读性;(2)采用多目标训练框架,同时优化准确性、连贯性、可操作性和语言可访问性;(3)明确定义人机协作边界,并在复杂或高风险场景中明确提示专业咨询。在这个框架下,LLMs应作为辅助工具,而不是取代临床医生主导的健康教育。
我们的发现对百日咳健康科学普及具有直接影响。临床医生和公共卫生教育者可以考虑使用ChatGPT、DeepSeek或Doubao来生成教育材料的初稿,特别是在这些模型表现良好的基本知识和症状领域。然而,对于治疗和诊断内容,人工审核至关重要,以确保准确性和适当的简化。C-PEMAT与感知质量之间的中等相关性表明,应使用特定领域的工具来评估患者教育材料,而不仅仅是依赖可读性公式。这有助于提高健康素养较低人群对百日咳的认识。
本研究系统地评估了LLM生成的百日咳健康教育文本的质量和可读性,但也需要承认一些局限性。首先,样本仅限于五个主题领域的20个问题,涉及五个LLMs,这限制了其普遍性,无法推广到其他模型和现实世界的患者问题。此外,评估框架主要依赖于专家评估的客观指标,而不是直接测量以患者为中心的结果——例如理解力、信息保留或行为实施——也没有结合临床医生的实时反馈。此外,由于没有考虑患者层面的异质性(包括健康素养、年龄和文化背景的差异),因此无法制定个性化的适应策略,也限制了研究结果的适用性。目前缺乏专门为中国医学患者教育材料设计的广泛认可和验证的可读性评估工具。虽然存在如中文可读性指数探索器(CRIE)这样的工具,但它们主要是在一般教育语料库上验证的,而不是在医学或健康沟通内容上。单次运行、单日的 snapshot 设计没有考虑模型内部的变化或平台随时间的更新。尽管敏感性分析显示变异性较低,但未来的研究应包含多次重复实验。使用方便样本(20个问题)而没有进行正式的功效计算也是一个局限性。最后,虽然新增了事实准确性评估,但它基于中国和美国的指南;其普遍性可能受到其他国家指南的限制。
医学问答领域对准确性、安全性和可靠性有极高的要求。LLMs面临持续的挑战,包括虚假内容的产生、嵌入的训练偏差、复杂的临床推理能力有限,以及责任和监管问题未解决(10)。应对这些挑战需要使用高质量的医学数据进行微调,与权威的基于证据的知识源集成,建立强大的输出验证机制,并采用人机协同系统设计(35, 36)。
根据本研究的发现,提出了三个未来的研究方向。首先,后续研究应扩展评估模型的范围,包括在临床语料库上微调的新LLMs和特定医学领域的变体,同时系统优化提示工程策略和少量样本学习技术,以提高复杂医学主题的输出质量。其次,在真实世界的临床和社区环境中进行前瞻性验证,以评估LLM生成的教育材料如何影响患者的理解、健康行为和临床结果。此类研究应包含多轮对话场景和纵向跟踪,以评估随着时间的推移的性能变化,从而提供持续有效性的证据。第三,未来的工作必须优先开发强大的实施框架,该框架应整合自动化的事实核查机制、基于证据的临床指南、文化适应性评估工具以及明确的人机协作边界。这些框架不仅应关注技术性能,还应考虑责任性、透明度和AI增强型健康教育的公平性,确保这些技术作为专业医学指导的安全有效补充。
总之,本研究表明,在确保AI生成的健康科学内容的质量和适用性方面,模型选择至关重要,而内容主题对其可读性也有重要影响。通过阐明模型特性、主题复杂性和沟通效果之间的相互作用,我们的发现为负责任地使用LLMs进行患者教育和公共卫生沟通提供了实用指导。未来的发展应同时强调信息的严谨性和适应性简化,最终目标是提供准确、易于理解且个性化的AI辅助健康教育,以满足个人需求。