
-
生物通官微
陪你抓住生命科技
跳动的脉搏
五种人工智能聊天机器人在提供脑震荡健康建议方面的可靠性和可读性:比较了基于检索增强模型和预训练模型的性能
《Scientific Reports》:Reliability and readability of five AI chatbots for concussion health advice across retrieval augmented and pretrained models
【字体: 大 中 小 】 时间:2026年05月04日 来源:Scientific Reports 3.9
编辑推荐:
摘要生成式人工智能正在迅速融入患者教育的工作流程中,但其在治疗脑震荡方面的安全性仍不明确。本研究运用CHART框架对五个平台进行了评估,特别对比了基于检索增强(RAG)技术的生成模型与标准预训练的大型语言模型(LLMs)。我们从Google Trends中提取了11个高频率的患者
生成式人工智能正在迅速融入患者教育的工作流程中,但其在治疗脑震荡方面的安全性仍不明确。本研究运用CHART框架对五个平台进行了评估,特别对比了基于检索增强(RAG)技术的生成模型与标准预训练的大型语言模型(LLMs)。我们从Google Trends中提取了11个高频率的患者查询,并通过零样本协议对这些查询进行处理。随后,两位盲法的神经外科医生使用四种经过验证的工具对这些生成结果进行了评分:DISCERN和EQIP用于评估治疗和信息质量,GQS用于评估整体内容质量,JAMA基准用于评估透明度。不同模型之间的可靠性指标存在显著差异(DISCERN和EQIP,p?0.001)。Perplexity Pro在DISCERN(47.36?±?4.84)和EQIP(65.00?±?5.48)方面取得了最高分,其表现优于ChatGPT和Gemini等基础模型(p?0.01)——这一优势很可能源于其RAG设计。相比之下,GQS的评分在各种模型间没有显著差异(p?=?0.373),而基于JAMA标准的透明度评分普遍较低(p?0.001)。可读性通过六个标准指标(FRES、FKGL、GFI、CLI、ARI和SMOG)进行评估,结果显示所有模型的可读性均超过了六年级学生的水平;大部分模型的可读性甚至超过了十年级学生的水平,其中Perplexity Pro的FKGL指标最低,为7.46。尽管基于检索增强的系统能够提高临床准确性,但当前的版本仍无法提供清晰易懂的建议。因此,临床应用需要严格的人工审核,并推动算法向通俗语言方向优化。