
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估ChatGPT和Gemini对患者关于乳房增强整形手术常见问题的回答
《Aesthetic Plastic Surgery》:Assessing ChatGPT and Gemini Responses to Common Patient Questions Regarding Augmentation Mammaplasty
【字体: 大 中 小 】 时间:2026年03月27日 来源:Aesthetic Plastic Surgery 2.8
编辑推荐:
本研究对比ChatGPT与Gemini在回答乳房整形术FAQ时的质量与可读性。结果显示,两者质量评分无显著差异(p=0.317),但ChatGPT可读性更高(FKGL降低2级)。建议结合临床监督使用LLMs辅助患者教育。
大型语言模型(LLMs)正成为患者获取医疗信息的常见来源。
本研究旨在评估和比较ChatGPT与谷歌的Gemini在回答关于隆胸手术(AM)的常见问题(FAQs)时的质量和可读性。
向ChatGPT(GPT-4.1 mini)和Gemini(2.5 Flash)提交了10个关于隆胸手术的FAQ。回答内容经过去标识处理后,由两名经过认证的整形外科医生和一名高级住院医师独立使用全球质量评分(GQS)进行评估。可读性通过Flesch阅读难度指数(FRE)和Flesch–Kincaid年级水平(FKGL)进行评估。配对比较使用了Wilcoxon符号秩检验来分析每个问题的GQS中位数,评分者间一致性使用Kendall’s W检验,可读性评估则根据需要采用相应的配对检验方法。
在60次独立评分中(3名评分者×10个项目×2个模型),ChatGPT的9个回答和Gemini的10个回答的每个问题的GQS中位数均为5分;配对比较显示两者之间没有显著差异(Wilcoxon Z = ?1.00;p = 0.317;效应量r = 0.32)。评分者间一致性分别为ChatGPT的W = 0.24(p = 0.091)和Gemini的W = 0.60(p = 0.002)。ChatGPT生成的输出更具可读性(FRE:46.53 vs 43.70,p = 0.243;FKGL:9.71 vs 11.43,p = 0.002),表明其可读性大约提高了两个美国年级水平。
ChatGPT和Gemini都生成了高质量的关于隆胸手术常见问题的回答,根据GQS评分,两者在质量上没有差异。根据FKGL评估,ChatGPT的回答明显更易于阅读。在临床医生的监督下使用LLMs可以帮助患者教育,从而减轻其局限性并防止错误信息的传播。
本期刊要求作者为每篇文章指定一个证据等级。有关这些循证医学评分的完整描述,请参阅目录或在线作者指南 www.springer.com/00266。
大型语言模型(LLMs)正成为患者获取医疗信息的常见来源。
本研究旨在评估和比较ChatGPT与谷歌的Gemini在回答关于隆胸手术(AM)的常见问题(FAQs)时的质量和可读性。
向ChatGPT(GPT-4.1 mini)和Gemini(2.5 Flash)提交了10个关于隆胸手术的FAQ。回答内容经过去标识处理后,由两名经过认证的整形外科医生和一名高级住院医师独立使用全球质量评分(GQS)进行评估。可读性通过Flesch阅读难度指数(FRE)和Flesch–Kincaid年级水平(FKGL)进行评估。配对比较使用了Wilcoxon符号秩检验来分析每个问题的GQS中位数,评分者间一致性使用Kendall’s W检验,可读性评估则根据需要采用相应的配对检验方法。
在60次独立评分中(3名评分者×10个项目×2个模型),ChatGPT的9个回答和Gemini的10个回答的每个问题的GQS中位数均为5分;配对比较显示两者之间没有显著差异(Wilcoxon Z = ?1.00;p = 0.317;效应量r = 0.32)。评分者间一致性分别为ChatGPT的W = 0.24(p = 0.091)和Gemini的W = 0.60(p = 0.002)。ChatGPT生成的输出更具可读性(FRE:46.53 vs 43.70,p = 0.243;FKGL:9.71 vs 11.43,p = 0.002),表明其可读性大约提高了两个美国年级水平。
ChatGPT和Gemini都生成了高质量的关于隆胸手术常见问题的回答,根据GQS评分,两者在质量上没有差异。根据FKGL评估,ChatGPT的回答明显更易于阅读。在临床医生的监督下使用LLMs可以帮助患者教育,从而减轻其局限性并防止错误信息的传播。
本期刊要求作者为每篇文章指定一个证据等级。有关这些循证医学评分的完整描述,请参阅目录或在线作者指南 www.springer.com/00266。