《Irish Journal of Medical Science (1971 -)》:Evaluation of the quality of information provided by ChatGPT on distal biceps repair surgery
编辑推荐:
摘要:背景:远端肱二头肌肌腱断裂(Distal biceps tendon rupture)是一种罕见损伤,通常发生在肱二头肌肌群受强力偏心收缩时。本研究旨在评估AI软件(ChatGPT)在检索远端肱二头肌损伤及其处理信息时提供信息的质量、可信度及可读性。方法
摘要:背景:远端肱二头肌肌腱断裂(Distal biceps tendon rupture)是一种罕见损伤,通常发生在肱二头肌肌群受强力偏心收缩时。本研究旨在评估AI软件(ChatGPT)在检索远端肱二头肌损伤及其处理信息时提供信息的质量、可信度及可读性。方法:使用开源AI模型(ChatGPT)回答25个患者常问的关于远端肱二头肌手术的问题。采用JAMA基准标准(JAMA Benchmark criteria)、DISCERN评分、Flesch-Kincaid易读性得分(Flesch-Kincaid Reading Ease Score, FRES)和年级水平(Flesch-Kincaid Grade Level, FKGL)对答案进行医学准确性、质量和可读性评估。结果:JAMA基准标准得分为0分(最低分),表明未引用可靠资源;DISCERN评分为44.3分,属较好(good)评分;开源AI模型未获满分的方面涉及缺乏汇编答案所用的可查来源材料,以及部分信息未完全得到文献支持;FRES为38.5,FKGL为大学阅读水平。结论:理解ChatGPT提供的远端肱二头肌修复相关信息需较高阅读水平,所提供证据质量尚可(fair)。因无引文提供,答案来源不明。但ChatGPT通过强调与外科医生进一步讨论的重要性对患者进行了安全网提示(safety-net)。亟需更多患者易理解的高质量来源用于远端肱二头肌修复的患者宣教。
《Irish Journal of Medical Science (1971 -)》刊载论文解读:ChatGPT提供的关于远端肱二头肌肌腱修复术信息的质量评价
研究背景与立题依据
远端肱二头肌肌腱断裂是一种相对少见但影响肢体功能的损伤,多见于中年男性,通常由肘部强力偏心负荷导致,可导致明显的屈肘及前臂旋后力量丧失。对于高功能需求患者,通常推荐手术修复以更好恢复肌力。知情同意是安全外科实践的基石,但研究表明外科医生常低估患者术前希望获取的信息量,促使患者转而向网络或其他渠道寻求补充信息,其中包括人工智能(AI)大语言模型(Large Language Model, LLM)如ChatGPT生成的内容。目前缺乏针对LLM产出的医疗信息准确性与透明度的统一监管标准,且既往骨科领域对肩关节稳定术、前交叉韧带损伤等的评估显示,AI生成内容虽大体准确但阅读难度常超出普通患者水平。远端肱二头肌肌腱断裂这一特定病种尚未见针对ChatGPT产出信息的质量与可读性系统评价。鉴于此,研究人员开展本研究以评估ChatGPT回答远端肱二头肌肌腱断裂及修复常见患者问题的质量、可靠性与可读性,假设其信息整体质量尚可(fair)但阅读水平高于患者教育材料推荐标准。
主要研究方法
研究人员于2024年5月25日向ChatGPT提交25个基于既往文献及临床实践制定的远端肱二头肌肌腱断裂及手术治疗相关患者常见问题,在同一会话中获取全部回答。由三名研究者(CJK, SPW, AS)独立评估:采用DISCERN量表(排除最后一项总体评级,总分判读:63–75优秀,51–62良好,39–50尚可,27–38差,15–26极差)评价治疗选择信息质量;采用JAMA基准标准(评估作者Authorship、归属Attribution、利益披露Disclosure、时效性Currency四项,每项存在记1分,满分4分)评价透明度与问责性;采用Flesch-Kincaid易读性得分(Flesch-Kincaid Reading Ease Score, FRES)和Flesch-Kincaid年级水平(Flesch-Kincaid Grade Level, FKGL)评估可读性。组间信度采用Kappa统计量判定。
研究结果
JAMAbenchmark(美国医学会杂志基准标准)
JAMA基准标准总分为0分。所有回答均未标明作者及资质、未引用参考文献、未声明利益冲突或赞助、未标注内容创建或更新时间,完全缺失四项评估域,凸显透明度与问责性不足。
DISCERN scores(DISCERN评分)
平均DISCERN评分为44.3分,对应尚可(fair)质量。ChatGPT能连贯描述损伤机制、手术指征、宽泛治疗选项及典型康复里程碑,但常因无循证引证支持及部分解释过于笼统而扣分(如描述手术技术"有效"却未明确比较风险与获益)。三名评审者DISCERN评分的组间Kappa值为0.75,提示具有实质性(substantial)一致性。
Readability and content themes(可读性与内容主题分析)
平均FRES为38.5(较难文本),平均FKGL为11.8(相当于美国高中后期至大学早期阅读水平),提示多数患者理解存在困难。内容分析显示ChatGPT通常能描述断裂发生于突然暴力屈肘负荷、推荐年轻或活跃完全断裂患者手术修复、概述阶段性康复流程并指出术后数月可恢复无限制活动;但未附参考文献,围术期全身麻醉风险及并发症细节有限,部分表述笼统(如多种术式"可行"而无进一步阐述)。
讨论与结论翻译
本研究主要发现为:ChatGPT提供的远端肱二头肌肌腱断裂及修复信息质量尚可(fair),但阅读水平可能对相当比例患者过高。回答临床内容合理且内在一致,但缺引文及作者信息限制了可验证性与整体可信度。有效沟通在骨科实践中至关重要,成人读写能力常低于理解复杂医学文本所需水平,这驱动患者上网寻求信息,而ChatGPT类AI平台在此信息生态中地位显著。AI工具表现依赖训练数据质量与时效性,大语言模型无法天然区分高低质量来源,且通常不具HON(Health On the Net)认证或同类监管框架,如正式纳入患者教育路径需独立评估与外部监管。本研究发现与既往骨科及运动医学中ChatGPT评估结论一致——内容质量尚可至良好但可读性为主要短板。对于远端肱二头肌肌腱修复,ChatGPT给出合理的指征与预期结局概述,但未能可靠强调需经骨科医生个体化评估(考虑合并症、职业及运动需求等)。因此应将ChatGPT视为宽泛信息的辅助来源而非个性化决策工具。
结论:研究人员判定ChatGPT对远端肱二头肌肌腱断裂及修复常见患者问题的回答质量属尚可(fair),但要求相对较高阅读水平(FKGL 11.8)。完全缺失作者详情、参考文献及利益冲突披露损害透明度并使信息难以核实。尽管ChatGPT常鼓励用户咨询外科医生,其应被视为临床医生宣教之外的补充性通用信息来源,而非替代。仍需开发来源透明、语言通俗且基于循证的高质量患者教育材料,服务于接受远端肱二头肌肌腱修复术的个体。