大型语言模型是否符合ASPS和AAPS指南？人工智能聊天机器人的建议与整形外科临床指南的对比

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Plastic, Reconstructive & Aesthetic Surgery》：Are Large Language Models Consistent with ASPS and AAPS Guidelines? A Comparison of AI Chatbot Recommendations and Plastic Surgery Clinical Guidance

【字体：大中小】 时间：2026年03月20日 来源：Journal of Plastic, Reconstructive & Aesthetic Surgery 2.0

编辑推荐：

　　评估AI聊天机器人提供与临床指南一致的信息的能力是关键，本研究比较了ChatGPT-4、Meta Llama 3.1和Microsoft Copilot在五项整形外科指南中的响应一致性。结果显示Copilot引用指南最多（67.3%），但仍有30%的响应与ASPS/AAPS指南不符，提示AI在临床决策中的可靠性不足。

Raeesa Kabir|Savannah C. Braud|Chandler S. Hinson|Rahim S. Nazerali

美国明尼苏达大学医学院，明尼阿波利斯，MN

摘要

引言

评估人工智能聊天机器人为患者提供符合临床指南信息的能力对于评价患者所获得信息的准确性至关重要。本研究评估了三种广泛使用的聊天机器人在参考和回应临床问题时是否符合美国整形外科医师协会（ASPS）的临床指南。

方法

本研究使用了美国整形外科医师协会（ASPS）和美国整形外科医师协会（AAPS）制定的基于证据的临床实践指南，为ChatGPT-4、Meta Llama 3.1和Microsoft Copilot开发了问题提示。评审人员判断聊天机器人的回答是否与ASPS指南一致，并记录了聊天机器人对ASPS的任何引用。数据分析采用了描述性统计方法。

结果

共纳入了来自五项临床指南的49条建议：乳房缩小术、自体乳房重建、与乳房植入物相关的大细胞淋巴瘤、眼睑手术以及皮肤癌后的重建。Microsoft Copilot最常引用ASPS的建议（Copilot：67.3%，Llama：34.7%，ChatGPT：16.3%；p < 0.0001），并且其回答与ASPS和AAPS指南的一致性最高（Copilot：79.6%，Llama：73.5%，ChatGPT：69.4%；p > 0.05）。在不一致的回答中，中性回答最为常见，不同聊天机器人之间的差异不显著（Copilot：60%，Llama：69.2%，ChatGPT：40%；p = 0.62）。

结论

在我们的研究中，高达30%的聊天机器人回答与ASPS和AAPS的指导原则不一致。这些结果表明，需要整形外科协会倡导患者对人工智能聊天机器人的依赖，并针对该领域对AI模型进行专门训练。

引言

人工智能（AI）技术正日益融入现代社会，并开始应用于医学领域，如整形和重建外科。患者常常在咨询临床医生之前，就寻求像ChatGPT这样的人工智能大型语言模型（LLM）聊天机器人的临床信息和指导。1, 2 这一趋势促使了大量文献探讨AI与整形外科的交叉点。AI研究中的重要子领域包括美容和乳房外科、颅面外科以及显微外科。3 已提出了多种临床应用，例如利用聊天机器人回答患者问题并生成个性化治疗计划。4, 5 在研究中，LLM在产生新的研究想法方面显示出潜力，凸显了它们在扩展我们知识库中的作用。6

虽然临床医生接受过批判性评估基于证据的医学信息的培训，但患者可能不具备同等的专业水平。随着消费者和患者越来越依赖LLM，确定流行聊天机器人提供的回答是否符合基于证据的临床指南变得至关重要。先前的研究已经评估了这一问题，一些研究表明聊天机器人在提供符合北美脊柱协会（NASS）临床指南的建议方面的能力有限。7, 8, 9 相反，另一项研究发现ChatGPT的回答与世界跨性别健康专业协会（WPATH）的建议基本一致。10 然而，关于各种聊天机器人与国家整形外科组织指南的一致性的研究仍然不足。Saturno等人在2023年的一项研究探讨了ChatGPT与乳房重建手术指南的一致性，但该研究仅限于乳房重建领域，并且只分析了一个聊天机器人。11 同样，评估WPATH指南一致性的研究也仅使用了ChatGPT。10 尽管这些研究提供了关于聊天机器人与标准指南一致性的宝贵见解，但它们的范围有限，且仅关注了一个聊天机器人，这突显了需要评估整形和重建外科领域中多个广泛使用的LLM的必要性。

因此，本研究旨在通过评估多个流行的聊天机器人（OpenAI的ChatGPT、Meta AI的Llama和Microsoft Copilot）是否能够根据美国整形外科医师协会（ASPS）和美国整形外科医师协会（AAPS）的基于证据的临床指南来回应与整形外科相关的临床问题，从而填补这一空白。尽管这项研究的动机是出于对患者安全和可靠性的考虑，但其出发点是从临床医生的角度出发，重点关注AI聊天机器人与基于证据的临床指南的一致性。

部分内容片段

聊天机器人的选择和问题提示的制定

基于证据的临床实践指南是从ASPS和AAPS网站获取的。选择这些指南是因为它们由包括经过认证的整形外科医生在内的多学科工作组制定，并且在该领域被视为标准参考。12 使用的指南包括：

•

美国整形外科医师协会关于与乳房植入物相关的大细胞淋巴瘤的共识（2024年）

•

美国

结果

从五项临床指南中总共获得了49条建议：与乳房植入物相关的大细胞淋巴瘤（12条）、乳房缩小术（10条）、眼睑手术（10条）以及皮肤癌后的重建（7条）。

Cohen’s kappa指数为0.53（p<0.0001），表明评审人员在评估聊天机器人的回答时存在中等程度的一致性。以下示例展示了聊天机器人的回答及其分类情况。

讨论

自2022年ChatGPT公开发布以来，人们对AI在医疗保健中作用的兴趣显著增加，但其在临床决策中的可靠性仍不确定。在整形外科领域，最近的研究探讨了AI在临床咨询、诊断、手术计划和术后护理中的应用。21, 22, 23 此外，也有研究正在探索将AI平台作为虚拟患者助手的潜力。24 患者也越来越依赖AI聊天机器人来获取健康信息。

结论

我们的研究发现，高达30%的聊天机器人回答与ASPS和AAPS推荐的基于证据的临床指南不一致。Microsoft Copilot比Llama和ChatGPT更频繁地引用临床建议。这些结果表明，AI聊天机器人目前还不能完全可靠地提供准确的、基于证据的推荐，不同LLM提供的信息可能存在显著差异。随着AI在医疗保健中的使用不断增长，整形外科医生必须

伦理批准

无需伦理批准。

资金来源

本研究的任何部分均未获得任何资金支持。

关于写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT-4（OpenAI，美国加州旧金山）、Meta Llama 3.1（Meta AI，美国加州门洛帕克）和Microsoft Copilot（Microsoft，美国华盛顿州雷德蒙德）来向AI聊天机器人提出预设问题以收集数据。在本研究中，AI未被用于其他目的。

利益冲突

无。

联系信箱：

粤ICP备09063491号

摘要

引言

方法

结果

结论

引言