ChatGPT 能接我的电话吗?——评估 AI 在妇科肿瘤电话分诊中的应用
《Gynecologic Oncology Reports》:Can ChatGPT Take My Call? evaluating AI in gynecologic oncology telephone triage
【字体:
大
中
小
】
时间:2026年05月10日
来源:Gynecologic Oncology Reports 1.3
编辑推荐:
安·玛丽·梅尔西耶(Ann Marie Mercier)| 莎伦·霍尔茨曼(Sharonne Holtzman)| 阿什娜·萨伊尼(Aashna Saini)| 丽莎·J·莫德尔(Lisa J. Mordell)| 安德鲁·瓦列霍(Andrew Vallejo)| 克里斯滕·泽利
安·玛丽·梅尔西耶(Ann Marie Mercier)| 莎伦·霍尔茨曼(Sharonne Holtzman)| 阿什娜·萨伊尼(Aashna Saini)| 丽莎·J·莫德尔(Lisa J. Mordell)| 安德鲁·瓦列霍(Andrew Vallejo)| 克里斯滕·泽利格斯(Kristen Zeligs)| 斯蒂芬妮·威廉姆斯(Stephanie Williams)| 凯特琳·卡尔(Caitlin Carr)| 斯蒂芬妮·V·布兰克(Stephanie V. Blank)
美国西奈山伊坎医学院妇产科与生殖科学系,妇科肿瘤学分部
**摘要**
随着人工智能(AI)应用的普及,患者和临床医生愈发依赖这些平台获取医学信息和指导。本研究评估了ChatGPT在分诊和回复妇科肿瘤(GO)患者电话咨询方面的能力。
**方法**
在这项横断面研究中,使用ChatGPT-4o对30个患者案例进行了评估。四位医生独立使用5点李克特量表(1=非常差;5=非常好)对回答的准确性、全面性、清晰度、相关性和适用性进行了评分,并判断是否存在错误信息(是/否)。威尔科克森符号秩检验(Wilcoxon signed-rank test)将平均评分与预设的3.0分“可接受”阈值进行比较,统计显著性设为p<0.05。错误信息的发生率及其95%置信区间(CI)也被计算出来。医生建议与AI推荐的诊疗方案的一致性通过科恩卡帕系数(Cohen’s kappa)进行评估。同时总结了错误分类的情况(过度分诊与 underestimate 分诊)。
**结果**
在30个案例中,AI与医生的分诊结果完全一致的占26例(86.7%)。4个回答中发现了错误信息(3.3%;95% CI,0.6–16.7%):其中3例被过度分诊为需一周内就诊,1例被低估为可居家观察。在所有10个AI建议患者前往急诊科的案例中,AI的推荐也与医生的判断一致(κ=0.87)。医生对AI回答的评分在所有维度上均显著高于可接受阈值(p<0.001)。
**结论**
ChatGPT在分诊和回复妇科肿瘤患者电话咨询方面表现出高可靠性,提供了清晰、准确且符合临床规范的指导。其在紧急情况下的表现一致性以及倾向于保守分诊的特点表明,AI可作为支持值班人员的宝贵辅助工具,提升夜间妇科肿瘤的分诊工作效率。
**1. 引言**
人工智能(AI)正迅速融入医疗实践,应用于诊断支持、风险分层、临床决策制定和工作流程优化等领域。尤其是ChatGPT,因其开源特性和作为大型语言模型的能力(能够处理大量信息并生成类似人类的文本)而受到广泛应用。患者和临床医生越来越多地依赖ChatGPT获取健康相关信息。多项研究探讨了ChatGPT在妇产科(OBGYN)领域的表现,特别是其对常见医学问题的响应能力。Antelo等人(2025年)发现ChatGPT的回答存在不一致性,27%的回答包含错误信息。Patel等人(2024年)指出,在妇科肿瘤(GO)方面,ChatGPT对83%的常见遗传相关问题提供了准确全面的回答。Hermann等人(2023年)证实其能在宫颈癌预防、生存率和生活质量方面提供准确信息,但在宫颈癌诊断和管理策略方面回答的准确性较低。尽管兴趣日益增长,但关于ChatGPT在实际妇科肿瘤临床场景中的表现的研究仍有限。本研究评估了ChatGPT在分诊和回复值班妇科肿瘤医生的电话咨询方面的能力,主要目的是评估其在判断临床紧急程度和提供合适指导方面的准确性,并将其建议与医生建议进行直接对比。
**2. 方法**
这是一项单机构、横断面的研究,纳入了2024年12月1日至2025年7月31日期间值班妇科肿瘤医生处理的30个真实患者案例(见表1)。临床案例涵盖了术后问题、妇科症状、化疗副作用及其他肿瘤相关问题。每个案例的诊疗方案均由值班医生与主治妇科肿瘤专家共同制定。
**表1. 妇科肿瘤患者咨询问题**
- 术后护理
- 患者因腹腔镜双侧输卵管卵巢切除术后不到一周伤口处发红而咨询
- 患者因子宫内膜腺癌分期术后不到一周出现阴道点滴出血而咨询
- 患者因宫颈病变LEEP术后第14天出现阴道分泌物而咨询
- 患者因腹腔镜双侧输卵管卵巢切除术后一周出现上腹部红斑而咨询
- 患者因子宫内膜腺癌分期术后第14天体温达到100.7华氏度而咨询
- 患者因腹腔镜子宫切除术后第14天伤口处出现皮瓣感染而咨询
- 患者因腹腔镜子宫切除术后第28天伤口处有少量透明分泌物而咨询
- 患者因腹腔镜手术后大腿上部出现轻微皮疹而咨询(术后未洗澡且未使用任何治疗)
- 患者因血小板减少(近期血小板数为37)伴严重阴道出血而咨询(腹腔镜宫腔镜检查及刮宫术后)
- 患者因术后第17天出现背部和肩部疼痛而咨询
- 患者因腹腔镜卵巢囊肿切除术后第5天出现喉咙痛而咨询
- 患者因右侧腹部穿刺部位大量分泌物浸湿绷带和毛巾而咨询
- 患者因腹腔镜子宫切除术后第12天切口持续发红而咨询(正在口服抗生素)
- 患者因术后第6天出现疲劳、脱水、食欲减退但能正常进食(因双侧附件肿块可能为淋巴瘤)而咨询
- 患者因术后第5天体温达到101.0华氏度而咨询(退烧药无效)
- 患者因性交后出现阴道出血而咨询(因宫颈病变LEEP术后)
- 患者因 carboplatin/paclitaxel/herceptin 化疗周期2后出现神经病变和肢体疼痛而咨询
- 患者因卵巢癌复发性化疗一周后出现恶心、食欲减退及呕吐而咨询
- 患者因反复 vulvar cancer 接受 tisotumab vedotin 治疗9天后出现食欲减退、乏力及呕吐而咨询
- 患者因高级别浆液性癌伴腹膜转移化疗周期3后出现皮肤疼痛和灼热感而咨询
- 患者因便秘而咨询(正在接受化疗周期1的 carboplatin/paclitaxel/herceptin 治疗)
- 患者因绝经后子宫纤维瘤伴严重出血而咨询
- 患者因首次性交时感到“咔嗒”声并出现阴道突出及压力感而咨询(术后4个月,腹腔镜子宫切除术后)
- 患者因术后第一天出血频繁需更换护垫而咨询
- 患者因外阴炎症和瘙痒持续4天(怀疑是对 lanolin 的反应)而咨询(患有 lichen sclerosis 和 dVIN,计划3个月后进行广泛局部切除)
- 患者因绝经后子宫肿瘤伴出血而咨询(昨天在门诊进行子宫内膜活检)
- 患者因术后第1次性交时出现“咔嗒”声及阴道突出而咨询(术后4个月,腹腔镜子宫切除术后)
- 患者因化疗周期2后出现的 platinum 抗性卵巢癌伴多线化疗,功能状态下降、行动受限而咨询
- 患者因右侧下肢严重水肿伴巨大子宫肿块及肝转移而咨询
**3. 结果**
AI在所有维度上的评分均显著超过预设的可接受阈值(p<0.0001):
- 准确性:4.30(SD 0.84)
- 全面性:4.37(SD 0.76)
- 清晰度:4.43(SD 0.77)
- 相关性:4.80(SD 0.48)
- 适用性:4.73(SD 0.58)
- 总体评分:4.53(SD 0.65)
在4个临床场景中发现了错误信息(3.3%;95% CI,0.6–16.7%):包括3个术后护理场景和1个妇科症状管理场景。AI推荐的分诊方案与医生记录的诊疗方案的一致性较高(κ=0.87)。医生建议与AI推荐的诊疗方案一致的情况占26例(86.7%)。AI在3个案例中过度分诊(10.0%),建议患者一周内紧急就诊;在1个案例中低估了情况,建议患者居家观察。在所有10个医生建议患者前往急诊科的案例中,AI的推荐也与医生的判断一致。
**4. 讨论**
ChatGPT在分诊和回复妇科肿瘤患者电话咨询方面的表现显示出了高可靠性,提供了清晰、准确且符合临床规范的指导。其在紧急场景中的稳定表现以及倾向于保守分诊的特点表明,AI可作为值班人员的有力辅助工具,提升夜间妇科肿瘤的分诊效率。**分诊建议**
| 病患问题编号 | 同事分诊建议 | ChatGPT分诊建议 | 分诊管理一致性 |
|------------------|------------------|------------------|--------------|
| Q1 | 是 | 是 | 是 |
| Q2 | 是 | 是 | 是 |
| Q3 | 是 | 是 | 是 |
| Q4 | 否 | 否 | 否 |
| Q5 | 是 | 是 | 是 |
| Q6 | 否 | 否 | 否 |
| Q7 | 是 | 是 | 是 |
| Q8 | 是 | 是 | 是 |
| Q9 | 是 | 是 | 是 |
| Q10 | 是 | 是 | 是 |
| Q11 | 是 | 是 | 是 |
| Q12 | 是 | 是 | 是 |
| Q13 | 是 | 是 | 是 |
| Q14 | 否 | 是 | 否 |
| Q15 | 是 | 是 | 是 |
| Q16 | 是 | 是 | 是 |
| Q17 | 是 | 是 | 是 |
| Q18 | 是 | 是 | 是 |
| Q19 | 是 | 是 | 是 |
| Q20 | 否 | 是 | 否 |
| Q21 | 是 | 是 | 是 |
| Q22 | 是 | 是 | 是 |
| Q23 | 是 | 是 | 是 |
| Q24 | 是 | 是 | 是 |
| Q25 | 是 | 是 | 是 |
| Q26 | 是 | 是 | 是 |
| Q27 | 是 | 是 | 是 |
| Q28 | 是 | 是 | 是 |
| Q29 | 是 | 是 | 是 |
| Q30 | 是 | 是 | 是 |
对于每个患者问题,表格列出了值班同事的分诊建议、AI生成的分诊建议以及这些建议是否一致。这种比较用于评估AI和医疗服务提供者分诊决策之间的一致性。分诊建议被编码为:(1)急诊部门评估;(2)一周内紧急门诊就诊;(3)在家管理并采取家庭干预措施;(4)常规随访。
如补充表1所示,对于AI响应准确性的评级,评估者之间没有显著差异(χ2 = 6.08,p = 0.108)。然而,在全面性(χ2 = 13.79,p = 0.003)、清晰度(χ2 = 36.20,p < 0.001)、相关性(χ2 = 18.00,p < 0.001)、适用性(χ2 = 27.06,p < 0.001)和整体评级(χ2 = 23.06,p < 0.001)方面,评估者之间存在显著差异。评估者4的评分始终低于其他评估者,尤其是在清晰度和适用性方面。评估者2和3的评分最高,经常表现出上限效应。
**讨论**
本研究表明,AI代理可以生成准确且易于理解的回答,以应对妇科门诊(GO)患者的关切,同时也能适当处理非工作时间的临床场景。在所有案例类型中,医生的平均评分超过了5点Likert量表上的4.0分,反映了AI在准确性、全面性、清晰度、相关性和临床适用性方面的高质量表现。医生的评分超过了预定义的可接受阈值3.0分,表明AI生成的回答在临床上是合理的,并符合护理标准;然而,这并不意味着其性能等同于培训生的水平。尽管与化疗相关的案例始终显示出最高的平均评分,但这些差异在统计上并不显著,这表明AI在不同类型的妇科门诊患者问题中表现是一致的。重要的是,医生审查发现AI回答中的错误信息非常少。AI生成的分诊建议与同事的管理建议高度一致,包括在紧急情况下的完全同意以及在少数不一致情况下的保守过度分诊。这些发现共同支持了AI辅助分诊在所研究背景下的安全性。
先前的几项研究已经探讨了AI在妇科门诊中的作用,特别是在治疗计划和临床决策方面,结果各不相同。Rios-Doria等人(2023年)评估了ChatGPT对肿瘤委员会案例的回答,发现只有46%的情况下与机构的多学科建议一致。(Rios-Doria,2024年)同样,Reicher等人(2025年)报告称,AI生成的复杂妇科门诊案例管理建议往往繁琐,而对更基本的临床问题(如筛查和遗传风险评估)的回答通常比较准确。(Reicher等人,2025年)这些发现凸显了将AI应用于复杂肿瘤学决策的局限性。相比之下,我们的研究专注于一个更具体、定义更明确的临床任务:非工作时间对妇科门诊患者电话呼叫的分诊。通过将AI的回答限制在与现实世界同事决策一致的分诊选项范围内,我们能够直接比较AI建议与临床管理。这种结构化的引导方式可能解释了我们在研究中观察到的较高一致性,特别是在ChatGPT与急诊部门转诊决策完全一致的紧急情况下。
我们的结果也与评估AI在急性和时间敏感的临床环境中表现的新文献一致。Kim等人(2025年)表明,ChatGPT对急诊门诊妇科门诊场景的回答(包括鉴别诊断、初步检查和管理)得到了医生评审者的更高评价。(Kim,2025年)除了妇科肿瘤学领域外,Ayers等人(2023年)发现AI对患者医疗问题的回答在社交媒体上被评为质量更高、更具同情心且更全面。(Ayers等人,2023年)总体而言,这些研究表明AI可能特别适合结构化、时间敏感的临床互动,例如患者分诊和症状评估。
本研究有几个显著的优势。它使用了真实世界的患者案例,由多位妇科肿瘤学家进行独立评估,并将AI建议与实际记录的临床决策进行了直接比较,而不是假设的标准。此外,包含多样化的临床表现增强了我们发现的相关性,反映了常规值班实践的情况。
然而,也有一些局限性需要考虑。样本量较小限制了普遍性,且单一机构的设计可能反映了特定机构的实践模式。此外,虽然本研究评估了分诊的准确性和一致性,但并未评估下游临床结果或以患者为中心的指标。未来的工作应包括更大规模的多中心队列、前瞻性实施以及对患者结果的评估,以更好地定义AI辅助分诊工作流程的临床影响。
总体而言,这些发现的临床意义重大。随着AI工具越来越多地整合到医疗系统中,重点必须从是否应该使用它们转向如何安全有效地实施它们。我们的数据表明,ChatGPT可以作为非工作时间分诊的决策支持工具,而不是替代同事,而是在夜间分诊过程中提供一层结构化的推理。AI可能有助于减轻培训生的认知负担,因为夜间值班需要在疲劳状态下快速做出决策,拥有一个能够快速整理鉴别诊断、风险因素等工具可能有助于减轻心理负担。
总之,当与适当的临床夜间支持结合使用时,AI辅助分诊有潜力增强妇科门诊的夜间和周末覆盖。这些发现支持进一步研究AI作为辅助工具在支持值班人员 và优化妇科门诊实践中的分诊工作流程中的作用。
**数据声明**
当前研究中生成和分析的数据集可根据合理请求从相应作者处获得。
**作者贡献声明**
- Ann Marie Mercier:撰写 – 审稿与编辑、撰写 – 原稿、方法学、数据分析、概念化。
- Sharonne Holtzman:撰写 – 审稿与编辑、撰写 – 原稿、方法学、数据分析、概念化。
- Aashna Saini:撰写 – 审稿与编辑、撰写 – 原稿、数据分析。
- Lisa J. Mordell:撰写 – 审稿与编辑、方法学、数据分析、概念化。
- Andrew Vallejo:撰写 – 审稿与编辑、数据分析。
- Kristen Zeligs:撰写 – 审稿与编辑、监督。
- Stephanie Williams:撰写 – 审稿与编辑、概念化。
- Caitlin Carr:撰写 – 审稿与编辑、数据分析。
- Stephanie V. Blank:撰写 – 审稿与编辑、监督。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号