《International Journal of Medical Informatics》:The role of artificial intelligence in virtual emergency care: a systematic review
编辑推荐:
人工智能在虚拟急诊护理中的应用研究显示证据不足,存在方法学局限,未测量实际临床效果,需更多前瞻性试验验证。
拉维·尚卡尔(Ravi Shankar)| 王琳达(Linda Wang)| 何顺和(Ho Soon Hoe)| 伊莎贝拉·李怡(Isabella Lee Yee)| 刘美凤(Liew Mei Fong)| 萨蒂亚·帕万·库马尔·戈拉穆迪(Satya Pavan Kumar Gollamudi)| 黄泽钦(Tze Chin Wong)| 娜琳·黄(Serene Wong)
新加坡国家医疗集团淡笃生医院临床研究与创新办公室
摘要
背景
将人工智能(AI)整合到虚拟急诊护理中代表了一种潜在的医疗保健服务变革方式,然而相关证据基础仍然不够充分。本系统评价全面梳理了AI在虚拟急诊护理应用中的现状。
方法
我们系统地检索了八个数据库(Embase、PsycINFO、MEDLINE、PubMed、Scopus、CINAHL、Cochrane Library),检索时间从最初至2025年3月。在通过Covidence去重后,共识别出7,098条记录,其中4,935条记录经过筛选。在排除了一项缺乏AI组件的研究后,最终有8项研究符合纳入标准。我们使用PROBAST+AI对研究存在的偏倚风险和质量进行了评估,使用TRIPOD+AI对报告质量进行了评估,并使用GRADE对证据的确定性进行了评估。
结果
纳入的8项研究(总参与者数量约50万)评估了多种AI应用,包括决策树、机器学习集成模型和图神经网络,这些应用应用于多种虚拟急诊场景。各研究的性能差异很大(准确率在77.5%至100%之间,敏感性在63%至100%之间,具体数据来自某一项研究)。所有临床研究均存在严重的偏倚风险。TRIPOD+AI的合规性平均仅为36.9%(范围30.9%至48.1%)。GRADE评估显示所有研究结果的确定性都非常低或较低,且没有任何研究测量了实际的临床结果。
结论
现有证据不足以支持在虚拟急诊护理中广泛实施AI。虽然初步结果表明AI在分诊准确性和资源利用效率方面具有潜在优势,但在验证、临床结果评估和报告标准方面仍存在关键差距。未来的研究应优先考虑使用真实患者数据进行的前瞻性对照试验,并遵循报告指南。
引言
人工智能(AI)与虚拟急诊护理的结合是现代医疗保健领域最具前景但尚未得到充分验证的前沿之一[1][2]。随着全球医疗系统面临人口老龄化、劳动力短缺和成本上升的压力,AI赋能的虚拟急诊服务在提高医疗可及性、效率和护理质量方面的潜力引起了广泛关注[3][4]。然而,技术发展的速度超过了确保安全有效临床应用所需的严格评估工作[5]。
虚拟急诊护理是指通过数字技术远程提供急诊医疗服务,这一模式在COVID-19疫情期间得到了显著发展[6]。它包括视频咨询、电话分诊、移动健康应用和基于网络的症状检查等多种形式[7]。我们将虚拟急诊护理定义为通过数字技术远程提供紧急医疗评估,适用于需要立即处理的急性病症,无需患者和医护人员面对面交流。这与常规远程医疗(用于慢性病管理的预约咨询)和紧急护理(非紧急情况的现场就诊)有所不同。关键特征包括:急性、非计划性的就诊情况、实时决策制定、时间敏感的病情评估,以及通常不存在患者与医护人员之间的预先建立的关系。只要研究评估了符合这些标准的AI应用,无论使用何种平台,都会被纳入分析范围。AI在这些平台中的整合有望提高诊断准确性、优化分诊决策并改善资源分配[8]。尽管医疗机构和科技公司积极采用虚拟急诊护理技术,但支持其应用的 evidence 基础仍然分散且缺乏系统性总结[9]。
以往的系统评价分别研究了急诊医学或远程医疗中的AI应用,但没有专门探讨AI与虚拟急诊护理的结合,而这正是本评价所要填补的空白。Piliuk和Tomforde[10]系统评估了急诊医学中的AI应用,但排除了虚拟护理方式;Sharifi Kia等人[11]研究了急诊科的远程医疗,但未涉及AI整合;Stewart等人[12]概述了急诊医学中的AI应用,但研究时间早于COVID-19加速虚拟护理发展的时期。Sánchez-Salmerón[13]和Almulihi[14]的最新评价研究了机器学习在急诊分诊中的应用,但没有区分虚拟与面对面场景。这一空白至关重要,因为急诊护理涉及时间敏感的决策、高风险的医疗结果以及有限的信息,为AI的应用创造了复杂的环境[8]。虚拟护理还带来了其他挑战,如数据质量限制、技术获取差异以及缺乏体格检查结果,这些因素可能导致AI系统在虚拟环境中的表现与传统环境不同[9]。因此,我们的评价专门针对为远程急诊护理设计或应用的AI技术。
全球不同医疗系统的AI在虚拟急诊护理中的应用情况存在显著差异[15]。在高收入国家,AI应用通常侧重于优化现有服务并减少不必要的急诊科就诊[16];而在低收入和中等收入国家,AI增强的虚拟护理可能是偏远地区患者获得急诊服务的主要途径[17]。这种实施环境的多样性引发了关于AI解决方案普遍性和公平性的重要问题[13]。
关于AI在虚拟急诊护理中的性能、安全性和临床有效性,仍存在关键知识空白[18]。主要不确定性包括:(1) AI系统与人类临床医生在虚拟环境中的诊断准确性对比;(2) 对患者结果(包括发病率、死亡率和满意度)的影响;(3) 对医疗资源利用和成本的影响;(4) 算法偏见的可能性及其对健康公平性的影响;(5) 在实际临床环境中的实施障碍和促进因素[19][20]。
在虚拟急诊护理中部署AI时,健康不平等问题尤为突出[21]。证据表明,如果AI系统没有经过充分考虑不同人群的特点进行设计和评估,可能会加剧现有的不平等现象[22]。语言障碍、数字素养、互联网接入情况以及医疗寻求行为的文化差异等因素可能影响AI增强型虚拟急诊服务的性能和可及性[23]。理解这些公平性因素对于确保技术进步惠及所有人群至关重要[24]。
本系统评价旨在全面评估AI在虚拟急诊护理中的应用证据,以填补这些关键知识空白。具体目标包括:(1) 描述虚拟急诊护理环境中AI技术的类型和应用;(2) 评估现有研究的方法学质量和偏倚风险;(3) 评估AI干预措施的绩效、安全性和临床有效性;(4) 探讨公平性考虑因素及不同亚组的性能差异;(5) 确定未来研究的方向和重点。
协议与注册
本系统评价遵循2020年《系统评价和荟萃分析优先报告条目》(PRISMA)指南[25]进行。事先制定了正式的研究方案,并在PROSPERO平台进行了注册(注册编号:CRD42025648202)。
纳入标准
符合以下所有标准的研究被纳入分析:(1) 评估了AI或机器学习应用;(2) 专注于虚拟或远程急诊护理服务;(3) 报告了原始实证数据;(4) ……(此处原文信息缺失)
研究选择
系统检索从数据库中发现了7,071条记录,再加上其他来源的27条参考文献,共计7,098条记录(图1)。通过Covidence去重后,剩余4,935条独特记录,进一步进行了标题和摘要筛选。其中4,536条被排除,因为明显不相关,最终有399项研究进入全文评估阶段。
全文评估后,有391条记录因以下原因被排除:研究场景不符(n=99条),或AI模型未应用于虚拟急诊护理。
主要发现
本系统评价显示,关于AI在虚拟急诊护理中的证据基础尚处于起步阶段,存在方法学限制、报告缺陷和关键知识空白。尽管初步结果表明AI在诊断准确性和效率方面具有潜在优势,但现有证据不足以支持其广泛临床应用。所有纳入研究均未测量实际临床结果,这是基于证据的采纳面临的基本障碍。
结论
本系统评价表明,目前关于AI在虚拟急诊护理中的证据基础尚不足以支持其广泛临床应用。所有纳入研究均存在严重的方法学局限性,且没有一项研究测量了实际患者结果。尽管分析了涵盖超过50万参与者的8项研究,但所有评估结果的证据确定性都非常低或较低,诊断准确率也存在较大差异。
作者贡献声明
拉维·尚卡尔(Ravi Shankar): 负责撰写、审稿与编辑、初稿撰写、数据可视化、项目管理、方法学设计、概念构建。
王琳达(Linda Wang): 负责撰写、审稿与编辑、数据验证、方法学设计。
何顺和(Ho Soon Hoe):
伊莎贝拉·李怡(Isabella Lee Yee): 负责撰写、审稿与编辑、方法学设计、数据整理。
刘美凤(Liew Mei Fong):
萨蒂亚·帕万·库马尔·戈拉穆迪(Satya Pavan Kumar Gollamudi): 负责撰写、审稿与编辑、监督工作、方法学设计。
黄泽钦(Tze Chin Wong): 负责撰写……(原文信息缺失)
利益冲突声明
作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。