基于检索增强生成（RAG）的AI临床决策支持系统“Ask Eolas”在模拟评估中显著提升抗菌药物处方准确性

《npj Antimicrobials and Resistance》：Enhancing quality of antimicrobial prescribing through ‘Ask Eolas’ (language model): a user-testing and simulation evaluation

【字体：大中小】 时间：2026年03月04日 来源：npj Antimicrobials and Resistance

编辑推荐：

　　为解决现有抗菌药物决策支持工具存在可用性不足、临床医生信任度低及整合障碍等问题，研究人员开展了主题为“Ask Eolas”的RAG增强型AI-CDSS（临床决策支持系统）模拟评估研究。结果显示，在45名参与者的模拟处方案例中，“Ask Eolas”实现了零处方错误，处方准确率显著优于传统PDF指南（47%）和Eolas应用程序（60%）（p<0.001）。其临床需治数（NNT）为1.9。该研究表明，该工具在提高处方准确性的同时，增强了可用性、临床医生信心和系统透明度，为人工智能在抗菌药物管理计划中的安全部署提供了早期证据。

抗菌药物是我们对抗细菌感染的重要武器，但其不恰当的使用，特别是广谱抗生素的误用，正在全球范围内引发一场日益严峻的公共卫生危机——抗菌药物耐药性（Antimicrobial Resistance, AMR）。不准确的处方是推动这一危机蔓延的关键因素之一。为此，医疗界引入了临床决策支持系统（Clinical Decision Support Systems, CDSS），旨在辅助医生做出更优的抗菌药物处方决策。然而，理想的工具与现实之间存在巨大鸿沟：许多现有系统因用户体验不佳、缺乏透明度和临床背景不符，难以真正融入临床工作流程，无法获得医生的充分信任。

人工智能，特别是大语言模型（Large Language Models, LLMs），似乎带来了新的希望。然而，传统的LLMs“一本正经地胡说八道”的风险使其在严谨的医疗决策领域举步维艰，其答案可能缺乏事实依据、前后不一致，与专业的临床知识库脱节。难道AI在精准医疗的门口只能“望门兴叹”吗？

此时，一项名为“检索增强生成”的技术，为AI进入临床决策核心地带开辟了一条新路。它巧妙地将大语言模型强大的语言生成能力，与精心构建的、循证的专业医学知识库（如医院指南）相结合。模型不再仅仅依赖其内部训练的记忆，而是像一个顶尖的医学顾问，在回答医生提问时，先去权威的图书馆里找到相关文件，然后基于这些最新、最可靠的信息，给出针对性的建议。这不仅极大提高了回答的准确性，也使其能够与特定医院的本地指南保持严格一致。

为了验证这种新型AI-CDSS的潜力，一个研究团队开发了名为“Ask Eolas”的系统，并对其进行了严格的模拟用户测试。这项名为“通过‘Ask Eolas’（语言模型）提升抗菌药物处方质量：一项用户测试与模拟评估”的研究成果，发表在《npj Antimicrobials and Resistance》上。研究旨在评估这种基于检索增强生成（RAG）的AI-CDSS，在处方准确性、减少错误、可用性以及提升临床医生信心方面，是否真的能超越现有的抗菌药物指南工具。

为了回答上述问题，研究人员设计了一个严谨的结构化、随机模拟研究。他们招募了45名来自英国一家大型教学医院的医疗保健专业人员，包括顾问医生、专科培训医师、药剂师和处方护士。参与者被随机分为三组，每组15人。三组分别使用不同的工具来完成45个涉及低、中、高三种复杂度的模拟处方病例：

1.
传统指南组：访问医院内部网提供的静态PDF格式抗菌药物处方指南。
2.
Eolas应用程序组：使用医院已部署的一款移动应用，该应用以结构化的方式（如按身体系统分类）提供指南导航。
3.
Ask Eolas组：使用集成在Eolas应用中的AI增强功能。这是一个RAG增强的CDSS，医生可以用自然语言提问，系统会检索医院指南，生成一个包含临床推理、剂量推荐和直接链接到相关指南条目的综合答案。

研究通过模拟远程会诊的方式进行，使用Microsoft Teams平台。评估采用了多重指标，包括处方准确性、系统可用性量表、NASA任务负荷指数、以及决策信心评分等。数据分析采用了Fisher精确检验，并遵循了DECIDE-AI和SIROS等标准化报告框架，以确保评估的严谨性。研究还强调了患者与公众的参与，在系统设计中融入了伦理和用户中心的考量。

研究结果

参与者人口统计学特征

三组参与者（共45人）均完成了全部研究。参与者角色分布均衡，包括顾问、药师、专科注册医师、初级医师、核心培训医师和处方护士。

主要结局指标

Ask Eolas干预组展现出卓越的性能，实现了完美的处方准确率（100%， 15/15），显著优于Eolas应用程序组（60%， 9/15）和传统指南组（47%， 7/15）。Fisher精确检验显示，Ask Eolas与后两者相比，处方准确性均有统计学上的显著提高（p<0.001）。Ask Eolas相对于传统指南的绝对风险降低为53%，临床需治数为1.9。这意味着，每两名临床医生从使用传统指南转为使用Ask Eolas，就多产生一张准确的处方。传统指南组的错误主要与给药剂量和疗程不正确有关，通常源于对复杂流程图或嵌套文本的误解。

次要结局指标

在用户体验方面，Ask Eolas同样表现出色。参与者报告了最高的处方信心（中位数94分），并且在NASA-TLX量表的各个领域（精神需求、时间压力、所需努力、挫败感）的认知负荷均显著降低。系统可用性量表得分也一致倾向于Ask Eolas，在期望使用频率、易用性和用户信心等正面属性上评分最高，在复杂性、繁琐性等负面属性上评分最低。此外，参与者特别看重Ask Eolas提供的来源指南直接链接，认为这“有助于我信任这个答案”。其生成简洁、有针对性的摘要的能力，有效减少了信息处理负担。但也有参与者指出，系统偶尔存在延迟，以及对回答篇幅长短的偏好可能存在差异。

讨论与结论

研究者对研究结果进行了深入讨论，并基于实证观察提出了“TRUST-AI”框架，为人工智能临床决策支持系统的安全部署提供了结构化指导。该框架包含七大原则，每个原则都直接源于本研究的发现。

该模拟评估表明，以“Ask Eolas”为代表的基于RAG的AI临床决策支持系统，在提高抗菌药物处方准确性、增强临床医生信心、降低认知负荷以及改善系统可用性方面，展现出了巨大潜力。其主要结论和重要意义可归纳如下：

1.
显著提升处方准确性：在模拟环境中，Ask Eolas实现了零错误处方，准确率显著超越现有的数字化工具和传统纸质/PDF指南。其临床需治数（NNT）为1.9，具有明确的临床实用价值，表明它能有效减少因指南误读而导致的处方错误。
2.
构建临床医生信任的关键在于透明性：Ask Eolas通过展示回答所依据的指南原文链接和临床推理，提供了“可解释的AI”输出。这种透明性被参与者反复强调是建立信任的核心，它使医生能够理解并验证AI的建议，而不是将其视为“黑箱”，从而更愿意采纳。
3.
卓越的可用性是成功采纳的基石：研究表明，系统的易用性、直观的界面和低认知负荷，直接提高了决策效率和临床医生的使用意愿。这凸显了“以用户为中心的设计”在医疗AI工具开发中的极端重要性。
4.
为AI-CDSS的负责任部署提供了一个初步框架：基于研究结果提出的TRUST-AI框架，涵盖了透明性与可信度、实时数据整合、可用性与以用户为中心的设计、管理与安全、分诊与信心校准、可追责性与可审计性、实施与互操作性七个维度。这个框架为未来AI-CDSS的开发、评估、监管和临床应用提供了系统性的政策与研究议程。
5.
研究的局限性与未来方向：研究者也坦率指出了本研究的局限性，包括模拟环境而非真实世界、样本量较小、单中心研究等，其结果可能代表了“最佳情况”。未来需要在真实临床环境中，与电子健康记录等系统进行深度集成，并开展大规模、多中心的实施性研究，以验证其长期效果、对患者预后的影响以及经济效益。同时，还需要探索专科定制化界面、更精细化的置信度校准系统以及应对潜在算法偏见的策略。