基于人工智能的中西医结合临床证据平台(ACE-iMed)的设计与方法论
《Integrative Medicine Research》:Design and Methodology of the AI-empowered Clinical Evidence for Integrated Chinese-Western Medicine (ACE-iMed) platform
【字体:
大
中
小
】
时间:2026年05月11日
来源:Integrative Medicine Research 3
编辑推荐:
刘慧|徐柯|张杰|吴守元|秦一山|马彦芳|于轩|张华宇|李海东|吴美华|王志景|罗旭飞|王炳义|姚媛媛|冯彦东|孙璐媛|董梦月|洪颖杰|刘佳怡|杨瑞|边兆祥
中国医学科学院循证评估与指南研究单元(2021RU017),兰州大学基础医学学院,中国兰州
**摘要**
背
刘慧|徐柯|张杰|吴守元|秦一山|马彦芳|于轩|张华宇|李海东|吴美华|王志景|罗旭飞|王炳义|姚媛媛|冯彦东|孙璐媛|董梦月|洪颖杰|刘佳怡|杨瑞|边兆祥
中国医学科学院循证评估与指南研究单元(2021RU017),兰州大学基础医学学院,中国兰州
**摘要**
背景:
中西医结合医学(ICWM)是一种独特的医疗体系,在医疗保健中发挥着重要作用,并近年来受到越来越多的关注。为了促进ICWM中证据的传播,我们开发了一个基于人工智能(AI)的临床证据平台——ACE-iMed。
**方法**
成立了一个多学科工作组,成员包括具有循证医学方法论、中医(CM)、西医(WM)和ICWM临床实践与研究专业背景的人士,以及计算机科学领域的专家。通过多轮讨论,工作组确定了该平台的框架和方法论,并将其应用于八种疾病的证据汇总。
**结果**
ACE-iMed平台(网址:www.aceimed.org)包含两个界面。第一个界面使开发者能够存储和筛选文献、进行方法学质量评估并生成证据摘要。基于AI的工作流程在多个阶段表现出良好的一致性和稳定性,包括文献筛选和偏倚风险/方法学质量评估,并有效支持了八种疾病的证据汇总。第二个界面面向终端用户,提供对纳入文献和生成摘要的同步访问,从而快速获取以临床问题为导向的证据资源。
**结论**
本研究介绍了一个基于AI的、以临床问题为导向的ICWM证据平台。其在八种疾病中的应用证明了平台的可行性和实际效用。该平台不仅支持开发者汇总证据,还为终端用户提供了获取证据及其摘要的途径。
1. **引言**
中西医结合医学(ICWM)是一个跨学科的医学体系,通过中医(CM)和西医(WM)的理论框架、诊断与治疗方法以及各自独特技术的整合而形成。ICWM旨在增进对人类健康的理解,并促进疾病的预防和治疗。自20世纪50年代以来在中国发展至今,ICWM经历了许多进展,例如学科基础的建立以及评估其有效性和安全性的证据基础的不断扩大。作为连接中国大陆与国际社会的桥梁,中国香港特别行政区(SAR)也在积极支持和推进ICWM的发展与应用。例如,香港特区政府卫生局发布了《2025年中医药发展蓝图》。目前,ICWM在中国医疗体系中占据战略地位,成为指导医学科学未来发展的重要力量,并吸引了全球越来越多的关注。提高ICWM的有效性和可及性依赖于高质量证据的坚实基础。近年来,循证方法论在ICWM领域得到了广泛应用,相关研究数量也在增加。为促进证据传播,已建立了多种平台,包括ICWM证据库和证据生态系统。然而,这些平台主要侧重于系统评价(SRs),仅提供评价结果的摘要和解读;或者依赖用户上传的文献,其证据全面性可能无法完全满足临床实践的需求。
鉴于近年来人工智能(AI)技术的快速发展,我们于2025年3月启动了基于AI的、以临床问题为导向的ICWM证据平台ACE-iMed的开发,旨在帮助临床医生快速获取证据、支持患者参与决策制定、协助研究人员识别证据缺口,并为政策制定者提供决策依据。本文将介绍该平台的设计和功能,展示其在八种疾病中的应用,并描述应用中的关键方法学细节。
**2. 方法**
为了开发ACE-iMed平台,我们在2025年4月召集了一个多学科工作组,成员涵盖循证医学方法论、中医、西医和ICWM临床实践与研究以及计算机科学领域的专家。2025年4月至8月期间,工作组进行了多轮讨论,确定了平台的框架和方法,并基于Model-View-View架构模式和Vue前端框架开发了该平台。2025年9月至2026年4月,工作组将该平台应用于以下八种疾病的证据汇总:慢性下腰痛、类风湿性关节炎、特应性皮炎、银屑病、原发性痛经、围绝经期综合征、中风康复和抑郁障碍。
**3. 结果**
**3.1. 平台设计**
ACE-iMed平台包含两个界面,分别针对开发者和终端用户设计。开发者界面提供文献存储、文献筛选、质量评估和证据摘要等核心功能,便于针对特定临床问题生成建议和/或证据摘要。终端用户界面服务于临床医生、患者、研究人员和政策制定者,提供对特定临床问题的建议和/或证据的快速访问,促进ICWM证据的转化和应用。
**3.2. 开发者的平台细节与性能**
**3.2.1. 文献数据库构建**
为构建文献数据库,开发者根据每种目标疾病和相关的中医干预措施设计了搜索策略。在多个数据库中执行搜索,导出记录后导入平台以完成文献数据库的构建。平台支持从各种类型的数据库导入记录,在导入过程中会同时标注记录的来源数据库和相应疾病名称。为解决不同数据库中的重复记录问题,平台采用了去重功能。
在为这八种疾病总结证据的过程中,开发者通过结合主题词和自由文本词来设计搜索策略。搜索在中国国家知识基础设施(CNKI)、万方数据知识服务平台(Wanfang)、PubMed、Cochrane Reviews和Cochrane Central Register of Controlled Trials(CENTRAL)等数据库中进行。还进行了标准相关网站的补充搜索,如国家公共服务标准信息平台(https://std.samr.gov.cn/)和传统中医药标准与指南信息服务平台(http://standards.ccebtcm.org.cn/)。为确保纳入文献的质量,CNKI和Wanfang的搜索限制在《中国科学技术论文与引文数据库》《中国核心期刊指南》和《中国科学引文数据库》收录的期刊中。示例搜索策略见补充材料1。检索后,所有记录均导入平台并进行去重,完成文献数据库的构建。
**3.2.2. 定义临床问题**
平台的核心特性之一是提供围绕临床问题的ICWM建议和证据。在平台中创建临床问题时,开发者首先输入完整的问题文本、目标疾病以及使用“人群(Population)、干预措施(Intervention)、比较对象(Comparison)和结果(Outcome,PICO)框架结构化的关键要素,明确研究范围。接着输入与干预相关的搜索词,使平台能够从特定疾病文献数据库中检索相关文献。最后,开发者指定临床问题的纳入和排除标准,为后续研究筛选制定明确要求。
通过与临床医生的咨询以及参考已发布的临床实践指南(CPGs)、共识声明(CSs)和系统评价(SRs),确定了八种疾病的临床问题和结果。每个问题都被分解为PICO元素并录入平台。经多轮讨论后,进一步细化干预相关搜索词(见补充材料2),然后检索与每个临床问题相关的文献。最后,为每个临床问题定制纳入和排除标准并录入平台。
**3.2.3. 文献筛选和下载**
平台使用大型语言模型(LLM)支持标题/摘要筛选和全文筛选。LLM首先根据预设的纳入和排除标准对记录进行评估,被标记为“包括”或“不确定”的记录随后被手动下载。下载的PDF文件使用MinerU2.5工具转换为Markdown格式。LLM随后根据全文再次评估记录,并基于纳入和排除标准决定是否纳入。
由于临床实践指南(CPGs/CSs和SRs的数量相对较少,所有八种疾病的筛选均由两名独立研究者手动完成。同时,随机对照试验(RCTs)的筛选使用了LLM。LLM筛选模型采用doubao-seed-1-6-thinking-250715,更多模型信息见补充材料3。初始提示由具有计算机科学和循证医学专业知识的团队成员通过多轮讨论制定,结合了结构化指令设计、角色扮演、思维链和少量样本提示等方法(提示设计和结构见补充材料3)。我们将每个PICOS要素转化为多项清单式问题,以评估各要素是否符合纳入标准,最终作出整体研究级别的决定(“包括”、“不确定”或“排除”)。标记为“不确定”的记录由人工审核者审核。在全面使用前,我们在事先选定的八个具有代表性的临床问题上进行了试点测试(见表1)。我们为每种疾病有针对性地选取了一个问题,确保覆盖所有八种疾病,并通过团队讨论确定了疾病-干预措施组合。选择的干预措施反映了相应疾病的常用治疗方法,以确保 Pilot 筛选的文献量合理。Pilot LLM 筛选与两名独立研究者手动筛选的汇总敏感性为94.6%,特异性为99.9%;汇总特异性为99.9%(见表1和补充材料4)。
**表1. 大型语言模型在筛选随机对照试验中的性能**
| 疾病 | 临床问题 | 记录数量 | 敏感性? | 特异性? |
|---------------|---------------------------------|-----------------|-------------|-------------|
| 慢性下腰痛 | 对于患有慢性下腰痛的人,整合拔罐/刮痧与单纯CWT的有效性和安全性相比如何? | 315 | 0.87 | 1.00 |
| 类风湿性关节炎 | 对于患有类风湿性关节炎的人,艾灸与单纯CWT的有效性和安全性相比如何? | 73 | 0.91 | 1.00 |
| 特应性皮炎 | 对于患有特应性皮炎的人,中医外部疗法(如贴剂/膏药、浴疗、熏蒸、湿敷)与单纯CWT的有效性和安全性相比如何? | 197 | 0.94 | 0.99 |
| 银屑病 | 对于患有银屑病的人,针灸与单纯CWT的有效性和安全性相比如何? | 41 | 1.00 | 1.00 |
| 原发性痛经 | 对于患有原发性痛经的人,整合口服中医与单纯CWT的有效性和安全性相比如何? | 30 | 0.94 | 0.99 |
| 围绝经期综合征 | 对于患有围绝经期综合征的人,推拿/按摩与单纯CWT的有效性和安全性相比如何? | 21 | 1.00 | 0.99 |
| 中风康复 | 对于中风患者,整合中医康复治疗与单纯康复治疗相比是否更能有效改善吞咽功能? | 18 | 0.96 | 1.00 |
| 抑郁障碍 | 对于患有抑郁障碍的人,整合中医运动疗法(如太极、八段锦、气功)与单纯CWT的有效性和安全性相比如何? | 44 | 1.00 | 0.99 |
**3.2.4. 数据提取**
每种研究设计采用了不同的数据提取方式;提取的项目列于表2中。平台还记录了期刊级别的指标。对于中文期刊,根据中国中医药协会2023年发布的中医科技期刊分类目录,将其分为T1、T2或非T1/T2类型。对于英文期刊,该平台根据中国科学院国家科学图书馆发布的2025年期刊分类列表记录了期刊的四分位数,以及2024年《期刊引用报告》中报告的期刊类别排名和影响因子。表2。从不同类型的研究中提取的数据包括:临床实践指南/共识声明、系统评价、随机对照试验。
与文献筛选阶段类似,临床实践指南/共识声明(CPGs/CSs)和系统评价(SRs)的数据提取也是由两名调查员手动完成的。对于随机对照试验(RCTs),数据提取首先使用大型语言模型(LLM)进行,然后由一名人类调查员进行验证;在验证过程中,不符合纳入标准的研究被排除。模型信息、提示设计和结构可以在补充材料5中找到。基于与类风湿性关节炎和中风康复相关的两个临床问题,生成了初步提取结果(见表1),每个问题抽取了20条记录。这些结果由两名研究人员独立审查和讨论,以改进和优化提示,只有在确认它们满足预定义要求后,才开始了正式的数据提取过程。
3.2.5. 偏倚风险评估和方法学质量评估
纳入的CPGs/CSs、SRs和RCTs分别使用了“研究评估与评估指南II”(APPROVE II)21、“系统评价测量工具2”(AMSTAR 2)22以及“随机对照试验系统评价中的偏倚风险工具”(ROBUST-RCT)23进行评估。所有评估都是使用LLM完成的。尽管先前已有研究证明了基于LLM的评估的准确性24, 25, 26,但考虑到不同模型之间的潜在差异,我们使用了八种疾病的数据进行了额外验证,以评估基于LLM的评估与人类评估之间的一致性。结果显示,对于ROBUST-RCT,整体项目级一致率为79.0%(95%置信区间:73.9%–83.5%),人类得出的总分系统性地高于LLM得出的总分(偏差=0.47,95%置信区间:0.274–0.666)。对于AMSTAR 2,整体项目级一致率为84.5%(95%置信区间:81.8%–86.8%),LLM得出的总分系统性地高于人类评审员得出的总分(偏差=1.21分,95%置信区间:0.802–1.618分)。对于APPROVE II,整体项目级一致率为93.0%(95%置信区间:91.7%–94.1%),领域级一致率在85%到100%之间。LLM得出的总分系统性地高于人类评估员得出的总分(偏差=9.35%,95%置信区间:6.18%–12.53%)。详细的评估程序和结果,包括模型规格,在补充材料6中提供。为了帮助最终用户理解纳入研究的偏倚风险或方法学质量,我们将评估结果分为五个等级,并使用星级评分系统进行可视化(补充材料7)。
3.2.6. 总结证据和建议
我们使用LLM总结了每种设计类型中的纳入研究。对于每个临床问题,LLM生成了CPGs/CSs中报告的建议摘要,以及SRs和RCTs中的证据摘要。当RCTs的数量超过200篇时,仅选择了200篇RCTs,这是为了在处理大规模文献时在计算负担和LLM输出稳定性之间做出务实的选择,选择依据是样本量和偏倚风险。研究按样本量排序,高质量研究定义为那些偏倚风险评分不低于总体平均水平的研究。首先纳入了规模最大的高质量研究;如果高质量研究少于200篇,则再纳入样本量次大的研究。为了提高RCTs证据摘要的准确性,我们评估了效果的方向(即干预措施是否优于、等同于或劣于对照措施),以及RCT的类型(例如,所有结果都显示干预措施优于对照措施;一些结果显示干预措施优于对照措施,而其他结果显示干预措施劣于对照措施),然后生成相应的摘要。效果方向是通过两次应用同一LLM来评估的,任何差异由人类调查员最终决定。现有数据显示,在中风的情况下,效果方向评估的不一致率为7.07%。在SRs总结过程中,我们也评估了效果的方向,该过程包括LLM的初步评估,随后由一名调查员进行审核。此外,为了提供对纳入证据的全面视图,平台整合了所有研究类型的摘要,然后对每个临床问题生成了总体回应。关于总结过程及其相关信息的详细描述在补充材料8中提供。为了进一步增强实用性,同时展示了相关CPGs/CSs中报告的干预措施的详细信息。
图1
下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图1. 平台的概念设计,*:当前阶段,大型语言模型仅用于随机对照试验的筛选;#:涵盖所有研究类型的总体摘要;:专注于单一研究类型的摘要(临床实践指南/共识声明、系统评价或随机对照试验);CNKI:中国国家知识基础设施;Wanfang:万方数据知识服务平台;CENTRAL:Cochrane对照试验中心注册库;LLM:大型语言模型;CPGs/CSs:临床实践指南/共识声明;SRs:系统评价;RCTs:随机对照试验。
3.3. 为最终用户设计并展示平台
为了使用户能够高效地获取与特定临床问题相关的知识,开发了一个专门的最终用户平台(网站:www.aceimed.org)。该平台允许用户通过两种方式检索疾病相关的文献和摘要:(1)浏览结构化的“疾病-干预-临床问题”路径来获取相应的文献和摘要;(2)与LLM互动,快速识别已回答的临床问题,然后检索相关文献和摘要(图2)。
打开给定临床问题的证据界面后,用户可以通过选择相应部分来访问具体信息:(1)临床问题、所有相关文献的摘要以及纳入和排除标准;(2)相关CPGs/CSs中报告的干预措施的详细信息;(3)特定研究设计的摘要,标签页允许用户在不同类型的研究之间切换;(4)基于卡的纳入研究概览,选择卡片可显示提取的数据和链接到全文。该平台还包括用户反馈功能。用户可以报告使用过程中遇到的技术问题,或提出尚未涵盖的具有临床重要性的问题,为未来的平台更新和研究提供输入。
4. 讨论
4.1. 研究成果总结
本文详细描述了一个基于AI的ICWM证据综合和总结平台的设计理由和开发过程,重点介绍了开发者可以使用该平台总结证据的工作流程,以及面向最终用户的界面架构和核心功能。此外,我们还以八种疾病为例,全面介绍了文献搜索和筛选等关键过程的方法学细节。因此,本研究验证了该平台的功能,并为将来将其应用到其他疾病领域提供了方法学参考。
4.2. 平台的关键特征及其对临床实践的影响
ACE-iMed平台总结了涉及八种疾病的121个临床问题的文献,展示了几个独特特征。首先,AI技术深入整合到了开发者和最终用户的两个界面中,支持文献筛选、证据总结和用户互动,从而提高了效率和可用性。该平台中LLM辅助筛选的表现与先前研究中的报告一致27, 28。其次,文献检索使用系统和全面的搜索策略,跨越多个中文和英文数据库,并结合了其他来源以最大化证据覆盖范围。为了减少高风险偏倚研究的影响29, 30,对中文文献应用了期刊级别的限制。第三,关键研究信息(包括文献特征、期刊排名、结果、方法学质量或偏倚风险以及全文链接)以结构化和标准化的方式呈现,研究质量通过星级评分系统进行可视化。这可能提高透明度和可解释性,并增强利益相关者的信任31。第四,平台提供了多层次和多维度的证据总结,将CPGs/CSs的建议与SRs和RCTs的证据结合起来,从而促进多样化和全面的证据传播。第五,该平台借鉴了ICWM领域指南开发的方法学指导32,采用以临床问题为导向的方法,并支持两种路径帮助用户识别感兴趣的临床问题。此外,多语言界面支持(繁体中文、简体中文和英文)使得该平台能够在不同地区和国际环境中使用。本研究开发的平台为获取和传播ICWM证据和建议提供了新的渠道。最后,内置的反馈机制使用户能够提交未解决的临床问题,有助于捕捉实际需求信息。
4.3. 局限性和未来方向
我们的平台有几个潜在的局限性,未来的发展应集中在以下几个方面。首先,平台目前仍处于早期部署阶段,涵盖了八种疾病的121个临床问题。此外,本研究中的文献是基于截至特定时间点的搜索结果确定的;之后发表的研究未被纳入。在下一阶段,平台将扩展到支持另外15种疾病的证据总结,预计在未来五年内涵盖大多数常见临床状况。同时,将探索自动化文献更新,以进一步提高其临床相关性和可扩展性。其次,尽管平台展示了符合纳入标准的所有研究,但在总结包含超过200篇RCTs的临床问题时,我们对RCT的数量进行了限制。这种方法可能引入了潜在的偏倚,尽管根据当前平台的使用情况,估计只有大约8%的临床问题会受到此影响;未来的工作将重点优化这一策略。第三,尽管LLM在各项任务中表现出相对良好的性能,例如在研究筛选中的敏感度达到了94.6%,与最近一项SR的研究结果大体一致28,但其输出仍可能存在由于幻觉问题而带来的潜在风险。因此,未来的工作将探索补充策略,并实施更严格的人机协同过程,以提高证据检索的完整性和系统的整体可靠性。第四,这项研究是在中国大陆进行的。考虑到LLM的可访问性、纳入文献的语言分布、我们团队之前使用LLM研究的经验、其他团队报告的不同LLM的性能33, 34、API调用的成本效益以及我们的试点测试结果,我们最终选择了Doubao模型。尽管我们使用的LLM表现令人满意,但输出的稳定性和可重复性仍依赖于模型特定的特性。模型更新或服务中断可能需要额外的验证。我们将研究在未来如何在不损失性能的情况下切换模型,并探索如果技术有显著进步时部署小型模型的可能性。第五,由于时间限制,某些筛选过程仍然是手动完成的,这意味着平台并未完全自动化。未来的研究将进一步评估证据工作流程所有阶段的AI应用,以提高平台的智能程度。
4.4. 结论
本研究介绍了一个基于AI的、以临床问题为导向的ICWM证据平台,重点介绍了开发者使用平台总结证据的工作流程,以及面向用户的界面架构和核心功能。在八种疾病中的应用证明了该平台的可行性和实用性。该平台不仅支持开发者对证据进行总结,还为终端用户提供了获取证据及其摘要的途径,而临床实践应继续遵守当地适用的指南、标准和其他相关指导文件。
**作者贡献**
概念设计:HL、YFM、XY、XFL、LG、YLC、ZXB
方法论:HL、KX、JZ、SYW、YSQ、HHL、QZ
软件开发:KX
验证:HL、KX、JZ、SYW、YSQ、HYZ、HDL、MHW、ZJW、XFL、BYW、YYY、YDF、LYS
正式分析:HL
调查:HL、JZ、SYW、YSQ、HYZ、HDL、MHW、ZJW、XFL、BYW、YYY、YDF、LYS、MYD、YJH、JYL、RY、YMH
资源管理:YLC、ZXB
数据管理:HL、XK、JZ、SYW、YSQ、HYZ、HDL、MHW、ZJW、XFL、BYW、YYY、YDF、LYS
初稿撰写:HL、KX、YYY
审阅与编辑:JZ、SYW、YSQ、YFM、XY、HYZ、HDL、MHW、ZJW、XFL、BYW、YDF、LYS、MYD、YJH、JYL、RY、YMH、HHL、QZ、XFL、LG、YLC、ZXB
可视化设计:HL
项目监督:YLC、ZXB
项目管理:HL、SYW
**资金支持**
本研究得到了两个独立资助方的支持:(i) Vincent and Lily 基金会;(ii) 香港浸会大学的“中西医结合治疗慢性病路径项目(项目代码:TFD2024-P08)”。资助方不会参与研究的设计、数据收集与分析、手稿撰写或发表过程。
**伦理声明**
本研究无需伦理审批。
**数据可用性**
所有数据均可在 ACE-iMed 平台上获取(网址:www.aceimed.org)。如需详细分析数据,可联系 ACE-iMed 工作组(电子邮件:aceimed@163.com)。
**科学写作中关于生成式人工智能的声明**
本研究中生成式人工智能的使用已在手稿中详细说明。此外,ChatGPT 5.3 被用于协助将中文版本的手稿翻译成英文。翻译完成后,作者对文本进行了仔细的审阅和编辑,以确保内容的准确性。作者对最终手稿的内容负全责。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号