《Annals of the Rheumatic Diseases》:Evaluating machine learning tools to assist title and abstract screening in systematic literature reviews: a report based on the EULAR RA Management Recommendations Task Force
编辑推荐:
系统文献综述(SLR)为欧洲抗风湿病联盟(EULAR)工作组项目提供科学依据,但在研究文献日益增长的背景下,其耗时耗力、重复性强且易受人为错误影响。本研究旨在评估为半自动化标题和摘要筛选而开发的机器学习(ML)模型的性能,以期支持和加速未来的综述流程。研究人员
系统文献综述(SLR)为欧洲抗风湿病联盟(EULAR)工作组项目提供科学依据,但在研究文献日益增长的背景下,其耗时耗力、重复性强且易受人为错误影响。本研究旨在评估为半自动化标题和摘要筛选而开发的机器学习(ML)模型的性能,以期支持和加速未来的综述流程。研究人员通过系统综述工具箱、在线及基于ML的检索和参考文献核查等方式筛选符合条件的软件,纳入标准包括:主动维护、可访问性以及提供超越常用文献管理软件的筛选功能。最终确定9个采用ML进行记录优先级排序和相关性预测的工具,其中3个符合全部纳入标准并进行详细评估。这3个工具被应用于3项随机对照试验(RCT)的系统综述和1项同时纳入观察性研究的系统综述的检索结果复现中,以手动筛选作为参考标准。结果显示,各综述均实现了 substantial 的工作量缩减(均值77.8%,标准差12.8%),同时持续捕获超过95%的相关记录。此外,ML支持的在筛选前对RCT进行分类和过滤,使平均摘要筛选量减少了57.3%(标准差7.4%)。该复现研究表明,ML工具在支持系统综述方面具有相当大的潜力,同时也揭示了重要的局限性和注意事项。前瞻性评估将有助于确定将这些工具整合到未来综述流程中的最佳策略,同时保持高方法学标准。
系统文献综述(SLR)是循证研究和实践的基石,用于全面总结临床试验和观察性研究的结果,但其开展过程耗时、昂贵且劳动密集。当前SLR通常由研究团队手动筛选大量记录以识别相关文献,而高度敏感的检索策略导致大量无关文献被检索出来。在知识快速扩展的时代,SLR变得日益广泛和复杂,限制了其在特定研究领域的应用。为应对这些挑战,研究人员致力于开发自动化工具以支持数据综合和呈现,其中人工智能(AI)受到越来越多的关注。AI在SLR工作流中的潜在应用涵盖多个阶段,而AI支持的标题和摘要筛选被认为是最有前景的实施领域,尤其是基于用户反馈的主动学习方法。
欧洲抗风湿病联盟(EULAR)每三年更新类风湿关节炎(RA)管理推荐,每次更新均由遵循EULAR标准操作程序(SOP)手动开展的SLR提供依据。在2024年最新工作组的指导委员会会议上,决定调查当前可用的AI工具在标题和摘要筛选中的性能,并与手动检索结果进行比较。
本研究基于为2025年EULAR RA管理推荐更新而开展的4项系统综述,包括:(1)改善病情抗风湿药(DMARD)疗效SLR、(2)RA相关间质性肺疾病(ILD)DMARD治疗SLR、(3)临床前期RA(高危)DMARD治疗SLR,以及(4)DMARD安全性SLR。初始搜索由经验丰富的方法学图书馆员基于34个预设研究问题制定并执行,检索数据库包括MEDLINE、Embase、Cochrane临床对照试验中心注册库(CENTRAL)、Web of Science以及2023和2024年EULAR和美国风湿病学会年会的会议摘要,无语言限制。3项SLR(疗效、ILD和高危)仅纳入随机对照试验(RCT),1项(安全性)还纳入观察性研究。按照EULAR SOP,10%的文献由两位研究人员(VK和FL)重复筛选,剩余由其中一人完成,存疑文献与方法学家(AK和RL)讨论。
候选软件通过系统综述工具箱、针对性网络搜索、参考文献核查和AI搜索引擎探索确定。纳入标准包括:提供超越标准文献管理软件的筛选功能、近5年内维护、初始测试具备基本功能、提供免费试用。排除需要高级计算或编程技能的软件,以及仅限于非医学健康领域的软件。4项SLR随后由一位研究人员(VK)使用不同ML工具和算法进行复现,以手动搜索作为参考标准。评估指标包括召回率(recall,真阳性率,即正确识别相关记录占全部相关记录的比例)、精确度(precision,阳性预测值,即最终纳入研究占初始筛选研究的比例)和效率(以工作量减少衡量),同时从实用性、可及性、安全性、透明度和成本等维度进行定性比较。
原始手动系统数据库检索共获得16,403条记录:疗效SLR 6,998条、ILD SLR 2,273条、高危SLR 3,295条、安全性SLR 3,837条。去重后分别筛选4,823、1,493、2,609、3,502条,最终纳入53、2、7、70篇文献。手检文献未纳入当前项目。
经筛选,9个采用ML进行记录优先级排序和相关性预测的工具被识别,其中3个符合全部纳入标准并进行详细评估:
ASReview:由荷兰乌特勒支大学开发和维护的开源筛选工具,采用基于AI的相关性预测排序,支持多种ML模型进行特征提取和分类(如回归、神经网络、贝叶斯随机森林和支持向量机[SVM]等)。研究人员可按需选择预设或自定义模型,通过主动学习根据审阅者的纳入/排除决策持续优化算法。召回率曲线评估模型性能相对于传统手动筛选的表现,可采用"安全程序"等停止启发式策略确保充分召回,包括整合先验知识、两轮不同复杂度模型筛选及外部反馈验证。该软件免费(Apache 2.0许可),但需Python安装或本地服务器部署,较复杂模型需额外软件依赖和计算资源。
将ASReview应用于预设停止标准(至少筛选10%记录且前100条中无相关记录),RCT检索显示出高敏感性:疗效SLR仅遗漏1篇相关文献(占纳入总数的1.9%),安全性SLR遗漏2篇(2.9%)。同时实现显著工作量缩减,每篇SLR仅需手动筛选14%-20%的摘要:疗效SLR 4,823条中筛选653条(缩减86%)、ILD SLR 1,493条中筛选257条(缩减83%)、高危SLR 2,609条中筛选395条(缩减85%)、安全性SLR 3,837条中筛选766条(缩减80%)。
SWIFT-Active Screener:由美国Sciome LLC开发的半自动化ML工具,采用L2正则化对数线性模型进行文献排序,负二项式模型估算剩余文献的召回率,帮助用户决定何时停止筛选。可预设召回率阈值(如95%或99%)作为停止标准。
应用于疗效SLR时,需筛选1,951条记录(40.5%)以达到预设95%召回率阈值,工作量缩减60%。ILD SLR中所有相关文献在前50条内找到,但预测召回率即使筛选约500条无关记录后仍未超过70%。高危SLR在筛选1,052条(40%数据集)后仍无法达到95%召回率阈值(估计召回率84%),尽管所有相关文献在10分钟内前200条中即被检出。安全性SLR工作量缩减69%,但算法遗漏1篇非RCT研究,2篇在主动筛选过程中被审阅者错误排除。
Research Screener:澳大利亚科廷大学开发的云托管Web应用程序,采用深度学习(DL)和自然语言处理(NLP)方法生成摘要文本嵌入,用于记录优先级排序和重新排序,以50条为批次呈现顶级排序记录。
该工具易于实施且运行高效,所有合格文献均被快速识别。以最后两个50条批次中未找到相关文献为停止标准,工作量缩减显著:疗效SLR缩减82%、ILD SLR缩减93%、高危SLR缩减96%。RCT检索召回率高,3次检索均未遗漏研究。安全性SLR应用相同停止标准时遗漏2篇文献(2.9%)。
总体而言,AI辅助方法相比手动审阅需筛选的记录比例为22.2%±12.8%,其中ASReview为16.5%±2.8%、SWIFT-Active Screener为36.4%±4.7%、Research Screener为11.3%±7.0%。传统方法纳入的记录中,0-3篇(4.2%)被ML工具遗漏。
除主动学习工具外,研究人员还探索了筛选前过滤方法。RCT被认为是最高级别的证据,但当前数据库检索过滤器敏感性高而特异性低,捕获所有相关RCT需要筛选大量非RCT文献。机器学习分类器若能可靠区分RCT与非RCT,将显著减少仅关注RCT的SLR筛选负担。
Covidence集成Cochrane RCT分类器,该ML模型基于280,620条Embase记录训练,由Cochrane Crowd标注并用Clinical Hedges和Cochrane RCT重新校准,目前达到99%召回率和8%精确度。模型为摘要分配0-1之间的可能性评分,排除非RCT(评分<0.244)。应用于本研究数据集,摘要筛选量减少:疗效SLR从4,823条减至2,461条(减少49%)、ILD SLR从1,493条减至550条(减少63%)、高危SLR从2,609条减至1,041条(减少60%)。自动排除的摘要可手动复核。
研究人员还讨论了将AI工具整合入SLR工作流的不同方案,从完全手动搜索到AI作为事后检查算法,再到人机协作或并行努力,直至完全依赖AI,每种方案各有优势与局限,需根据预期目标、可用资源、专业知识和透明度、可重复性等因素综合权衡。
本研究的讨论部分首先指出,当前SLR遵循严格规则确保高质量产出,但方法重复、耗时耗力,无法满足指数增长证据库的总结需求。各种ML模型已开发用于支持SLR各步骤,但缺乏验证研究支持其在系统证据综合中的一致应用。本研究将不同ML工具应用于既往开展的4项SLR手动标题和摘要筛选,测试其在时间效率、性能和准确性方面的表现,并提供ML在SLR工作流中当前和潜在作用的概览。
研究发现,ML模型在显著减少工作量的同时保持合理召回率,但具体表现因工具特性而异。ASReview开源且本地部署,增强数据保护和隐私,但需技术设置和配置技能;SWIFT-Active Screener和Research Screener为易用、快速的云应用,但算法透明度、数据隐私和服务器位置依赖是其代价。Cochrane RCT过滤器不使用主动学习,而是应用预训练模型于筛选前减少初始记录堆叠。其他多种工具因付费、未维护或设置障碍未详细评估。
研究强调,SLR工作流严谨且追求完整识别所有相关研究,但代价是耗时耗力和人为错误风险。ML工具提供了弥补这一差距的潜力,但整合进展缓慢,可能反映对其价值和应用的认知不足,以及对可靠性和方法学质量下降的担忧。人类审阅作为参考标准并非无误差(既往研究估计误差率高达10%),适度降低准确性以换取效率提升或可接受,尤其当资源限制否则无法开展完整SLR时。但需防止低质量或有偏综述膨胀,强调结构化验证、持续教育和严格输出评估的必要性。
ML辅助SLR的可接受性能阈值尚未定义,将取决于主题、研究问题复杂性和产出影响。例如,EULAR SLR等国际治疗推荐显然比探索性快速综述应用更严格标准。95%召回率阈值在Meta分析中被评估为足以保留SLR总体发现,但不同项目间存在差异,不同场景(仅RCT vs 包含观察性数据)的验证停止规则有待建立。
本研究的重要局限在于AI筛选在手动搜索后进行,手动筛选结果对审阅者已知,这可能掩盖主动学习算法的潜在挑战,尤其对 inexperienced 研究人员。由于模型从人类输入学习,任何人为错误(如关键参考文献选择不当或相关研究排除)可能被算法放大。此外,AI筛选在EULAR推荐制定后进行,难以确定遗漏文献对工作组决策的影响。其他局限包括半自动化SLR仅由1位研究人员执行、ML模型非系统性选择(尽管系统综述工具箱全面且进行了充分检索核查)、未精确评估时间节省(原始搜索未记录手动筛选时间)、以及特定研究领域外的可推广性不足。
研究人员认为,持续的教育培训必须优先,防止AI的不加批判使用。ML方法正被开发用于证据综合各阶段直至完整SLR手稿完成,完全依赖AI可能丧失领域特异性知识、方法学技能和批判性评估能力。但正确应用时,AI能通过精简流程、优先排序相关记录、检测人为错误来强有力支持研究人员,释放大量资源。大规模数据集上的ML搜索复现和前瞻性验证研究将进一步优化算法,定义场景特异性召回阈值,支持ML可靠整合入SLR工作流。
研究结论:本研究提供了当前可用SLR标题和摘要筛选ML模型的概览和评估。研究发现不同模型具有良好的功能性和可靠性,支持AI整合入SLR工作流,同时需考虑潜在缺陷、相关风险以及快速演变领域中持续方法学发展和研究人员教育的必要性。研究人员建议,前瞻性评估将确定将这些工具整合到未来综述流程中的最佳策略,同时保持高方法学标准。 safeguard措施如模型的一致训练、评估和校准以及用户教育,对于防止偏倚和低质量产出至关重要。