《Journal of Surgical Education》:Artificial Intelligence in Laparoscopic Skill Assessment: A Scoping Review
编辑推荐:
目的:本研究旨在描述和综合现有关于人工智能(AI)在外科教育腹腔镜技能评估中应用的文献。设计:本范围综述按照PRISMA-ScR清单进行。在MEDLINE、EMBASE和Web of Science数据库中进行了文献检索,以确定2015年至2024年5月16日
目的:本研究旨在描述和综合现有关于人工智能(AI)在外科教育腹腔镜技能评估中应用的文献。设计:本范围综述按照PRISMA-ScR清单进行。在MEDLINE、EMBASE和Web of Science数据库中进行了文献检索,以确定2015年至2024年5月16日期间发表的原始研究。符合条件的来源包括评估涉及医学生、外科住院医师或研究员AI评估的研究。筛选和全文审查由两名研究人员独立重复进行,使用Covidence软件完成,分歧通过共识解决。设置:学术和临床培训环境。参与者:在筛选的1973篇摘要中,30项原始研究符合最终纳入标准。参与者是接受腹腔镜手术技术熟练度培训的医学生、外科住院医师和研究员。结果:共识别出1973篇摘要,其中30项研究被纳入分析。这些研究分为AI与传统/人工评分(n=12,40%)和AI区分外科技能水平(n=18,60%)。大多数研究评估了传统腹腔镜技能的组合,包括传递钉板(n=9)、缝合(n=7)、打结(n=6)或图案切割(n=6)。AI模型在区分新手和专家外科医生方面表现出中等至高的准确性,且AI评估与专家人工评估之间有很强的一致性。AI通过实时数据采集和回顾性视频分析有效地实现了技能评估自动化。研究设计的异质性和缺乏标准化报告指标限制了直接比较。结论:基于AI的腹腔镜技能评估提供了一种客观、可扩展的替代传统评估的方法,具有区分能力和自动化技能评估功能。实时AI反馈可以加速技能习得、限制人类偏见并提高培训效率。需要标准化AI评估指标,以验证AI并将其整合到外科教育项目中。
《腹腔镜技能评估中的人工智能:一项范围综述》解读
腹腔镜手术对外科医生的手眼协调、操作灵巧度和精准控制能力有着极高要求。长期以来,针对外科受训人员的腹腔镜技能评估一直是一项耗时耗力的工作,通常需要人工评估者手动观察、打分并提供反馈。这种传统模式在可扩展性、一致性和效率方面存在显著挑战,而随着全球范围内对微创手术需求的持续增长,开发更自动化、高效的腹腔镜技能评估方法的迫切性日益凸显。近年来,人工智能(AI)技术的飞速进步,特别是在通过模拟、虚拟现实和训练系统进行腹腔镜技能教学与训练方面的应用,展现出变革外科教育的巨大潜力。尽管前景广阔,但目前对于AI在腹腔镜技能评估中的全面作用仍缺乏系统性认知,例如现有的AI技术与算法、具体评估任务及其在提升评估与教学方面的能力均不明确,AI融入主流外科教育以优化学习成果的路径也有待探索。为此,研究人员开展了一项范围综述,旨在系统评价现有文献,明确AI技术在增强腹腔镜技能评估中的作用,并为未来更有效地将AI纳入外科教育培训指明方向。该研究最终发表于《Journal of Surgical Education》。
为开展此项研究,研究人员采用了系统性的文献检索与筛选策略。研究合作医学图书馆员,在MEDLINE、EMBASE和Web of Science三大数据库中进行了全面检索,检索词涵盖“人工智能”、“深度学习”、“虚拟现实”、“计算机模拟”与“腹腔镜”、“医学教育”、“能力”、“评估”等组合。文献发表时间限定在2015年1月至2024年5月,以确保纳入最新证据。研究人员制定了明确的纳入与排除标准,聚焦于评估AI或机器学习平台在医学生、实习生、外科住院医师及研究员等受训人员腹腔镜技能习得、评估或反馈中的应用研究。文献筛选与全文审查由两名研究者独立完成并交叉核对,使用Covidence软件管理流程,分歧通过共识解决,必要时引入第三方研究者讨论。数据提取采用标准化的Excel表格,由两名研究者独立进行,并根据PRISMA-ScR指南进行定量与定性综合分析。主要结局指标为AI评估相较于传统评分方法的准确性,以及AI区分新手与专家外科医生水平的准确性。次要结局包括对评估的腹腔镜技能类型及相关平台的分析,以及AI技术的可用性或可行性评价。此外,研究人员还使用ROBINS-I工具对纳入研究的偏倚风险进行了评估。
经过严格的筛选流程,初步检索获得2876条记录,去重后剩余1973篇独特文献。通过阅读标题和摘要,105篇相关文献进入全文筛选阶段,最终30项原始研究被纳入分析。这些研究主要发表于2020年之后(n=18,60%),其余12项发表于2020年之前。研究设计方面,21项为前瞻性试验,8项为回顾性视频数据集分析,1项同时包含前瞻性与回顾性视频分析成分。参与者主要为医学生、外科住院医师和研究员,部分为基于手术视频的分析。多数研究(n=28)在单一机构进行,少数涉及多机构或国际会议参与者。
在结果部分,首先介绍了研究选择过程,通过PRISMA-ScR流程图清晰展示了从检索到最终纳入的各个环节。其次是纳入研究的质量评估,使用ROBINS-I V2工具评估显示,大多数研究存在中度总体偏倚风险,主要源于混杂因素方面的顾虑,部分研究在特定领域存在高偏倚风险,但无研究因此被排除。接着是研究人口统计学特征,详细列出了30项纳入研究的基本信息,包括标题、作者与年份、国家、主要研究机构、研究类型、参与者水平和总参与者/视频数。
关于腹腔镜技能与评估任务,研究发现评估任务多样,但多集中于传统腹腔镜培训技能,如传递钉板(n=9)、缝合(n=7)、打结(n=6)和图案切割(n=6)。其他评估内容包括组织处理或分离(n=3)、组织处理轻柔度模拟器(n=2),以及真实手术操作(n=6)和如线传递等其他任务。所使用的AI技术平台也各不相同,例如传递钉板任务中应用了PCA by SVD、CNN、YOLOv4、Bi-LSTM等多种算法。
在与传统评分的相关性 vs. 区分外科医生技能水平方面,30篇文章被分为两大类进行分析。第一类(n=12,40%)关注AI评分与传统/人工评分的相关性,即AI平台生成的分数与已验证的腹腔镜手术技能评估工具(如GOALS、OSATS)或人工评估者评分的比较。例如,一项传递钉板研究显示AI算法与专家评估者之间的一致率高达93.02%,Cohen’s Kappa系数为0.86;缝合任务中,最小二乘回归模型与人类OSATS评分相关性达0.85。第二类(n=18,60%)则测试AI工具区分技能水平的能力,主要结局通常是按培训水平(如新手vs专家)对操作者进行分类的准确性。例如,一项使用双向长短期记忆网络的研究在区分专家和新手外科医生方面准确率在75.3%至96.9%之间;另一项使用新型动作表示特征空间平台的研究在传递钉板和打结任务中分类准确率超过98%。
讨论部分指出,AI驱动的平台主要分为两类:区分新手与专家技能水平,以及基于标准化评分方法复制专家人工评估。大多数研究使用传统机器学习算法,在区分不同腹腔镜任务中的新手和专家时表现出中等至高等准确性,这有助于客观识别未达预期培训水平的个体,并可能减少评估中的性别偏见。此外,多项研究表明,基于训练箱、模拟器平台数据分析或手术视频回顾的自动评分系统,其准确性可与人类评估者相媲美,例如在缝合、打结、组织分离及胆囊切除或结直肠癌手术视频评估中。AI评分系统有望通过提高评估吞吐量、增强培训项目可扩展性以及远程实施认证考核,从而变革外科教育。然而,研究的异质性以及缺乏AI模型性能评估的标准化指标,使得跨模式比较变得困难。研究人员呼吁建立统一的报告系统(类似放射学领域)和一致的评分量表(如OSATS或GOALS),并专注于FLS等既定任务,以实现算法的纵向比较和优化实施。未来研究还应致力于将AI整合到模拟和真实手术环境中,探索混合模型,并评估实时AI反馈的长期有效性、可扩展性及其在资源有限地区的应用潜力。
结论部分强调,AI模型在区分多种腹腔镜手术任务技能水平方面显示出巨大潜力,可应用于判断受训人员是否达到预期水平。器械运动追踪和特定任务视频分析的自动化与专家人工评分及验证评分方法有合理相关性,但某些腹腔镜技能仍需进一步优化。在正式将AI实施于外科培训和腹腔镜认证项目前,还需要开展使用标准化AI/ML算法和评分工具的随机试验,并研究这些技术的可行性和成本效益。