成功的几率有多大?利用人工智能预测综合整形手术搭配的成功率

《Journal of Surgical Education》:What Are the Odds? Utilization of Artificial Intelligence to Predict Success in the Integrated Plastic Surgery Match

【字体: 时间:2026年05月04日 来源:Journal of Surgical Education 2.1

编辑推荐:

  凯莉琳·N·戈德贝(Kerilyn N. Godbe)| 安妮·M·迈耶(Anne M. Meyer)| 科尔·L·伯德(Cole L. Bird)| 尼亚曼·纳齐尔(Niaman Nazir)| 丽贝卡·法默(Rebecca Farmer)| 詹姆斯·巴特沃斯(James Bu

  凯莉琳·N·戈德贝(Kerilyn N. Godbe)| 安妮·M·迈耶(Anne M. Meyer)| 科尔·L·伯德(Cole L. Bird)| 尼亚曼·纳齐尔(Niaman Nazir)| 丽贝卡·法默(Rebecca Farmer)| 詹姆斯·巴特沃斯(James Butterworth)| 斯特林·布劳恩(Sterling Braun)
堪萨斯大学医学中心整形外科系,堪萨斯州堪萨斯城

**目的**
尽管普遍认为可量化的申请特征会影响匹配成功率,但自美国医学执照考试(USMLE)第一步采用及格/不及格评分制度以来,尚未在任何专业领域开发出前瞻性的预测算法。人工智能的兴起为分析申请因素以预测竞争日益激烈的整形外科住院医师匹配结果提供了新的方法。

**方法**
收集了2023年至2024年和2024年至2025年申请周期内提交给某学术中心的整形外科通用申请(Plastic Surgery Common Applications, PSCAs)中的可量化数据。大约70%的2023年至2024年申请数据被用于训练随机森林分类模型以预测匹配结果。随后使用剩余的30%数据对该模型进行评估,并通过2024年至2025年的申请数据进行前瞻性验证。

**背景**
堪萨斯大学医学中心,三级医疗机构。

**参与者**
约713名2023年至2024年和2024年至2025年申请周期的整形外科住院医师申请人。

**结果**
我们模型中最重要的匹配预测因素是来自高等排名医学院的毕业情况,其次是推荐信的平均强度和USMLE第二步考试成绩。该模型在2023年至2024年的数据中表现出强大的分类能力,AUROC值为0.85,平衡准确率为82.7%(95%置信区间73.7%-89.6%,p<0.0001)。前瞻性验证也获得了一致的结果,AUROC值为0.84,平衡准确率为77.6%(95%置信区间73.1-81.7,p<0.0001),验证了该模型的长期准确性。最终模型被部署在我们新设计的“匹配预测应用”(Match Prediction App)中,可根据选定的输入特征实时估计匹配结果的概率。

**结论**
该模型提供了对整形外科住院医师匹配预测因素的全面分析,有助于申请人和项目负责人了解影响匹配结果的关键因素。虽然学术指标(如第二步考试成绩)至关重要,但推荐信的重要性表明,全面评估对于住院医师选拔仍然至关重要。

**引言**
整形外科住院医师匹配已成为研究生医学教育中最具竞争力的申请流程之一,每年有越来越多的申请人竞争相对有限的职位。项目负责人和医学生通常关注可量化的指标(如USMLE考试成绩、Alpha Omega Alpha (AOA) 会员资格和出版记录)来评估个人获得住院医师职位的可能性。然而,全面评估实践的复杂性表明,包括推荐信和机构声誉在内的其他因素也可能在决定匹配结果方面同样重要。尽管普遍认为多种特征会影响申请人的匹配机会,但自USMLE第一步采用及格/不及格评分制度以来,目前还没有全面的方法来评估成功概率。虽然强大的学术指标确实可以提升候选人的形象,但领导经验、整形外科临床轮转和强有力的推荐信等项目负责人经常被认为是适合高级培训的重要指标。此外,庞大的申请人数和现代住院医师申请中包含的大量数据使得仅依赖传统成功标志变得复杂。

**方法**
在获得机构审查委员会(IRB)批准后,从2023年至2024年(330份申请)和2024年至2025年(383份申请)周期内提交给同一学术中心的713份整形外科通用申请中收集了可量化数据。这些数据包括性别、种族、美国公民身份、多语言能力、是否拥有其他学位、是否为首次申请者、是否毕业于排名前40的医学院(基于《美国新闻与世界报道》医学院排名),以及是否有本地的整形外科项目和地理家乡地区(西部、中西部、东北部、南部、美国大陆以外地区或未回答)。此外,还收集了反映学术生产力的指标,包括USMLE第一步(分数与及格/不及格)、第二步考试成绩、Alpha Omega Alpha (AOA) 社会入会情况、Gold Humanism Honor Society (GHHS) 入会情况以及研究生产力(如同行评审出版物数量、海报展示和口头报告)。为了考虑通常“不可量化”的申请人特征,我们收集了标准化美国整形外科教育委员会推荐信(LOR)上的评分(等级1、2-5、5-10、10-20、未评级),以纳入更全面的评估。我们将每个等级分配了一个数值(等级1为1;等级2-5为2;等级5-10为3;等级10-20为4;未评级为5)。这些评分用于算法的三个部分——平均LOR评分、低LOR评分和高LOR评分。

**算法创建**
匹配预测算法使用R软件在机构批准的设备上开发,采用监督机器学习方法,并基于历史匹配数据进行训练。数据从未与任何类型的大型语言模型(LLM)共享或公开。此外,根据IRB协议和ACEPs指南,收集的数据已从具体申请中去标识化,后续分析及随机森林的整合不会导致特定申请的识别。2023年至2024年的申请者被随机分为两组。其中70%的申请用于训练随机森林分类模型以预测匹配结果。特征选择通过相关性分析和递归特征消除(RFE)相结合的方法进行,以识别最具预测性的变量并减少多重共线性。高度相关的特征(皮尔逊相关系数>0.8)被移除。该算法在2023年至2024年剩余的30%申请数据上进行了测试,并通过2024年至2025年的申请结果进行了前瞻性验证。模型性能通过准确率、精确度、召回率、F1分数和接收者操作特征曲线下面积(AUROC)进行评估。最终模型被部署在我们的“匹配预测应用”中,可根据选定的输入特征实时估计匹配结果的概率。该应用程序和网站允许用户输入通用指标,查看这些假设数据点的预测匹配率。它由我们的随机森林统计模型驱动,根据用户输入生成预测结果。该应用不包含任何先前申请人的信息,也不跟踪或存储网站访问者的任何数据输入,符合我们的IRB协议和ACEPs指南。

**结果**
2023年至2024年和2024年至2025年申请周期中,绝大多数申请人(分别为330/350,94.3%和383/396,96.7%)申请了我们的机构。2023年至2024年申请者的整体匹配率为59.4%(196/330),而全国匹配率为60.9%(213/350)。2024年至2025年的全国匹配率为55.8%(221/396),与机构匹配率51.4%(197/383)相当。有关申请人人口统计和匹配状态的详细信息,请参阅Bird等人的表1。

**表1. 随机森林模型确定的影响匹配预测的所有可量化因素(随后纳入模型)**
| 因素 | 平均值 | 最小深度 | 节点数 | 准确率下降 | Gini下降 | p-值 |
|-------------|----------------|----------------|----------------|----------------|----------------|
| 排名前40的医学院 | 1.21 | 42 | 66 | 0.04 | 92 | <0.001 |
| 平均推荐信强度 | 1.93 | 92 | 19 | 0.03 | 15 | <0.001 |
| 第二步考试成绩 | 2.63 | 33 | 29 | 0.01 | 10.40 | <0.001 |
| 最差推荐信 | 2.82 | 21 | 42 | 0.03 | 10.80 | <0.001 |
| 讲台展示 | 3.05 | 02 | 25 | 0.00 | 7.01 | <0.001 |
| 种族 | 3.30 | 00 | 21 | 0.00 | 6.58 | <0.001 |
| 海报展示 | 3.43 | 12 | 25 | 0.00 | 8.68 | <0.001 |
| 总出版物 | 3.65 | 32 | 25 | 0.00 | 6.37 | <0.001 |
| 家乡 | 3.96 | 81 | 15 | 0.00 | 4.10 | <0.001 |
| 第一作者出版物 | 4.30 | 19 | 70 | 0.00 | 4.27 | <0.001 |
| 成绩 | 4.66 | 71 | 11 | 68 | 0.00 | 3.26 | <0.001 |
| Alpha Omega Alpha (AOA) | 5.09 | 79 | 24 | 0.00 | 2.87 | 10 |
| Gold Humanism Honor | 5.20 | 09 | 14 | ?0.00 | 2.28 | 1.0 |
| 其他学位 | 5.35 | 08 | 42 | 0.00 | 2.55 | 1.0 |
| 之前申请者状态 | 5.79 | 45 | 91 | 0.00 | 3.17 | 1.0 |
| 最佳推荐信 | 6.07 | 35 | 43 | 0.00 | 1.60 | 1.0 |
| 本地项目状态 | 6.67 | 72 | 26 | 0.00 | 20.92 | 1.0 |
| 研究年份 | 6.68 | 12 | 93 | 0.00 | 0.72 | 1.0 |
| 性别 | 6.81 | 43 | 20 | 0.00 | 0.76 | 1.0 |
| 会说的语言数量 | 7.05 | 21 | 12 | 0.00 | 0.48 | 1.0 |
| 美国公民身份 | 7.09 | 18 | 70 | 0.00 | 0.35 | 1.0 |
| 夫妻匹配 | 7.35 | 08 | 40 | 0.00 | 0.19 | 1.0 |
| 之前的轻罪或重罪 | 7.61 | 14 | 0.00 | 0.00 | 1.0 |

**特征重要性分析**
随机森林模型基于Gini指数进行了特征重要性分析,确定了匹配成功的关键预测因素。医学院排名/声誉是匹配成功的最显著因素,Gini下降值为20。毕业于排名前100的医学院的毕业生相比国际医学毕业生(IMG)或骨科医学院的毕业生有更高的匹配机会,排名前40的医学院毕业生也有略微增加的机会。其次是推荐信的平均强度(15)、第二步考试成绩(10)、最差推荐信(10)和讲台展示(7)(表1,图1)。

**模型性能**
随机森林模型在利用2023年至2024年的数据集时表现出强大的预测能力,整体准确率为82.7%(95%置信区间:73.7%-89.6%,p<0.0001),Kappa统计量为0.64,表明其预测能力显著高于随机水平(表2)。AUROC值为0.85,表明预测能力很强(图2A)。平衡准确率为81.9%,敏感性为86.2%,特异性为77.5%。阳性预测值(PPV)为84.8%,阴性预测值(NPV)为79.5%。混淆矩阵显示,在2023年至2024年的申请者样本中,模型正确分类了50名匹配申请者和31名未匹配申请者,其中有9个假阳性和8个假阴性(图3A)。

**结论**
本文介绍了一个综合预测模型,将从USMLE表现到医学院声誉等多个预测因素整合到一个框架中,以估计匹配概率。该模型旨在成为首个利用人工智能定量评估竞争日益激烈环境中成功概率的模型,为潜在申请人、医学教育工作者和住院医师选拔委员会提供价值。最终,这项工作旨在实现更加数据驱动、公平和透明的选拔过程,基于既定的指标和全面评估原则。最终,这些结果被用来推导出一个方程式,该方程式基于线性回归(LRM)预测申请人匹配到整形外科的概率。这个模型从未进一步发展为可供学生使用的预测模型,而且这个LRM模型还包括了现已过时的第一阶段(Step 1)分数这一指标。德克萨斯STAR(寻求申请住院医师项目的透明度)也被研究作为预测整形外科匹配成功的指标。Ewing等人利用2021年至2023年的数据库中的自我报告调查数据,比较了匹配成功和未匹配成功的申请人的各项指标。显著的匹配预测因素包括有研究年份、8篇或更多同行评审的出版物,以及参加了13次或更多次面试。尽管大多数申请人认为该数据库很有用,但德克萨斯STAR并未包含关于推荐信质量、是否有意向接收申请的医疗机构(home program)或医学院声誉的信息——这些都是已知的对整形外科匹配成功至关重要的因素。与Shaffery等人的研究类似,这项研究也是在第一阶段分数制度下进行的。

我们的模型在基于这些初步尝试的基础上,使用了自第一阶段评分制度转变以来的更新申请指标。它是第一个为申请人和住院医师项目主任提供个性化指导的算法。在我们算法分析的各种因素中,推荐信的数字排名(numeric LOR rank)被证明是最能指示匹配成功的因素之一。这一发现与Thomas等人在2020年至2021年分析的申请匹配数据的结果一致。他们分析的标准推荐信数据包括申请人的总体百分位数和数字排名,以及工作伦理、技术能力、主动性、沟通和学术技能、团队合作能力、患者护理、研究/教学能力和专业行为等各种参数。在这个团队的逻辑回归模型中,只有第一阶段的数字分数、出版物数量和推荐信中的数字排名对匹配结果预测有显著贡献。这一发现支持在我们的模型中仅使用推荐信的数字排名,以保持模型的准确性和用户友好性。除了推荐信之外,我们的分析还确定了医学院声誉、USMLE第二阶段(Step 2)分数和研究产出作为匹配成功的额外重要预测因素。这一发现与USMLE第一阶段评分制度转变为及格/不及格制度后,第二阶段分数和研究能力将受到更多重视的预测相符。

总体而言,住院医师选拔过程的最终目标是全面评估。以分数为中心的指标并不能始终与手术里程碑的达成或预测住院医师的手术技能和成功相关联。然而,申请数量的不断增加给这种方法带来了挑战,使得像Shaffrey等人提出的算法方法变得更具吸引力。虽然可以说包括我们的算法在内的所有算法仍然基于分数,但我们旨在通过纳入其他全面指标(如推荐信)来提供更全面的评估。值得一提的是,尽管标准化的推荐信表格已被证明可以预测整形外科和其他专业的匹配结果,但其有效性仍存在争议。虽然这种标准表格的目的是为了评估的统一性,但多项研究表明这些表格可能对某些性别和种族群体存在系统性偏见。这种偏见的存在凸显了在推荐过程中需要提高意识和采取缓解策略的必要性。此外,2025年的匹配周期中,整形外科的标准化推荐信表格进行了调整,现在要求项目将申请人分为“匹配优先”、“较高排名(前20%,如果他们能被我们录取我们会很高兴)”、“中等排名(前21%-70%,愿意培训他们)”、“较低排名(后30%,总比不匹配好”和“不给出排名”几类。虽然这可能与之前该算法使用的五级排名系统相对应,但需要通过今年的匹配周期进行进一步验证。同时也要认识到,某些无形特征(如韧性和同理心)难以量化,这代表了我们模型的固有局限性。

鉴于全面评估的价值,我们建议整形外科项目使用这一算法来指导学生咨询,而不是作为筛选申请人的工具。如果项目使用匹配算法来淘汰匹配概率低的申请人,可能会导致一种自我实现的预言效应,因为他们获得的面试机会和成功机会减少。还需要注意的是,虽然该模型可能有助于预测匹配的可能性,但它无法预测住院医师在培训期间的表现。该模型的另一个局限性在于其开发数据集包含了及格/不及格分数和第一阶段的数字分数(反映了USMLE评分制度的过渡期)。尽管最终分析中排除了第一阶段的分数,但这些群体之间的申请解读差异以及随后的匹配结果可能对算法的准确性产生了负面影响。此外,该算法仅涵盖了申请同一所学术机构的申请人,这可能导致选择偏差。不过,这个数据集仍然涵盖了这两个周期中绝大多数申请人(其匹配率与全国平均水平相当),这表明该工具可能适用于所有申请者。此外,住院医师申请者的竞争日益激烈。例如,2024年匹配成功的申请人平均拥有34.7篇摘要、演讲稿和出版物,而2020年仅为19.1篇。因此,虽然我们的工具在当前群体中表现出准确性,但如果不定期更新以反映这些变化,其预测有效性可能会随时间减弱。同样,如果申请者数量大幅增加或减少,准确性也会受到影响。不过,鉴于过去五年匹配率相对稳定(2020年为61.9%,2021年为56.8%,2023年为55.3%,2024年为62.3%,2025年为55.8%),我们预计该模型在未来几个周期内仍然对申请人有用,之后可能需要用新数据重新训练。

未来的研究应重点评估我们的算法对项目主任和申请人的影响,特别是对他们的压力水平和决策过程的影响。虽然我们的目的是通过加强申请准备帮助申请人更准确地了解自己在匹配过程中的位置来减轻他们的压力,但了解该工具是否有助于缓解压力或加剧压力对于其改进和有效实施至关重要。此外,还需要持续努力来提高模型考虑定性属性的能力,以确保对匹配结果的预测更加全面和全面。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号