人工智能与263名儿科临床医生在诊断儿童出疹性疾病方面的准确性对比

《European Journal of Pediatrics》：Diagnostic accuracy of artificial intelligence versus 263 pediatric clinicians for childhood exanthems

【字体：大中小】 时间：2026年05月10日 来源：European Journal of Pediatrics 2.6

编辑推荐：

　　摘要：儿童出疹性疾病在诊断上具有挑战性，因为其临床表现存在重叠。本研究旨在确定当前的人工智能（AI）模型在常见皮疹相关疾病的诊断准确性是否达到或超过儿科住院医师和专家的性能水平。参与者和AI模型根据临床特征、实验室检查结果以及两位儿科传染病专家的共识进行评估。志愿者样本包括263

　　摘要：儿童出疹性疾病在诊断上具有挑战性，因为其临床表现存在重叠。本研究旨在确定当前的人工智能（AI）模型在常见皮疹相关疾病的诊断准确性是否达到或超过儿科住院医师和专家的性能水平。参与者和AI模型根据临床特征、实验室检查结果以及两位儿科传染病专家的共识进行评估。志愿者样本包括263名儿科临床医生：107名住院医师（第一至第四年）和156名专家。每位临床医生完成了一份匿名问卷，其中包含每个病例的临床照片和伴随的临床数据。相同的病例被呈现给三个AI模型：ChatGPT、Gemini和Copilot。在263名临床医生中（107名住院医师，156名专家），专家的诊断准确率高于住院医师（中位数分别为46 [IQR, 42—50] vs 41 [IQR, 36—46]；P < 0.001；r = 0.32）。ChatGPT正确诊断了61例中的53例（86.9%），Gemini诊断了50例（82.0%），Copilot诊断了44例（72.1%）。ChatGPT和Gemini的准确率均超过了专家群体中位数的95%置信区间上限（47.17）。所有三个AI模型的准确率也都超过了住院医师95%置信区间的上限（42.76）。疾病层面的准确率从0%（昆虫叮咬，所有模型）到100%（9种情况，所有模型）不等。第四年住院医师的准确率高于第一年和第二年住院医师（P = 0.001；ε2 = 0.13）。结论：AI模型结合临床数据和图像后，其诊断表现与专家水平相当或更高。准确率因疾病而异；在需要情境推理的情况下，AI的准确性会下降。在AI准确性最低的情况下，仍需医生监督。

引言：儿童出疹性疾病是儿科实践中最常见且诊断最困难的病症之一。其鉴别诊断范围广泛：病毒性皮疹、细菌感染、药物反应和免疫介导的疾病在临床表现上存在重叠。像脑膜炎球菌血症、川崎病和斯蒂文斯-约翰逊综合征这样的时间敏感性疾病，如果识别延迟，会带来严重后果[1]。诊断准确率与临床经验有关，但很少有研究量化不同培训水平之间的这种差异。基于人工智能（AI）的工具作为儿科皮肤病学的临床决策支持系统受到了关注[2]。图像分析算法可以帮助皮肤科评估[3]，但大多数算法是基于成人数据集训练的。儿童皮肤病变在形态、分布和临床背景上与成人有所不同，未经过这些差异校准的模型会失去准确性[4]。对于特定皮疹相关疾病，任务驱动的机器学习分类器表现良好。一项关于川崎病模型的荟萃分析显示，外部验证点的整体准确率超过89%[5]，基于常规实验室特征构建的可解释算法的曲线下面积值达到0.97至0.98[6, 7]。然而，这些特定疾病的工具一次只处理一种情况，无法泛化到所有出疹性疾病。通用的大型语言模型（LLMs）采取了不同的方法。它们接受非结构化的临床文本，并能同时推理多种情况，这使它们成为更广泛诊断支持的候选者。它们在儿科领域的准确性迅速提高，但仍不稳定。在之前的一项研究中，ChatGPT 3.5在100例儿科病例挑战中没有正确识别出任何诊断[8]。在儿科皮肤病学中，人类专家在基于-board类型和基于病例的问题上的表现优于ChatGPT 3.5，尽管4.0版本达到了可比的准确率[9]。在专家评估的22个皮肤病案例中，Copilot的准确率最高（约90%），而ChatGPT 3.5和Gemini的准确率在80%左右[10]。我们之前的研究表明，AI的诊断准确性在很大程度上取决于输入数据：当模型仅接收图像时，准确率下降到30.6%；而当临床发现与图像一起提供时，ChatGPT的准确率上升到了86.9%[11]。一项关于LLM在医疗保健中应用的系统评价指出了一个持久的方法学限制：大多数研究将AI与1至5名临床医生的小组进行比较，这无法推断模型性能在更广泛的临床医生能力分布中的位置[12]。这种比较存在结构上的局限性：小型临床医生参考组无法确定AI模型是处于专家水平、初级培训生水平还是中间水平。因此，我们评估了ChatGPT、Gemini和Microsoft Copilot在常见皮疹相关疾病中的诊断准确性，涉及广泛的儿科住院医师和专家群体。

方法：这项多类诊断分类比较研究于2025年7月至12月期间在Necmettin Erbakan大学医学院进行。我们比较了儿科住院医师、儿科专家和三个AI模型在61例皮疹相关儿科疾病中的诊断准确性。共有61名被诊断为出疹性疾病的儿科患者参与了研究。确诊是通过临床特征、实验室检查结果以及在必要时进行的血清学评估、病理检查以及两位儿科传染病专家的共识确定的。这61例涵盖了23种不同的疾病（见补充材料1中的表1）。研究人群包括Fitzpatrick皮肤类型II至IV；不包括皮肤类型V或VI的患者。患者的皮肤类型没有提供给AI模型或临床医生。对于每个病例，两位儿科传染病专家在Google Forms平台上将其临床照片和伴随的临床信息格式化为多项选择题。每个问题都展示了临床情况和图像以及几个诊断选项，参与者选择最可能的诊断。关于这些病例和问题的详细信息见补充材料2。儿科住院医师（n = 107）和儿科专家（n = 156）自愿完成了问卷。住院医师分布在四个培训年度：第一年（n = 30）、第二年（n = 17）、第三年（n = 26）和第四年（n = 34）。所有参与者都对最终诊断结果不知情。相同的问卷和答案键适用于所有人类参与者和AI模型。测试了三个AI模型的付费版本：ChatGPT Plus（GPT-5；OpenAI）、Gemini（Gemini 3 Pro；Google）和Microsoft 365 Copilot（Microsoft）。通过各自的网页界面在2025年末访问了这些模型。每个临床场景，包括病例图像和临床信息，都在新的会话中呈现，以防止信息在病例间传递。AI生成的回答被记录下来，并根据与人类参与者相同的答案键进行评分。每个模型测试了一次；未评估运行间的变异性。通过Kolmogorov–Smirnov检验和视觉检查（直方图、Q-Q图）评估了分布的正态性。由于分数不是正态分布的，结果以中位数和四分位数范围（IQR）报告。住院医师与专家之间的比较使用了Mann–Whitney U检验，效应量为r = |Z|/√N（0.10表示较小，0.30表示中等，≥0.50表示较大）。住院医师之间的培训年度比较使用了Kruskal–Wallis检验，并进行了Dunn-Bonferroni事后校正；效应量为ε2 = [H ? k + 1]/[n ? k]（≈0.01表示较小，≈0.06表示中等，≥0.14表示较大）。AI模型的准确性按每个病例正确或错误进行编码。Cochran Q检验比较了模型之间的诊断率，使用McNemar检验（Bonferroni校正的阈值P < 0.016）进行成对比较。为了将AI分数与人类表现分布进行对比，我们使用Maritz-Jarrett方法[15]计算了95%置信区间（CI），公式为：中位数 ± 1.82 × IQR/√N，该公式改编自McGill的95%置信度系数[16]。AI分数超出95% CI表示模型性能偏离了相应临床医生组的预期中位数。由于AI模型产生的观察结果是单一的，因此它们被排除在针对人类群体的推断测试之外；比较结果是描述性的。疾病层面的亚分析通过基于排名的检验（Mann–Whitney U、Kruskal–Wallis）而非基于CI的比较进行，因为在病例较少（1至3个问题）的疾病中，CI的上下限效应导致CI变为点估计。所有分析均在IBM SPSS Statistics版本18.0（IBM Corp）中进行。双边P < 0.05定义了统计显著性。该研究得到了Necmettin Erbakan大学医学院伦理委员会的批准（决策编号2026/6265），所有研究方案均遵循赫尔辛基宣言的原则。从所有患者的父母或法定监护人那里获得了书面知情同意。

结果：共有263名临床医生参与了研究：107名住院医师（40.7%）和156名专家（59.3%）。参与者的特征和总体诊断准确率见图1。专家的总诊断得分高于住院医师（中位数分别为46 [IQR, 42—50] vs 41 [IQR, 36—46]；P < 0.001；r = 0.32）。住院医师与专家之间的疾病层面比较见补充材料1（表2）。

图1：此图像的替代文本可能是使用AI生成的。

总体诊断准确性评估：在AI模型中，ChatGPT正确诊断了61例中的53例（86.9%），Gemini正确诊断了50例（82.0%），Copilot正确诊断了44例（72.1%）。Cochran Q检验显示模型之间存在显著差异（P = 0.030）。成对McNemar检验显示ChatGPT的表现优于Copilot（P = 0.022），而ChatGPT与Gemini之间（P = 0.508）或Gemini与Copilot之间（P = 0.180）没有显著差异。当AI分数与专家群体中位数的95% CI（44.83—47.17）进行比较时，ChatGPT（53）和Gemini（50）超过了上限，表明其表现高于预期的专家中位数。Copilot（44）略低于下限。所有三个AI模型的准确率都超过了住院医师群体中位数的95%置信区间上限（39.24—42.76）（见表1）。

疾病层面的准确率在模型和疾病之间差异很大（见图2）。所有三个模型都正确诊断了脓疱病、结节性红斑、突然发生的皮疹、麻疹、利什曼病、荨麻疹、传染性软疣、斯蒂文斯-约翰逊综合征和带状疱疹（每个模型的准确率为100%）。所有三个模型都未能识别任何昆虫叮咬病例（准确率为0%）。ChatGPT和Copilot的疥疮准确率均为40%；Gemini的准确率为80%。细小病毒B19的准确率从0%（Copilot）到100%（ChatGPT）不等。Copilot在所有急性婴儿出血性水肿和急性泛发性脓疱病病例中均失败（准确率为0%），而ChatGPT和Gemini都识别了所有病例（准确率为100%）。

在住院医师中，诊断准确率随着培训年限的增加而提高（表2，图3）。四年级住院医生的总准确率高于一年级和二年级的住院医生（中位数分别为45、40和37；P=0.001；ε2=0.13）。三种疾病导致了这一差异：肠道病毒感染（P=0.001；事后分析：一年级、二年级和三年级< />< /><二年级和四年级；ε2=0.13）。根据培训年限的综合疾病水平数据见etable 3（补充材料1）。表2显示了按培训年限划分的住院医生诊断准确率：总分数及存在显著差异的疾病。第四年住院医生的诊断准确率高于一年级和二年级的住院医生。这在三种特定疾病中表现得尤为明显：肠道病毒感染（p=>< />< /><二年级和四年级；ε2=0.13）。根据培训年限划分的全面疾病水平数据详见补充材料1的etable 3。表2还展示了按培训年限划分的住院医生诊断准确率，包括总分数以及存在显著差异的具体疾病。

在所有参与研究中，chatgpt的诊断准确率最高（86.9%），其次为gemini（82.0%）和copilot（72.1%）。chatgpt和gemini的准确率均超过了专科医生群体中位数的95%置信区间上限（47.17/61），表明其表现超出了专科医生通常的准确率范围。copilot的准确率略低于专科医生置信区间下限，但高于住院医生的上限。在人类参与者中，专科医生的表现优于住院医生（中位数46 vs 41；p<0.001；r=0.32），且四年级住院医生的准确率也高于一年级和二年级的住院医生（p=0.001；ε2=0.13）。这些结果反映了大型语言模型（llm）相比早期版本的快速进步。barile等人[8]的研究显示，当chatgpt 3.5应用于基于已发表文献的100个儿科病例挑战时，诊断错误率为83%。而我们的研究使用gpt-5处理了包含图片和临床数据的真实病例，诊断正确率达到了87%。这种差异可能既反映了模型的进化，也得益于提供了结构化的临床背景信息。我们之前的研究已经确定，临床背景是决定诊断准确性的关键因素；在没有临床背景的情况下，相同模型的准确率可低至30.6%[11]。huang等人[9]发现儿科 dermatologists 在基于文本的测试中表现优于chatgpt 3.5，但不如chatgpt 4.0。podder等人[10]的研究中，copilot的表现优于chatgpt 3.5和gemini。而我们的研究中，chatgpt的表现优于copilot（p=0.022），chatgpt与gemini之间的差异不显著。由于各研究使用的模型版本不同，直接比较存在局限性。不过，不同研究中的一个共同点是：模型的生成方式不如模型的具体版本对其性能影响大——无论品牌如何，新版本的模型通常优于旧版本。

我们的疾病层面分析揭示了一些总体准确率数据所隐藏的模式。所有三种模型都能准确识别具有明确临床特征的疾病，如脓疱病、荨麻疹、带状疱疹、传染性软疣、麻疹和斯蒂文斯-约翰逊综合征，这些疾病的诊断准确率接近100%。然而，对于需要结合详细临床病史和非特异性皮肤表现来进行诊断的疾病，模型的表现较差。所有模型在处理昆虫叮咬病例时都未能准确诊断（准确率为0%）。chatgpt和copilot在这些病例上的准确率为40%，而gemini的准确率为80%。对于细小病毒b19的诊断，三种模型的表现也存在明显差异：chatgpt正确诊断了所有病例，gemini仅诊断出1例，copilot则未诊断出任何病例。这些失败案例在临床上意义重大。昆虫叮咬虽然通常不会导致严重后果，但错误分类会引发不必要的检查；而疥疮若被忽视，则需要及时的治疗。这表明，当诊断结果与教科书描述一致时，大型语言模型的表现最佳；而当诊断依赖于对暴露史、分布模式或流行病学线索的推理时，模型的表现较差。mathes等人[13]在过敏学领域也发现了类似的问题，chatgpt在儿童食物过敏咨询中出现了关键性错误。su等人[14]的研究表明，随着临床情景的复杂性增加，大型语言模型的建议质量也会下降。这些发现都与我们在疾病层面观察到的差异一致。

住院医生按培训年限划分的诊断准确率也存在差异：四年级住院医生的准确率（中位数45；平均74.0%）接近专科医生中位数（46），而一年级和二年级的住院医生准确率明显较低（中位数分别为40和37）。造成这种差异的主要疾病是肠道病毒感染引起的皮疹、亨诺-舍恩莱因紫癜和脑膜炎球菌血症。这些疾病需要结合系统性的临床表现和皮肤症状进行综合判断。这对医学教育有重要启示：随着培训时间的积累，住院医生对皮疹相关疾病的临床 pattern 识别能力会逐步提高，尤其是在培训的最后一年。人工智能模型甚至超过了专科医生的平均水平，这引发了这样一个问题：这些工具是否可以在住院医生培训期间作为校准基准。

我们的研究也存在一些局限性。每种人工智能模型只测试了一次，因此无法评估重复测试中的变异性；人工智能模型的评分应被视为点估计值。研究对象仅限于fitzpatrick皮肤光型ii至iv型，对于肤色较深的患者的诊断效果尚未得到验证。人工智能模型和临床医生均不知道患者的具体皮肤类型。选择题格式可能高估了模型的准确率，因为开放式鉴别诊断更接近临床实际情况。所有病例均来自土耳其的一个学术中心，因此需要进一步研究这些模型在其他人群和临床环境中的适用性。人类参与者是自愿参与调查的，这可能导致选择偏差，可能偏重于那些更积极参与研究的临床医生。人工智能模型是在2025年末进行评估的；后续的模型更新可能会影响其表现。

尽管存在这些限制，但由于样本量较大（n=263人），并且按照培训年限进行了分层，因此能够得出群体层面的推断，这是之前仅使用1至5名人类参与者进行的研究无法实现的。当前版本的大型语言模型在接收到包含图片的临床数据时，其诊断准确率能够达到或超过儿科专科医生的预期水平，尤其是在常见皮疹疾病方面。将这种诊断能力转化为实际临床收益则是另一个问题。这需要通过多样化皮肤光型、标准化的提示协议以及将这些模型整合到保持医生监督的工作流程中来实现。我们观察到的疾病层面差异表明，模型的应用应有所选择：对于形态特征明确的疾病，人工智能辅助的分诊可能是合适的；但对于那些需要依赖临床判断的复杂诊断，仍应依靠临床医生的判断。 3。表2还展示了按培训年限划分的住院医生诊断准确率，包括总分数以及存在显著差异的具体疾病。在所有参与研究中，chatgpt的诊断准确率最高（86.9%），其次为gemini（82.0%）和copilot（72.1%）。chatgpt和gemini的准确率均超过了专科医生群体中位数的95%置信区间上限（47.17 61），表明其表现超出了专科医生通常的准确率范围。copilot的准确率略低于专科医生置信区间下限，但高于住院医生的上限。在人类参与者中，专科医生的表现优于住院医生（中位数46 vs 41；p<0.001；r=0.32），且四年级住院医生的准确率也高于一年级和二年级的住院医生（P=0.001；ε2=0.13）。这些结果反映了大型语言模型（LLM）相比早期版本的快速进步。Barile等人[8]的研究显示，当ChatGPT 3.5应用于基于已发表文献的100个儿科病例挑战时，诊断错误率为83%。而我们的研究使用gpt-5处理了包含图片和临床数据的真实病例，诊断正确率达到了87%。这种差异可能既反映了模型的进化，也得益于提供了结构化的临床背景信息。我们之前的研究已经确定，临床背景是决定诊断准确性的关键因素；在没有临床背景的情况下，相同模型的准确率可低至30.6%[11]。huang等人[9]发现儿科 dermatologists 在基于文本的测试中表现优于chatgpt 3.5，但不如chatgpt 4.0。podder等人[10]的研究中，copilot的表现优于chatgpt 3.5和gemini。而我们的研究中，chatgpt的表现优于copilot（p=0.022），ChatGPT与Gemini之间的差异不显著。由于各研究使用的模型版本不同，直接比较存在局限性。不过，不同研究中的一个共同点是：模型的生成方式不如模型的具体版本对其性能影响大——无论品牌如何，新版本的模型通常优于旧版本。我们的疾病层面分析揭示了一些总体准确率数据所隐藏的模式。所有三种模型都能准确识别具有明确临床特征的疾病，如脓疱病、荨麻疹、带状疱疹、传染性软疣、麻疹和斯蒂文斯-约翰逊综合征，这些疾病的诊断准确率接近100%。然而，对于需要结合详细临床病史和非特异性皮肤表现来进行诊断的疾病，模型的表现较差。所有模型在处理昆虫叮咬病例时都未能准确诊断（准确率为0%）。chatgpt和copilot在这些病例上的准确率为40%，而gemini的准确率为80%。对于细小病毒b19的诊断，三种模型的表现也存在明显差异：chatgpt正确诊断了所有病例，gemini仅诊断出1例，copilot则未诊断出任何病例。这些失败案例在临床上意义重大。昆虫叮咬虽然通常不会导致严重后果，但错误分类会引发不必要的检查；而疥疮若被忽视，则需要及时的治疗。这表明，当诊断结果与教科书描述一致时，大型语言模型的表现最佳；而当诊断依赖于对暴露史、分布模式或流行病学线索的推理时，模型的表现较差。mathes等人[13]在过敏学领域也发现了类似的问题，chatgpt在儿童食物过敏咨询中出现了关键性错误。su等人[14]的研究表明，随着临床情景的复杂性增加，大型语言模型的建议质量也会下降。这些发现都与我们在疾病层面观察到的差异一致。住院医生按培训年限划分的诊断准确率也存在差异：四年级住院医生的准确率（中位数45；平均74.0%）接近专科医生中位数（46），而一年级和二年级的住院医生准确率明显较低（中位数分别为40和37）。造成这种差异的主要疾病是肠道病毒感染引起的皮疹、亨诺-舍恩莱因紫癜和脑膜炎球菌血症。这些疾病需要结合系统性的临床表现和皮肤症状进行综合判断。这对医学教育有重要启示：随着培训时间的积累，住院医生对皮疹相关疾病的临床 pattern 识别能力会逐步提高，尤其是在培训的最后一年。人工智能模型甚至超过了专科医生的平均水平，这引发了这样一个问题：这些工具是否可以在住院医生培训期间作为校准基准。我们的研究也存在一些局限性。每种人工智能模型只测试了一次，因此无法评估重复测试中的变异性；人工智能模型的评分应被视为点估计值。研究对象仅限于fitzpatrick皮肤光型ii至iv型，对于肤色较深的患者的诊断效果尚未得到验证。人工智能模型和临床医生均不知道患者的具体皮肤类型。选择题格式可能高估了模型的准确率，因为开放式鉴别诊断更接近临床实际情况。所有病例均来自土耳其的一个学术中心，因此需要进一步研究这些模型在其他人群和临床环境中的适用性。人类参与者是自愿参与调查的，这可能导致选择偏差，可能偏重于那些更积极参与研究的临床医生。人工智能模型是在2025年末进行评估的；后续的模型更新可能会影响其表现。尽管存在这些限制，但由于样本量较大（n=>
在所有参与研究中，chatgpt的诊断准确率最高（86.9%），其次为gemini（82.0%）和copilot（72.1%）。chatgpt和gemini的准确率均超过了专科医生群体中位数的95%置信区间上限（47.17/61），表明其表现超出了专科医生通常的准确率范围。copilot的准确率略低于专科医生置信区间下限，但高于住院医生的上限。在人类参与者中，专科医生的表现优于住院医生（中位数46 vs 41；p<0.001；r=0.32），且四年级住院医生的准确率也高于一年级和二年级的住院医生（p=0.001；ε2=0.13）。这些结果反映了大型语言模型（llm）相比早期版本的快速进步。barile等人[8]的研究显示，当chatgpt 3.5应用于基于已发表文献的100个儿科病例挑战时，诊断错误率为83%。而我们的研究使用gpt-5处理了包含图片和临床数据的真实病例，诊断正确率达到了87%。这种差异可能既反映了模型的进化，也得益于提供了结构化的临床背景信息。我们之前的研究已经确定，临床背景是决定诊断准确性的关键因素；在没有临床背景的情况下，相同模型的准确率可低至30.6%[11]。huang等人[9]发现儿科 dermatologists 在基于文本的测试中表现优于chatgpt 3.5，但不如chatgpt 4.0。podder等人[10]的研究中，copilot的表现优于chatgpt 3.5和gemini。而我们的研究中，chatgpt的表现优于copilot（p=0.022），chatgpt与gemini之间的差异不显著。由于各研究使用的模型版本不同，直接比较存在局限性。不过，不同研究中的一个共同点是：模型的生成方式不如模型的具体版本对其性能影响大——无论品牌如何，新版本的模型通常优于旧版本。

我们的疾病层面分析揭示了一些总体准确率数据所隐藏的模式。所有三种模型都能准确识别具有明确临床特征的疾病，如脓疱病、荨麻疹、带状疱疹、传染性软疣、麻疹和斯蒂文斯-约翰逊综合征，这些疾病的诊断准确率接近100%。然而，对于需要结合详细临床病史和非特异性皮肤表现来进行诊断的疾病，模型的表现较差。所有模型在处理昆虫叮咬病例时都未能准确诊断（准确率为0%）。chatgpt和copilot在这些病例上的准确率为40%，而gemini的准确率为80%。对于细小病毒b19的诊断，三种模型的表现也存在明显差异：chatgpt正确诊断了所有病例，gemini仅诊断出1例，copilot则未诊断出任何病例。这些失败案例在临床上意义重大。昆虫叮咬虽然通常不会导致严重后果，但错误分类会引发不必要的检查；而疥疮若被忽视，则需要及时的治疗。这表明，当诊断结果与教科书描述一致时，大型语言模型的表现最佳；而当诊断依赖于对暴露史、分布模式或流行病学线索的推理时，模型的表现较差。mathes等人[13]在过敏学领域也发现了类似的问题，chatgpt在儿童食物过敏咨询中出现了关键性错误。su等人[14]的研究表明，随着临床情景的复杂性增加，大型语言模型的建议质量也会下降。这些发现都与我们在疾病层面观察到的差异一致。

住院医生按培训年限划分的诊断准确率也存在差异：四年级住院医生的准确率（中位数45；平均74.0%）接近专科医生中位数（46），而一年级和二年级的住院医生准确率明显较低（中位数分别为40和37）。造成这种差异的主要疾病是肠道病毒感染引起的皮疹、亨诺-舍恩莱因紫癜和脑膜炎球菌血症。这些疾病需要结合系统性的临床表现和皮肤症状进行综合判断。这对医学教育有重要启示：随着培训时间的积累，住院医生对皮疹相关疾病的临床 pattern 识别能力会逐步提高，尤其是在培训的最后一年。人工智能模型甚至超过了专科医生的平均水平，这引发了这样一个问题：这些工具是否可以在住院医生培训期间作为校准基准。

我们的研究也存在一些局限性。每种人工智能模型只测试了一次，因此无法评估重复测试中的变异性；人工智能模型的评分应被视为点估计值。研究对象仅限于fitzpatrick皮肤光型ii至iv型，对于肤色较深的患者的诊断效果尚未得到验证。人工智能模型和临床医生均不知道患者的具体皮肤类型。选择题格式可能高估了模型的准确率，因为开放式鉴别诊断更接近临床实际情况。所有病例均来自土耳其的一个学术中心，因此需要进一步研究这些模型在其他人群和临床环境中的适用性。人类参与者是自愿参与调查的，这可能导致选择偏差，可能偏重于那些更积极参与研究的临床医生。人工智能模型是在2025年末进行评估的；后续的模型更新可能会影响其表现。

尽管存在这些限制，但由于样本量较大（n=263人），并且按照培训年限进行了分层，因此能够得出群体层面的推断，这是之前仅使用1至5名人类参与者进行的研究无法实现的。当前版本的大型语言模型在接收到包含图片的临床数据时，其诊断准确率能够达到或超过儿科专科医生的预期水平，尤其是在常见皮疹疾病方面。将这种诊断能力转化为实际临床收益则是另一个问题。这需要通过多样化皮肤光型、标准化的提示协议以及将这些模型整合到保持医生监督的工作流程中来实现。我们观察到的疾病层面差异表明，模型的应用应有所选择：对于形态特征明确的疾病，人工智能辅助的分诊可能是合适的；但对于那些需要依赖临床判断的复杂诊断，仍应依靠临床医生的判断。>

热点排行