基于人工智能的烧伤图像评估:重复推断研究中多模态大语言模型(Multimodal Large Language Models, MLLMs)的可靠性与临床错误模式
《Journal of Plastic, Reconstructive & Aesthetic Surgery》:AI-Based Burn Image Assessment: Reliability and Clinical Error Patterns of Multimodal Large Language Models in a Repeated-Inference Study
编辑推荐:
摘要:烧伤深度与总体表面积(Total Body Surface Area, TBSA)的准确评估对临床决策至关重要,但仍具主观性且易受观察者间变异影响。多模态大语言模型(Multimodal Large Language Models, MLLMs)日益见于
摘要:烧伤深度与总体表面积(Total Body Surface Area, TBSA)的准确评估对临床决策至关重要,但仍具主观性且易受观察者间变异影响。多模态大语言模型(Multimodal Large Language Models, MLLMs)日益见于临床场景,但其能否可靠评估烧伤图像尚不清楚。研究人员评估了4种MLLMs(GPT?5.4 Pro、Grok 4.1、Gemini 3.1 Pro、Claude Opus 4.6)对50张临床烧伤照片的判断能力,采用重复推断设计,每模型各进行5次独立运行。烧伤深度分类以数值及文本格式评估,并行评估序贯TBSA估算。各模型表现不一,烧伤深度准确率范围为34.0±6.5%至76.4±6.8%,TBSA准确率范围为32.8±9.4%至68.4±3.3%。组间运行可靠性(Fleiss' κ)从差(κ=0.171)至几乎完全一致(κ=0.916)不等,显示出单次查询评估无法捕捉的响应变异性。值得注意的是,无一模型同时兼具高准确率与高可靠性,表明性能与一致性相分离。所有模型均倾向于高估烧伤深度,包括将不存在于数据集中的四度烧伤予以赋值。误差方向分析揭示模型特异性及任务依赖性偏差,含同一模型内相反模式。数值与文本分类间内部一致性近完全(99.6%–100%),提示输出格式不变但具系统性偏差。上述发现证明MLLM表现特征为随机响应不稳定性,此特性在单次查询评估中不可见;对相同输入之不一致输出代表需一致重复评估工作流程中的根本局限。
论文解读:
《Journal of Plastic, Reconstructive & Aesthetic Surgery》接收发表的此项研究,由Ibrahim Güler、Armin Kraus、Gerrit Grieb及Henrik Stelling(德国马格德堡大学医院整形、美容与手外科)完成。烧伤深度与总体表面积(Total Body Surface Area, TBSA)的初期判断直接决定液体复苏量、创面处理方案、手术时机及是否转送烧伤中心,然而临床实践中这两项的评估高度依赖医师经验,观察者间差异显著——文献报道TBSA常被高估(>50%转诊病例),烧伤深度与烧伤中心复诊结果一致率仅约55%。近年专为烧伤设计的深度学习系统在分割与分类上展现潜力,但通用多模态大语言模型(Multimodal Large Language Models, MLLMs)直接经视觉—语言联合编码判读烧伤图像的能力尚未被严格检验。既往MLLM医学影像评估多报告整体准确率等聚合指标,默认模型输出稳定,忽略其自回归解码含随机采样(temperature、top?p等),相同输入重复提问可得不同结果。响应再现性、系统性误判方向(高估/低估)及数值与文本双格式内部一致性这三大临床可靠性维度均未被探究。若同一烧伤照片在不同时间点交同一模型得出不同分级,且用户无从知晓其不稳定,则单一准确率不能支撑临床信赖。为此,研究人员设计重复推断实验,量化四种主流MLLM在烧伤图像判读中的分类准确率、组间运行可靠性(Inter?run Reliability, 以Fleiss' κ衡量)、数值—文本格式内部一致性及误分方向,以阐明其作为概率系统的输出稳定性缺失这一被忽视的性能维度。
主要关键技术方法:
研究人员选取公开数据库50例热力烧伤临床单帧照片,由三位整形外科医师(两名认证专科医师、一名住院医师)独立判读后经讨论达成共识确立金标准——烧伤深度分三层:浅度(superficial/一度)、部分厚度(partial?thickness/二度)、全厚(full?thickness/三度),无四度烧伤;TBSA按<1%、1–5%、>5%三序贯档记录。通过官方网页端默认配置调用四款商用MLLM(GPT?5.4 Pro、Grok 4.1、Gemini 3.1 Pro、Claude Opus 4.6),每例图像分别单独询问烧伤深度(提供1=superficial、2=partial?thickness、3=full?thickness、4=fourth?degree四项选项,要求给最高可见深度,同时以数字编码与文字标签平行输出以测内部一致性)与TBSA估算,各模型每例重复5次独立新会话推断以防上下文污染,共计每任务每模型250次判断(50例×5次)。统计以精确匹配金标准计算准确率及其五次运行均值±标准差;以未加权Fleiss' κ评估五次"评分者"间完全一致可靠性;以数值与文本输出相符比计内部一致性;误分方向按预测与金标准序差正负区分低估/高估,四度预测归入高估子集;各类别敏感度(Sensitivity)合并五次运行计算。
研究结果:
Dataset characteristics(数据集特征)
50例烧伤含浅度14例(28%)、部分厚度19例(38%)、全厚17例(34%);TBSA分布为<1%共15例(30%)、1–5%共14例(28%)、>5%共21例(42%),构成后续性能评价基准。
Classification accuracy(分类准确率)
烧伤深度:Gemini 3.1 Pro最高(76.4±6.8%),其后GPT?5.4 Pro(69.2±3.6%)、Claude Opus 4.6(64.0±1.4%)、Grok 4.1最低(34.0±6.5%)。Claude Opus 4.6虽非最高准但运行间标准差最小(SD=1.4%),显示准确性(Accuracy)与一致性(Consistency)无必然关联。TBSA估算:Claude Opus 4.6最佳(68.4±3.3%),次为Gemini 3.1 Pro(64.0±4.2%)、GPT?5.4 Pro(53.6±4.8%),Grok 4.1最差(32.8±9.4%且SD最大)。
Per?class sensitivity(各类别敏感度)
烧伤深度部分厚度识别敏感度全体最高(56.8%–94.7%),Gemini 3.1 Pro最均衡(浅度55.7%、部分厚度94.7%、全厚72.9%)。Grok 4.1三类均<57%。TBSA估算Claude Opus 4.6各档敏感度较均匀(69.3%、65.7%、69.5%),Grok 4.1对>5% TBSA严重失敏(仅12.4%)。
Inter?run reliability(组间运行可靠性)
烧伤深度Fleiss' κ:Claude Opus 4.6达几乎完全一致(κ=0.916),Gemini 3.1 Pro与GPT?5.4 Pro为实质性一致(κ=0.776、0.697),Grok 4.1差(κ=0.171)。TBSA κ:Claude Opus 4.6(0.773)与Gemini 3.1 Pro(0.733)属实质性一致,Grok 4.1仍差(0.178)。证实同一模型同图多次运行输出变异性可极大差异且不被准确率反映。
Internal consistency(内部一致性)
数值编码与文字标签烧伤深度分类吻合度:GPT?5.4 Pro、Gemini 3.1 Pro、Claude Opus 4.6均为100%(250/250),Grok 4.1仅1次不匹配(249/250, 99.6%),说明MLLM内部表征跨输出格式稳定,非格式致误,波动源于运行间随机采样而非单响应内矛盾。
Error direction analysis(误差方向分析)
烧伤深度全体模型倾向高估——Grok 4.1最强(高估42.0%,含9.2%判为四度),Claude Opus 4.6低估少(6.8%)但高估也明显(29.2%,含6.8%四度),Gemini 3.1 Pro误分最平衡(低估7.6%、高估16.0%含1.6%四度),GPT?5.4 Pro微偏高估(低估13.2%、高估17.6%含3.6%四度)。TBSA误差模式异于深度:Grok 4.1深度高估却TBSA强烈低估(50.8%),其他模型TBSA误分较对称,Claude Opus 4.6最均衡(低估14.8%、高估16.8%),提示MLLM对深度与TBSA可能采独立特征通路而无统一临床推理框架。
讨论与结论翻译总结:
本研究揭示四款当代MLLM在相同烧伤图像重复输入下响应变异性构成区别于准确率的独立性能维度,Fleiss' κ介于差至几乎完全一致间,单次查询评估掩盖此随机不稳定性。准确性与一致性解离——Claude Opus 4.6一致性最高而深度准确率不及Gemini 3.1 Pro,Grok 4.1双低,说明高一致性不可由高准确率推知,临床部署需二者兼备。全体模型系统性高估烧伤深度(含无依据的四度烧伤判定),或强化既存临床高估偏误,潜在致不必要手术或过度治疗。深度与TBSA反向误判模式(如Grok 4.1)暗示任务依赖特征表征而非统一医学概念内化。数值—文本内部一致性近完全证输出格式协变但无涉临床对错。部分厚度烧伤识别优而浅度与全厚敏感度偏低,反映向中间类别偏置。局限性含50例公开数据集、缺患者病史及客观参比(激光多普勒/组织学)、未加权κ忽略邻类部分一致、仅五轮重复及网页端默认参数不可控。研究人员得出结论:当前通用MLLM在烧伤图像深度与TBSA评估中可具一定(部分模型较高)准确率,但受临床相关响应变异与系统性误判影响,重复推断下尚无模型提供足够稳定输出以支撑依赖一致复现之临床流程;应用现阶段应限于医师监督的探索性与科研场景,未来须提升响应稳定性、行前瞻临床验证并制定最低可靠性阈值,且通用多模态系统对烧伤专科任务或有不足,提示需领域专用模型或针对性微调(Fine?tuning)策略。