《Japanese Journal of Radiology》:Assessing and mitigating demographic bias in large language models for diagnostic radiology
编辑推荐:
摘要目的
大型语言模型(large language models,LLMs)正日益整合进入放射学工作流程,但其在人口统计学层面的偏倚尚未在诊断放射学中得到评估。本研究旨在探讨LLMs(纯文本模型与视觉模型)在放射学诊断性能中的种族与性别偏倚,并评估提示策略
摘要目的
大型语言模型(large language models,LLMs)正日益整合进入放射学工作流程,但其在人口统计学层面的偏倚尚未在诊断放射学中得到评估。本研究旨在探讨LLMs(纯文本模型与视觉模型)在放射学诊断性能中的种族与性别偏倚,并评估提示策略是否能够减轻这些偏倚。
材料与方法
本回顾性研究纳入了1998年4月至2024年10月发表于《Radiology》的连续“Diagnosis Please”病例,并排除了具有性别特异性疾病的病例。针对每个病例,研究人员通过改变4种种族/族裔类别(Asian、Black、Hispanic、White)及2种性别类别(male、female),构建了8种种族-性别情境。采用3种LLMs(GPT-5、Claude Sonnet 4.5、Gemini 2.5 Flash)分别作为纯文本模型(病史与影像学所见)和视觉模型(病史与图像)进行评估,并应用3种提示策略(基础提示、自洽提示、思维链提示)。采用广义估计方程(generalized estimating equations,GEE)比较不同种族/族裔、性别及提示策略之间的诊断准确性。
结果
共纳入286例病例。在不同模型与实验条件下,共观察到10项与种族相关及4项与性别相关的诊断准确性显著差异。在4个种族/族裔组中,Black患者最可能出现显著较低的准确性(10项具有统计学意义的种族相关比较中占4项,40%),且最不可能出现显著较高的准确性(1/10,10%)。在基础提示条件下,以女性患者为对象的视觉模型表现出更多显著的种族相关差异(6/10,60%),高于以男性患者为对象的视觉模型及全部纯文本模型。纯文本模型与视觉模型在不同提示策略之间的诊断准确性均无统计学显著差异(p=0.78和0.95);基础提示与自洽提示分别产生10项和4项显著的种族或性别相关差异,而思维链提示下未观察到显著差异。
结论
大型语言模型在诊断放射学中表现出种族与性别偏倚,而思维链提示可能有助于减轻这些偏倚。
本文发表于《Japanese Journal of Radiology》,聚焦于大型语言模型(large language models,LLMs)在诊断放射学场景中的人口统计学偏倚问题,核心关注其诊断输出是否会受到种族/族裔与性别信息的不当影响,以及这类偏倚能否通过提示工程加以缓解。随着LLMs及多模态模型不断进入放射学工作流程,其应用已扩展至报告生成、报告结构化、诊断支持、检查协议决策与教学辅助等多个环节。尤其是融合文本与图像的视觉模型,为影像判读相关临床应用提供了更广阔空间。然而,人工智能系统训练数据中固有的结构性偏差,可能使模型在面对不同人群时产生不公平输出,进而复制甚至放大现实医疗中的健康不平等。既往研究虽已在一般临床条件下发现LLMs存在种族和性别偏倚,但在诊断放射学这一特定场景中,尤其是对同时整合文本和图像输入的模型,其偏倚表现仍缺乏系统评估。因此,开展本研究具有明确必要性:只有在模型临床部署前识别并量化潜在偏倚,才能避免将不公平性嵌入未来的放射学实践。
为填补这一空白,研究人员基于《Radiology》发表的“Diagnosis Please”病例开展回顾性研究,系统评估3种主流LLMs——GPT-5、Claude Sonnet 4.5与Gemini 2.5 Flash——在诊断放射学中的种族/族裔与性别相关诊断偏倚。研究同时比较纯文本模型与视觉模型,并进一步检验3种零样本提示策略,即基础提示、自洽提示与思维链(chain-of-thought,CoT)提示,对偏倚表现的影响。研究结果表明,这些LLMs在诊断放射学中确实存在种族与性别偏倚,且Black患者更易处于准确性显著较低的一侧;与此同时,不同提示策略虽未显著改变总体诊断准确性,但思维链提示未出现任何显著种族或性别相关差异,提示其可能成为一种具有实践价值的偏倚缓解方法。该研究的重要意义在于,它首次在诊断放射学领域同时考察文本模型与视觉模型的人口统计学偏倚,并将提示工程纳入偏倚干预框架,为公平人工智能工具的设计、验证与临床监管提供了依据。
研究方法方面,研究人员回顾性收集1998年4月至2024年10月《Radiology》连续发表的330例“Diagnosis Please”病例,排除44例具有明显性别特异性发病差异的疾病后,最终纳入286例。每例均提取病史、影像学所见、原始图像及标准诊断,并通过替换病史开头的人口学描述,构建Asian、Black、Hispanic、White与male、female组合而成的8种种族-性别反事实情境。3个模型分别在纯文本输入与文本+图像输入条件下接受基础提示、自洽提示及思维链提示测试,每例重复3次。3名具有资质的放射科医师独立判定模型诊断是否与真实诊断一致;统计分析采用广义估计方程(GEE)处理病例内重复测量相关性,并估计比值比(odds ratio,OR)及95%置信区间。
在研究结果部分,论文首先报告了“Overall diagnostic accuracy”。在总体诊断准确性上,共形成123,552条模型响应。纯文本模型中,GPT-5准确率为80.5%–82.3%,Claude Sonnet 4.5为53.3%–56.6%,Gemini 2.5 Flash为53.1%–57.8%;视觉模型中,GPT-5为48.3%–51.4%,Claude Sonnet 4.5为24.1%–26.5%,Gemini 2.5 Flash为24.7%–28.9%。无论纯文本还是视觉模型,不同提示策略之间总体诊断准确性均无统计学显著差异,说明提示方式并未明显改变模型整体正确率。
在“Race-related differences”部分,研究人员分别对纯文本模型和视觉模型中的种族/族裔相关差异进行分析。纯文本模型共发现4项显著种族相关差异。GPT-5未见显著种族相关差异。Claude Sonnet 4.5在男性、自洽提示条件下出现显著差异:Hispanic患者准确性低于White患者,而Asian患者准确性高于Hispanic及Black患者。Gemini 2.5 Flash则在男性、基础提示条件下表现出Asian患者准确性低于Black患者。视觉模型中,显著种族相关差异主要集中于女性、基础提示条件,共6项。GPT-5显示Black患者准确性低于White与Hispanic患者;Claude Sonnet 4.5显示Asian患者准确性低于White与Hispanic患者;Gemini 2.5 Flash显示Hispanic患者准确性高于White患者,而Black患者准确性低于Hispanic患者。其余男性条件、女性自洽提示及思维链提示下均未见显著种族相关差异。总体上,共观察到10项显著种族相关差异,其中Black患者在“显著较低准确性”中占比最高,为4/10,而在“显著较高准确性”中占比最低,仅1/10,提示该群体更可能受到不利影响。研究还指出,女性患者的视觉模型在基础提示下种族偏倚最为突出,占全部显著种族相关差异的60%。
在“Sex-related differences”部分,研究人员评估不同种族/族裔内部的性别相关差异。纯文本模型中,仅Gemini 2.5 Flash出现2项显著性别相关差异:在Black患者、基础提示下,female准确性低于male;在White患者、自洽提示下,female准确性高于male。视觉模型中,仅在Hispanic患者、基础提示下出现显著性别差异,Claude Sonnet 4.5与Gemini 2.5 Flash均表现为female准确性高于male。除此之外,其余模型和条件均未见显著性别相关差异。整体而言,共发现4项显著性别相关差异,数量少于种族相关差异,但仍说明性别信息可能独立影响模型诊断表现。
在“Race- and sex-related differences by prompting strategy”部分,论文直接比较不同提示策略下显著人口统计学差异的数量。基础提示下共观察到10项显著差异,自洽提示下为4项,而思维链提示下所有模型均未观察到显著种族或性别相关差异。尽管不同提示策略未改变总体准确性,但这一结果表明,提示策略能够影响偏倚的显现方式,其中思维链提示可能通过促使模型进行逐步推理,减少人口学标签对输出的直接牵引,从而发挥偏倚缓解作用。
讨论部分指出,本研究以反事实设计为核心,仅改变种族/族裔与性别信息而保持其余临床内容不变,因此即使观察到的OR幅度较小(0.85–1.19),也提示人口学信息本身能够系统性影响模型输出,在群体层面可能积累为具有临床意义的不平等。研究结果与既往关于LLMs在医学推荐、差异诊断及报告简化中存在种族或性别偏倚的文献一致,并将这一认识扩展到诊断放射学场景。论文还讨论了视觉模型在女性患者中表现出更明显种族偏倚的可能原因,包括模型对病史文本信息依赖较强、训练数据中不同种族/性别人群代表性不平衡、以及人口学信息置于病史开头可能放大其影响等。但作者同时强调,这些机制尚需进一步研究验证。关于偏倚缓解,论文认为思维链提示可能通过显式化推理过程,使模型输出更全面且便于临床人员实施人工监督,因此具有潜在实践价值。
研究也坦诚列出局限性:所用“Diagnosis Please”病例未必完全代表真实世界放射学实践;病例可能在模型知识截止前已公开,存在训练数据污染风险;反事实情境中部分种族-性别组合在临床上可能不完全合理;研究未设置去除人口学信息的掩蔽条件;仅考察有限的人口学维度;温度参数固定为1.0;且未对多重比较进行校正,因此可能高估偏倚信号。尽管如此,作为探索性研究,其目标在于尽可能敏感地识别潜在人口统计学差异。
研究结论部分可译为:本研究表明,大型语言模型在诊断放射学中存在种族与性别偏倚,并提示思维链提示可能有助于减轻这些人口统计学偏倚。尽管LLMs在辅助诊断放射学方面具有相当潜力,但本研究强调,必须持续评估并缓解LLMs中的偏倚,以避免在临床实践中引入或延续健康不平等。