大型语言模型在临床资源分配中的算法偏见：对13,608个决策的横断面计算机模拟评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Medical Ethics》：Algorithmic bias in clinical resource allocation by a large language model: a cross-sectional in-silico evaluation of 13,608 decisions

【字体：大中小】 时间：2026年05月23日 来源：BMC Medical Ethics 3.1

编辑推荐：

　　摘要背景大型语言模型（LLMs）有潜力改变临床医学，但它们放大社会偏见的能力是一个重大问题，尤其是在临床资源分配这一伦理敏感领域。目前，在定量理解这些模型如何在强制选择的伦理困境中权衡非临床因素方面存在关键的知识空白。本研究对一个领先的LLM进行了大规模、系统的评估，以衡量其在资

摘要

背景

大型语言模型（LLMs）有潜力改变临床医学，但它们放大社会偏见的能力是一个重大问题，尤其是在临床资源分配这一伦理敏感领域。目前，在定量理解这些模型如何在强制选择的伦理困境中权衡非临床因素方面存在关键的知识空白。本研究对一个领先的LLM进行了大规模、系统的评估，以衡量其在资源分配决策中的隐性偏见。

方法

我们使用OpenAI的GPT-5模型进行了横断面、计算机模拟分析。七个代表资源稀缺情景的临床案例与3,888个独特患者资料进行了配对，这些患者资料来自七个人口统计和社会变量（年龄、性别、种族、收入、受抚养人、教育水平、社会支持）的全因子组合。这产生了13,608个独特的A/B患者对比案例。我们使用汇总的逻辑回归和线性回归模型来确定模型分配选择的主要驱动因素，并量化偏见的程度。同时，还评估了模型判断的稳定性和内部一致性。

结果

LLM的决策受到一系列非临床因素的显著影响。患者年龄、收入和受抚养人数是最强的预测因素。与50岁的人相比，25岁的人被选中的概率增加了三倍以上（OR 3.31；95% CI，2.96–3.71；p < 0.001），而年收入超过500万美元的人被选中的概率降低了75%（OR 0.25；95% CI，0.22–0.28；p < 0.001）。该模型还系统性地偏爱少数族裔、女性和非二元性别个体，而非白人男性。分析显示模型存在显著的内部不一致性，总体上只有66.3%的情况下，模型选择的患者与其自身评分较高的患者相匹配。偏见的影响高度依赖于具体情境，但在重复测试中表现出随机稳定性。

结论

在面对伦理困境时，所测试的模型表现出强烈、不透明且依赖于具体情境的非临床偏见。这些发现表明，这种架构在伦理框架上的一致性和不可预测性使得现阶段将其直接整合到临床资源分配决策支持中是不可行的。在这些技术能够在高风险的临床环境中负责任地应用之前，需要制定严格的安全性、透明度和伦理验证标准。

背景

大型语言模型（LLMs）有潜力改变临床医学，但它们放大社会偏见的能力是一个重大问题，尤其是在临床资源分配这一伦理敏感领域。目前，在定量理解这些模型如何在强制选择的伦理困境中权衡非临床因素方面存在关键的知识空白。本研究对一个领先的LLM进行了大规模、系统的评估，以衡量其在资源分配决策中的隐性偏见。

方法

我们使用OpenAI的GPT-5模型进行了横断面、计算机模拟分析。七个代表资源稀缺情景的临床案例与3,888个独特患者资料进行了配对，这些患者资料来自七个人口统计和社会变量（年龄、性别、种族、收入、受抚养人、教育水平、社会支持）的全因子组合。这产生了13,608个独特的A/B患者对比案例。我们使用汇总的逻辑回归和线性回归模型来确定模型分配选择的主要驱动因素，并量化偏见的程度。同时，还评估了模型判断的稳定性和内部一致性。

结果

LLM的决策受到一系列非临床因素的显著影响。患者年龄、收入和受抚养人数是最强的预测因素。与50岁的人相比，25岁的人被选中的概率增加了三倍以上（OR 3.31；95% CI，2.96–3.71；p < 0.001），而年收入超过500万美元的人被选中的概率降低了75%（OR 0.25；95% CI，0.22–0.28；p < 0.001）。该模型还系统性地偏爱少数族裔、女性和非二元性别个体，而非白人男性。分析显示模型存在显著的内部不一致性，总体上只有66.3%的情况下，模型选择的患者与其自身评分较高的患者相匹配。偏见的影响高度依赖于具体情境，但在重复测试中表现出随机稳定性。

结论

在面对伦理困境时，所测试的模型表现出强烈、不透明且依赖于具体情境的非临床偏见。这些发现表明，这种架构在伦理框架上的一致性和不可预测性使得现阶段将其直接整合到临床资源分配决策支持中是不可行的。在这些技术能够在高风险的临床环境中负责任地应用之前，需要制定严格的安全性、透明度和伦理验证标准。

联系信箱：

粤ICP备09063491号

摘要

背景

方法

结果

结论

背景

方法

结果

结论

热点排行