今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

大型语言模型在临床资源分配中的算法偏见:对13,608个决策的横断面计算机模拟评估

《BMC Medical Ethics》:Algorithmic bias in clinical resource allocation by a large language model: a cross-sectional in-silico evaluation of 13,608 decisions

【字体: 大 中 小 】 时间:2026年05月23日 来源:BMC Medical Ethics 3.1

编辑推荐:

  摘要背景大型语言模型(LLMs)有潜力改变临床医学,但它们放大社会偏见的能力是一个重大问题,尤其是在临床资源分配这一伦理敏感领域。目前,在定量理解这些模型如何在强制选择的伦理困境中权衡非临床因素方面存在关键的知识空白。本研究对一个领先的LLM进行了大规模、系统的评估,以衡量其在资

  

摘要

背景

大型语言模型(LLMs)有潜力改变临床医学,但它们放大社会偏见的能力是一个重大问题,尤其是在临床资源分配这一伦理敏感领域。目前,在定量理解这些模型如何在强制选择的伦理困境中权衡非临床因素方面存在关键的知识空白。本研究对一个领先的LLM进行了大规模、系统的评估,以衡量其在资源分配决策中的隐性偏见。

方法

我们使用OpenAI的GPT-5模型进行了横断面、计算机模拟分析。七个代表资源稀缺情景的临床案例与3,888个独特患者资料进行了配对,这些患者资料来自七个人口统计和社会变量(年龄、性别、种族、收入、受抚养人、教育水平、社会支持)的全因子组合。这产生了13,608个独特的A/B患者对比案例。我们使用汇总的逻辑回归和线性回归模型来确定模型分配选择的主要驱动因素,并量化偏见的程度。同时,还评估了模型判断的稳定性和内部一致性。

结果

LLM的决策受到一系列非临床因素的显著影响。患者年龄、收入和受抚养人数是最强的预测因素。与50岁的人相比,25岁的人被选中的概率增加了三倍以上(OR 3.31;95% CI,2.96–3.71;p < 0.001),而年收入超过500万美元的人被选中的概率降低了75%(OR 0.25;95% CI,0.22–0.28;p < 0.001)。该模型还系统性地偏爱少数族裔、女性和非二元性别个体,而非白人男性。分析显示模型存在显著的内部不一致性,总体上只有66.3%的情况下,模型选择的患者与其自身评分较高的患者相匹配。偏见的影响高度依赖于具体情境,但在重复测试中表现出随机稳定性。

结论

在面对伦理困境时,所测试的模型表现出强烈、不透明且依赖于具体情境的非临床偏见。这些发现表明,这种架构在伦理框架上的一致性和不可预测性使得现阶段将其直接整合到临床资源分配决策支持中是不可行的。在这些技术能够在高风险的临床环境中负责任地应用之前,需要制定严格的安全性、透明度和伦理验证标准。

背景

大型语言模型(LLMs)有潜力改变临床医学,但它们放大社会偏见的能力是一个重大问题,尤其是在临床资源分配这一伦理敏感领域。目前,在定量理解这些模型如何在强制选择的伦理困境中权衡非临床因素方面存在关键的知识空白。本研究对一个领先的LLM进行了大规模、系统的评估,以衡量其在资源分配决策中的隐性偏见。

方法

我们使用OpenAI的GPT-5模型进行了横断面、计算机模拟分析。七个代表资源稀缺情景的临床案例与3,888个独特患者资料进行了配对,这些患者资料来自七个人口统计和社会变量(年龄、性别、种族、收入、受抚养人、教育水平、社会支持)的全因子组合。这产生了13,608个独特的A/B患者对比案例。我们使用汇总的逻辑回归和线性回归模型来确定模型分配选择的主要驱动因素,并量化偏见的程度。同时,还评估了模型判断的稳定性和内部一致性。

结果

LLM的决策受到一系列非临床因素的显著影响。患者年龄、收入和受抚养人数是最强的预测因素。与50岁的人相比,25岁的人被选中的概率增加了三倍以上(OR 3.31;95% CI,2.96–3.71;p < 0.001),而年收入超过500万美元的人被选中的概率降低了75%(OR 0.25;95% CI,0.22–0.28;p < 0.001)。该模型还系统性地偏爱少数族裔、女性和非二元性别个体,而非白人男性。分析显示模型存在显著的内部不一致性,总体上只有66.3%的情况下,模型选择的患者与其自身评分较高的患者相匹配。偏见的影响高度依赖于具体情境,但在重复测试中表现出随机稳定性。

结论

在面对伦理困境时,所测试的模型表现出强烈、不透明且依赖于具体情境的非临床偏见。这些发现表明,这种架构在伦理框架上的一致性和不可预测性使得现阶段将其直接整合到临床资源分配决策支持中是不可行的。在这些技术能够在高风险的临床环境中负责任地应用之前,需要制定严格的安全性、透明度和伦理验证标准。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:临床资源分配|社会性偏见|LLM评估|隐式偏差|伦理困境 三倍以上优先级|收入差异|年龄敏感性|内部不一致性|充分性与透明度

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号