大型语言模型(LLMs)能否预测患者的治疗选择?一个基于离散选择实验的框架

《Vacuum》:Can LLMs Predict Patient Treatment Choices? A Discrete Choice Experiment Framework

【字体: 时间:2026年05月11日 来源:Vacuum 3.9

编辑推荐:

  陈婷娜(Tina Cheng)|胡安·马科斯·冈萨雷斯(Juan Marcos Gonzalez)|马修·M·恩格尔哈德(Matthew M. Engelhard)|谢尔比·里德(Shelby Reed)|塞姆拉·奥兹代米尔(Semra Ozdemir)美国北卡罗来纳州达勒姆市杜

  
陈婷娜(Tina Cheng)|胡安·马科斯·冈萨雷斯(Juan Marcos Gonzalez)|马修·M·恩格尔哈德(Matthew M. Engelhard)|谢尔比·里德(Shelby Reed)|塞姆拉·奥兹代米尔(Semra Ozdemir)
美国北卡罗来纳州达勒姆市杜克大学医学院人口健康科学系,偏好评估研究小组

摘要

目的

本研究利用离散选择实验(DCE)框架,评估了大型语言模型(LLMs),特别是GPT-4,在预测患者符合健康偏好的选择方面的可行性。

方法

本研究基于有癌症病史的患者的真实DCE响应数据生成了合成数据。分析数据包括50名合成患者,每位患者回答了48个包含不同预期生存时间、长期生存机会、健康限制和自付费用等选项的治疗选择问题。通过四个实验来评估GPT-4的预测性能。在实验1和实验2中,GPT-4利用28个固定问题(实验1)或随机选择的问题(实验2)来预测20个保留问题(即新的选择问题)。实验3通过改变样本问题的数量来检验预测准确性和预测置信度。实验4研究了保留问题的特征对预测准确性的影响。

结果

GPT-4在实验1中的平均预测准确率为70.5%(95%置信区间 [CI]:68.3%-72.7%),在实验2中为69.9%(95%置信区间:66.9%-72.9%),当样本问题随机化时准确性变化较大。实验3显示GPT-4的学习曲线:使用5个样本问题时的准确率为53%,使用10个样本问题时提高到64%,之后性能趋于稳定。实验4表明,具有更显著属性差异的问题预测准确性更高。

结论

GPT-4展示了从有限样本中推断患者偏好的能力,其准确率与替代决策者相当。其在随机输入序列下的表现保持一致,并且随着样本问题数量的增加而提高,最终达到一个性能稳定的平台期,此时额外训练的收益逐渐减少。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号