大型语言模型（LLMs）能否预测患者的治疗选择？一个基于离散选择实验的框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Vacuum》：Can LLMs Predict Patient Treatment Choices? A Discrete Choice Experiment Framework

【字体：大中小】 时间：2026年05月11日 来源：Vacuum 3.9

编辑推荐：

　　陈婷娜（Tina Cheng）|胡安·马科斯·冈萨雷斯（Juan Marcos Gonzalez）|马修·M·恩格尔哈德（Matthew M. Engelhard）|谢尔比·里德（Shelby Reed）|塞姆拉·奥兹代米尔（Semra Ozdemir）美国北卡罗来纳州达勒姆市杜

陈婷娜（Tina Cheng）|胡安·马科斯·冈萨雷斯（Juan Marcos Gonzalez）|马修·M·恩格尔哈德（Matthew M. Engelhard）|谢尔比·里德（Shelby Reed）|塞姆拉·奥兹代米尔（Semra Ozdemir）

美国北卡罗来纳州达勒姆市杜克大学医学院人口健康科学系，偏好评估研究小组

摘要

目的

本研究利用离散选择实验（DCE）框架，评估了大型语言模型（LLMs），特别是GPT-4，在预测患者符合健康偏好的选择方面的可行性。

方法

本研究基于有癌症病史的患者的真实DCE响应数据生成了合成数据。分析数据包括50名合成患者，每位患者回答了48个包含不同预期生存时间、长期生存机会、健康限制和自付费用等选项的治疗选择问题。通过四个实验来评估GPT-4的预测性能。在实验1和实验2中，GPT-4利用28个固定问题（实验1）或随机选择的问题（实验2）来预测20个保留问题（即新的选择问题）。实验3通过改变样本问题的数量来检验预测准确性和预测置信度。实验4研究了保留问题的特征对预测准确性的影响。

结果

GPT-4在实验1中的平均预测准确率为70.5%（95%置信区间 [CI]：68.3%-72.7%），在实验2中为69.9%（95%置信区间：66.9%-72.9%），当样本问题随机化时准确性变化较大。实验3显示GPT-4的学习曲线：使用5个样本问题时的准确率为53%，使用10个样本问题时提高到64%，之后性能趋于稳定。实验4表明，具有更显著属性差异的问题预测准确性更高。

结论

GPT-4展示了从有限样本中推断患者偏好的能力，其准确率与替代决策者相当。其在随机输入序列下的表现保持一致，并且随着样本问题数量的增加而提高，最终达到一个性能稳定的平台期，此时额外训练的收益逐渐减少。

联系信箱：

粤ICP备09063491号

摘要

目的

方法

结果

结论

热点排行