提示性框架设置调节了肩部和肘部风险警示情境下的安全性：一项基于大规模语言模型的研究 Mehmet Yi?it G?kmen, Mehmet Maden, Onur Zengin

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Diagnostics》：Prompt Framing Modulates Safety in Shoulder and Elbow Red-Flag Vignettes: A Large Language Model Study Mehmet Yi?it G?kmen, Mehmet Maden and Onur Zengin

【字体：大中小】 时间：2026年05月11日 来源：Diagnostics 3.3

编辑推荐：

　　 ) ：摘要背景：大型语言模型（LLMs）越来越多地被用于肌肉骨骼健康信息的处理，然而在处理具有警示特征的急性肩部和肘部疾病时，其安全性尚未得到充

)：

摘要

背景：大型语言模型（LLMs）越来越多地被用于肌肉骨骼健康信息的处理，然而在处理具有警示特征的急性肩部和肘部疾病时，其安全性尚未得到充分验证。我们通过标准化的案例研究来评估这些模型的安全行为，重点关注安全关键的误分诊问题和提示依赖性的表现差异。方法：我们创建了80个虚构的案例（40个关于肩部，40个关于肘部），并预先将它们分为警示病例（n = 24）和非紧急病例（n = 56）。每个案例都使用三种固定的提示类型（针对患者、全科医生和专科医生的）进行单轮询问，共获得了240个回应。两位盲法评估的骨科医生根据预定的0–8分制对回应进行了评分。安全关键的误分诊被定义为在出现警示症状时未能建议及时进行紧急评估。通过20组包含一个预定义临床变量差异的案例对来评估决策的稳定性。结果：整体平均得分为6.42 ± 1.12，警示病例的得分低于非紧急病例（5.28 ± 1.21 vs. 6.93 ± 0.81）。在为24个警示病例生成的72个特定提示的回应中，有53个正确识别了病情的紧急性（73.6%）。在72个警示病例的回应中，有19个出现了安全关键的误分诊（26.4%），其中以针对患者的提示最为常见（10/24，41.7%），其次是针对全科医生的提示（6/24，25.0%）和针对专科医生的提示（3/24，12.5%）。决策不稳定是指在修改一个与风险相关的变量后，评估方向发生不一致，这种情况出现在20组案例对中的6组（30.0%）。结论：所评估的LLM在非紧急情况下表现一致良好，但在警示条件下存在提示依赖性的安全漏洞，主要表现为未能正确识别病情的紧急性。这些发现提示在无监督的情况下使用这些模型时需要谨慎，并强调了在高风险情况下制定明确保护措施的必要性，同时也表明了以安全为中心的评估框架在肌肉骨骼护理中的价值。

联系信箱：

粤ICP备09063491号

摘要

热点排行