评估用于胃肠道间质瘤治疗建议的推理模型：专家评估与基于大型语言模型（LLM）的OpenAI o1和DeepSeek-R1模型评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Cancer Research and Clinical Oncology》：Evaluating reasoning models for therapy recommendations in gastrointestinal stromal tumors: expert and LLM-based evaluations of OpenAI o1 and DeepSeek-R1

【字体：大中小】 时间：2026年05月20日 来源：Journal of Cancer Research and Clinical Oncology 2.8

编辑推荐：

　　摘要目的本研究旨在评估两种先进的推理型大型语言模型（LLM）在为真实世界的胃肠道间质瘤（GIST）病例生成治疗建议方面的表现，并评估它们与一家认证的三级肉瘤中心的多学科团队（MDT）决策的一致性。方法研究使用了来自一家三级肉瘤中心的65个真实GIST病例，来比较两种先进的推理模型

摘要

目的

本研究旨在评估两种先进的推理型大型语言模型（LLM）在为真实世界的胃肠道间质瘤（GIST）病例生成治疗建议方面的表现，并评估它们与一家认证的三级肉瘤中心的多学科团队（MDT）决策的一致性。

方法

研究使用了来自一家三级肉瘤中心的65个真实GIST病例，来比较两种先进的推理模型——OpenAI o1和DeepSeek-R1。建议的生成采用了多专家提示策略，并以当前的临床指南作为背景。五位肉瘤专家和一台独立的LLM（Mistral AI）评估了这些建议与MDT决策的一致性以及与指南的符合程度。

结果

OpenAI o1与MDT决策的一致性高于DeepSeek-R1（76.9% vs. 53.8%，p < 0.001），并且有更多建议与MDT或指南相符（80.0% vs. 63.1%，p = 0.005）。人类评估者之间的评分者间可靠性非常好（ICC = 0.929）。LLM的评估结果与人类评估结果有中等程度的一致性（κ = 0.647）。OpenAI o1的回复长度显著长于DeepSeek-R1和MDT的记录。

结论

OpenAI o1在生成具有临床相关性的GIST治疗建议方面表现优于DeepSeek-R1。该研究强调了将LLM作为决策支持工具和评估工具（“LLM作为裁判”）在肿瘤学中的可行性，同时强调了在临床应用中需要专家的监督。

目的

本研究旨在评估两种先进的推理型大型语言模型（LLM）在为真实世界的胃肠道间质瘤（GIST）病例生成治疗建议方面的表现，并评估它们与一家认证的三级肉瘤中心的多学科团队（MDT）决策的一致性。

方法

研究使用了来自一家三级肉瘤中心的65个真实GIST病例，来比较两种先进的推理模型——OpenAI o1和DeepSeek-R1。建议的生成采用了多专家提示策略，并以当前的临床指南作为背景。五位肉瘤专家和一台独立的LLM（Mistral AI）评估了这些建议与MDT决策的一致性以及与指南的符合程度。

结果

OpenAI o1与MDT决策的一致性高于DeepSeek-R1（76.9% vs. 53.8%，p < 0.001），并且有更多建议与MDT或指南相符（80.0% vs. 63.1%，p = 0.005）。人类评估者之间的评分者间可靠性非常好（ICC = 0.929）。LLM的评估结果与人类评估结果有中等程度的一致性（κ = 0.647）。OpenAI o1的回复长度显著长于DeepSeek-R1和MDT的记录。

结论

OpenAI o1在生成具有临床相关性的GIST治疗建议方面表现优于DeepSeek-R1。该研究强调了将LLM作为决策支持工具和评估工具（“LLM作为裁判”）在肿瘤学中的可行性，同时强调了在临床应用中需要专家的监督。

联系信箱：

粤ICP备09063491号

摘要

目的

方法

结果

结论

目的

方法

结果

结论

热点排行