今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

评估用于胃肠道间质瘤治疗建议的推理模型:专家评估与基于大型语言模型(LLM)的OpenAI o1和DeepSeek-R1模型评估

《Journal of Cancer Research and Clinical Oncology》:Evaluating reasoning models for therapy recommendations in gastrointestinal stromal tumors: expert and LLM-based evaluations of OpenAI o1 and DeepSeek-R1

【字体: 大 中 小 】 时间:2026年05月20日 来源:Journal of Cancer Research and Clinical Oncology 2.8

编辑推荐:

  摘要目的本研究旨在评估两种先进的推理型大型语言模型(LLM)在为真实世界的胃肠道间质瘤(GIST)病例生成治疗建议方面的表现,并评估它们与一家认证的三级肉瘤中心的多学科团队(MDT)决策的一致性。方法研究使用了来自一家三级肉瘤中心的65个真实GIST病例,来比较两种先进的推理模型

  

摘要

目的

本研究旨在评估两种先进的推理型大型语言模型(LLM)在为真实世界的胃肠道间质瘤(GIST)病例生成治疗建议方面的表现,并评估它们与一家认证的三级肉瘤中心的多学科团队(MDT)决策的一致性。

方法

研究使用了来自一家三级肉瘤中心的65个真实GIST病例,来比较两种先进的推理模型——OpenAI o1和DeepSeek-R1。建议的生成采用了多专家提示策略,并以当前的临床指南作为背景。五位肉瘤专家和一台独立的LLM(Mistral AI)评估了这些建议与MDT决策的一致性以及与指南的符合程度。

结果

OpenAI o1与MDT决策的一致性高于DeepSeek-R1(76.9% vs. 53.8%,p < 0.001),并且有更多建议与MDT或指南相符(80.0% vs. 63.1%,p = 0.005)。人类评估者之间的评分者间可靠性非常好(ICC = 0.929)。LLM的评估结果与人类评估结果有中等程度的一致性(κ = 0.647)。OpenAI o1的回复长度显著长于DeepSeek-R1和MDT的记录。

结论

OpenAI o1在生成具有临床相关性的GIST治疗建议方面表现优于DeepSeek-R1。该研究强调了将LLM作为决策支持工具和评估工具(“LLM作为裁判”)在肿瘤学中的可行性,同时强调了在临床应用中需要专家的监督。

目的

本研究旨在评估两种先进的推理型大型语言模型(LLM)在为真实世界的胃肠道间质瘤(GIST)病例生成治疗建议方面的表现,并评估它们与一家认证的三级肉瘤中心的多学科团队(MDT)决策的一致性。

方法

研究使用了来自一家三级肉瘤中心的65个真实GIST病例,来比较两种先进的推理模型——OpenAI o1和DeepSeek-R1。建议的生成采用了多专家提示策略,并以当前的临床指南作为背景。五位肉瘤专家和一台独立的LLM(Mistral AI)评估了这些建议与MDT决策的一致性以及与指南的符合程度。

结果

OpenAI o1与MDT决策的一致性高于DeepSeek-R1(76.9% vs. 53.8%,p < 0.001),并且有更多建议与MDT或指南相符(80.0% vs. 63.1%,p = 0.005)。人类评估者之间的评分者间可靠性非常好(ICC = 0.929)。LLM的评估结果与人类评估结果有中等程度的一致性(κ = 0.647)。OpenAI o1的回复长度显著长于DeepSeek-R1和MDT的记录。

结论

OpenAI o1在生成具有临床相关性的GIST治疗建议方面表现优于DeepSeek-R1。该研究强调了将LLM作为决策支持工具和评估工具(“LLM作为裁判”)在肿瘤学中的可行性,同时强调了在临床应用中需要专家的监督。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:摘要图像分析表明|本研究通过对比 OpenAI o1 和 DeepSeek-R1 在处理真实世界胃肠道间质瘤(GIST)案例时的表现|重点考察了它们与多学科团队(MDT)决策的一致性。研究发现|OpenAI o1 在生成具有临床相关性治疗建议方面显著优于 DeepSeek-R1|尤其在评估建议与 MDT 决策相符的比例上|其一致性高达 76.9%|而后者仅为 53.8%。此外|两模型生成的建议与现有临床指南的符合率也存在明显差异|开尔文系数 κ 高达 0.647|表明中等程度的一致性。数据还显示|OpenAI o1 的输出回复长度显著长于其他模型及 MDT 成员。最终|研究证实了大型语言模型作为辅助决策工具和评估工具在肿瘤学中的实用性与潜力|但同时也强调了这些高科技干预必须置于专家监督下进行以确保临床应用的安全性与有效性。

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号