大型语言模型（ChatGPT/DeepSeek）在生成结构化甲状腺超声报告方面的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：A comparative study of large language models (ChatGPT/DeepSeek) in generating structured thyroid ultrasound reports

【字体：大中小】 时间：2026年06月07日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要结构化放射学报告的重要性得到了广泛认可，它们能够高效地提取数据并促进多学科之间的协作。本研究旨在评估大型语言模型ChatGPT-4o和DeepSeek-R1在生成结构化甲状腺超声报告方面的准确性和一致性。研究回顾性地分析了174名患者的174份甲状腺超声报告，共包含230个结

摘要

结构化放射学报告的重要性得到了广泛认可，它们能够高效地提取数据并促进多学科之间的协作。本研究旨在评估大型语言模型ChatGPT-4o和DeepSeek-R1在生成结构化甲状腺超声报告方面的准确性和一致性。研究回顾性地分析了174名患者的174份甲状腺超声报告，共包含230个结节。使用ChatGPT-4o和DeepSeek-R1根据C-TIRADS指南将这些报告转换为结构化格式。两名超声科医生对生成的结节分类结果及管理建议的合理性进行了评估。每份报告被提交两次以评估结节分类和管理建议的一致性。在174名患者（平均年龄44±11岁；32名男性）中，ChatGPT-4o和DeepSeek-R1在结节分类上的准确率没有显著差异（80.4% vs 77.2%；OR=1.636；95% CI：0.976–2.741；P=0.205）。ChatGPT-4o在提供更全面或正确的管理建议方面表现优于DeepSeek-R1（OR=7.362，95% CI：4.255–12.735，P<0.001）。此外，ChatGPT-4o和DeepSeek-R1在结节分类上表现出中等程度的一致性（AC1=0.767 vs 0.713）。特别是在3类结节方面，两种模型的一致性都很高（AC1=0.983 vs 0.929）。与DeepSeek-R1相比，ChatGPT-4o在提供管理建议方面也表现出更高的一致性（AC1=0.809 vs 0.632）。研究表明，ChatGPT和DeepSeek都有潜力将自由文本形式的甲状腺超声报告转换为结构化格式。虽然在结节分类的准确性上两者表现相似，但ChatGPT-4o在管理建议的准确性方面具有明显优势。

联系信箱：

粤ICP备09063491号

摘要

热点排行