临床前HistoBench:一个用于评估大型语言模型在临床前组织病理分类中表现的基准数据集 作者:Avan Kader、Marie-Luise H. H. Ranner-Hafferl、Felix Reuter、Miriam L. Fichtner、Marcus R. Makowski、Keno K. Bressem 和 Lisa C. Adams

《Biology》:Preclinical HistoBench: A Pilot Benchmark Dataset for Evaluating Large Language Models on Preclinical Histopathological Classification Avan Kader, Marie-Luise H. H. Ranner-Hafferl, Felix Reuter, Miriam L. Fichtner, Marcus R. Makowski, Keno K. Bressem and Lisa C. Adams

【字体: 时间:2026年03月05日 来源:Biology 3.5

编辑推荐:

  大语言模型在四维病理切片分类中的性能评估显示,GPT-4.1在物种识别(小鼠70.4%敏感度)和制备技术(冻存85.7%敏感度)表现最佳,Llama 3.2在染色分类(>88%敏感度)和物种全面识别(兔75%、鼠0.3%)中突出。模型均存在类不平衡敏感性,染色分类整体最优(88%),器官识别和物种少数类识别最弱(<5%)。建议结合专家审核用于科研预筛。

  

简单总结

本研究评估了大型语言模型在多维分类临床前组织学样本方面的能力,解决了该领域缺乏标准化基准测试的问题。我们使用了378个组织学样本,对三种语言模型(GPT-4.1、GPT-4o-mini和Llama 3.2)进行了测试,涵盖了四个分类维度:物种识别(小鼠、兔子、大鼠)、器官识别(肾脏、肝脏、前列腺、脾脏)、染色方法分类(包括H&E染色和特殊染色方法)以及样本制备技术鉴定(冷冻样本与石蜡包埋样本)。研究结果表明,模型在不同任务上的表现存在显著差异,并且对类别不平衡非常敏感。GPT-4.1在小鼠识别任务上的表现较好(灵敏度为70.4%),但无法识别少数物种;而Llama 3.2尽管在小鼠识别方面表现不佳,却能够准确识别所有三种物种。在染色方法分类方面,Llama 3.2的整体表现最佳,大多数染色类型的灵敏度超过88%。样本制备类型分类尤其具有挑战性,只有GPT-4.1能够同时准确识别冷冻样本和石蜡包埋样本。这些结果表明,目前的大型语言模型尚未具备独立用于组织病理学诊断的可靠性。然而,在研究环境中,当与专家验证结合使用时,它们可以作为有价值的初步筛查工具,从而在保持诊断准确性的同时提高工作效率。

摘要

背景与目的:我们提供了一个包含378个临床前组织学样本的试点基准数据集,用于评估大型语言模型(LLM)在多维分类任务上的表现。该数据集填补了临床前组织病理学领域缺乏标准化基准测试的空白,涵盖了物种识别(小鼠、兔子、大鼠)、器官识别、染色方法和样本制备技术等方面。 方法:我们使用GPT-4.1、GPT-4o-mini和Llama 3.2三种语言模型,对378个组织学样本进行了四个维度的分类测试:物种识别(小鼠、兔子、大鼠)、器官识别(肾脏、肝脏、前列腺、脾脏)、染色方法分类(H&E染色、Elastica van Gieson染色、胶原染色、铁染色、IHC-弹性蛋白染色、MOVAT五色染色)以及样本制备类型鉴定(冷冻样本与石蜡包埋样本)。通过灵敏度和特异性指标以及混淆矩阵分析来评估模型性能。 结果:模型在不同任务上的表现存在显著差异,并且对类别不平衡非常敏感。在样本制备类型分类方面,GPT-4.1的表现最为平衡(冷冻样本的灵敏度为50%,石蜡样本的灵敏度为85.7%);而Llama 3.2无法识别石蜡样本(灵敏度为0%)。在物种识别方面,Llama 3.2是唯一能够识别所有三种物种的模型(兔子:灵敏度为75%,大鼠:灵敏度为85.7%),尽管其在小鼠识别方面表现较差(灵敏度仅为0.3%)。GPT-4.1在该数据集中小鼠的识别灵敏度较高(为70.4%),但在识别少数物种时表现不佳。在染色方法分类方面,Llama 3.2的整体表现最佳,大多数染色类型的灵敏度超过88%;GPT-4o-mini在H&E染色方面的识别率为100%(灵敏度为100%)。 结论:当前的大型语言模型在组织学分类方面的表现存在差异,并且对类别不平衡非常敏感。虽然它们不适合独立用于诊断,但在有适当人工监督的研究环境中,可以作为有用的筛查工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号