
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用计算机化的自适应测试来对大型语言模型进行经济高效的评估,以应用于医学领域的基准测试
《npj Digital Medicine》:Leveraging computerized adaptive testing for cost-effective evaluation of large language models in medical benchmarking
【字体: 大 中 小 】 时间:2026年05月20日 来源:npj Digital Medicine 15.1
编辑推荐:
摘要大型语言模型(LLMs)在医疗领域的应用日益广泛,但其评估主要依赖于静态基准测试。这些静态测试成本高昂、容易受到干扰,并且缺乏用于精细性能跟踪的校准测量指标。我们开发并验证了一种基于项目反应理论(Item Response Theory)的计算机化自适应测试(CAT)框架,以
大型语言模型(LLMs)在医疗领域的应用日益广泛,但其评估主要依赖于静态基准测试。这些静态测试成本高昂、容易受到干扰,并且缺乏用于精细性能跟踪的校准测量指标。我们开发并验证了一种基于项目反应理论(Item Response Theory)的计算机化自适应测试(CAT)框架,以实现可扩展的、符合心理测量学要求的LLM标准化医学知识评估。2025年7月至9月期间,我们开展了一项包含蒙特卡洛模拟和38个LLM实际评估的两阶段研究。该CAT协议仅使用了1.3%的测试题目,就与完整测试结果实现了近乎完美的相关性(相关系数 r = 0.988)。评估时间从每个模型6.85小时缩短至8.4分钟,模型使用的令牌数量也从177万个减少到30万个。模型排名得到了完全保留(Spearman相关系数 ρ = 1.0)。按照当前的API定价标准,每个模型的评估成本从大约1,475美元降至5美元以下。这种自适应方法作为一种重要的预筛选和持续监控工具,在标准化测试协议中发挥着关键作用。需要注意的是,它不能替代实际的临床验证或以安全性为导向的前瞻性研究;相反,它使开发者和医疗机构能够在资源密集型的后续测试之前,对基础医学知识进行严格、高频的、基于证据的评估。