利用计算机化的自适应测试来对大型语言模型进行经济高效的评估，以应用于医学领域的基准测试

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Digital Medicine》：Leveraging computerized adaptive testing for cost-effective evaluation of large language models in medical benchmarking

【字体：大中小】 时间：2026年05月20日 来源：npj Digital Medicine 15.1

编辑推荐：

　　摘要大型语言模型（LLMs）在医疗领域的应用日益广泛，但其评估主要依赖于静态基准测试。这些静态测试成本高昂、容易受到干扰，并且缺乏用于精细性能跟踪的校准测量指标。我们开发并验证了一种基于项目反应理论（Item Response Theory）的计算机化自适应测试（CAT）框架，以

摘要

大型语言模型（LLMs）在医疗领域的应用日益广泛，但其评估主要依赖于静态基准测试。这些静态测试成本高昂、容易受到干扰，并且缺乏用于精细性能跟踪的校准测量指标。我们开发并验证了一种基于项目反应理论（Item Response Theory）的计算机化自适应测试（CAT）框架，以实现可扩展的、符合心理测量学要求的LLM标准化医学知识评估。2025年7月至9月期间，我们开展了一项包含蒙特卡洛模拟和38个LLM实际评估的两阶段研究。该CAT协议仅使用了1.3%的测试题目，就与完整测试结果实现了近乎完美的相关性（相关系数 r = 0.988）。评估时间从每个模型6.85小时缩短至8.4分钟，模型使用的令牌数量也从177万个减少到30万个。模型排名得到了完全保留（Spearman相关系数 ρ = 1.0）。按照当前的API定价标准，每个模型的评估成本从大约1,475美元降至5美元以下。这种自适应方法作为一种重要的预筛选和持续监控工具，在标准化测试协议中发挥着关键作用。需要注意的是，它不能替代实际的临床验证或以安全性为导向的前瞻性研究；相反，它使开发者和医疗机构能够在资源密集型的后续测试之前，对基础医学知识进行严格、高频的、基于证据的评估。

联系信箱：

粤ICP备09063491号

摘要

热点排行