
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型(LLM)的代理在单细胞组学分析中的基准测试
《Genome Biology》:Benchmarking LLM-based agents for single-cell omics analysis
【字体: 大 中 小 】 时间:2026年02月26日 来源:Genome Biology 9.4
编辑推荐:
单细胞组学数据激增推动AI代理分析流程革新,但缺乏综合评估基准。本研究构建首个多维度评估系统,涵盖统一平台、50个跨组学/物种/测序技术任务及认知规划、协作效率、知识融合等五项指标。实验表明Grok3-beta性能最优,多代理框架因角色分工显著提升效率,溯源分析揭示高质量代码生成和自省能力最为关键。
单细胞组学数据的激增暴露了传统手动定义分析工作流程的局限性。人工智能代理提供了一种范式转变,实现了自适应规划、可执行代码生成、可追溯的决策以及实时知识融合。然而,缺乏一个全面的基准测试严重阻碍了进展。
我们引入了一个新的基准测试评估系统,以严格评估代理在单细胞组学分析中的能力。该系统包括:一个与多种代理框架和大型语言模型(LLMs)兼容的统一平台;多维指标,用于评估认知程序合成、协作、执行效率、生物信息学知识整合和任务完成质量;以及50个涵盖多组学、物种和测序技术的多样化真实世界单细胞组学分析任务。我们的评估显示,Grok3-beta在测试的代理框架中表现出最先进的性能。多代理框架通过专门的角色划分显著提高了协作和执行效率。对代理能力的归因分析表明,高质量的代码生成对任务成功至关重要,而自我反思具有最大的整体影响,其次是检索增强生成(RAG)和规划。
这项工作突出了代码生成、长上下文处理和上下文感知知识检索方面的持续挑战,为开发计算生物学中强大的AI代理提供了关键的实证基础和最佳实践。
单细胞组学数据的激增暴露了传统手动定义分析工作流程的局限性。人工智能代理提供了一种范式转变,实现了自适应规划、可执行代码生成、可追溯的决策以及实时知识融合。然而,缺乏一个全面的基准测试严重阻碍了进展。
我们引入了一个新的基准测试评估系统,以严格评估代理在单细胞组学分析中的能力。该系统包括:一个与多种代理框架和大型语言模型(LLMs)兼容的统一平台;多维指标,用于评估认知程序合成、协作、执行效率、生物信息学知识整合和任务完成质量;以及50个涵盖多组学、物种和测序技术的多样化真实世界单细胞组学分析任务。我们的评估显示,Grok3-beta在测试的代理框架中表现出最先进的性能。多代理框架通过专门的角色划分显著提高了协作和执行效率。对代理能力的归因分析表明,高质量的代码生成对任务成功至关重要,而自我反思具有最大的整体影响,其次是检索增强生成(RAG)和规划。
这项工作突出了代码生成、长上下文处理和上下文感知知识检索方面的持续挑战,为开发计算生物学中强大的AI代理提供了关键的实证基础和最佳实践。