基于大语言模型（LLM）的代理在单细胞组学分析中的基准测试

《Genome Biology》：Benchmarking LLM-based agents for single-cell omics analysis

【字体：大中小】 时间：2026年02月26日 来源：Genome Biology 9.4

编辑推荐：

　　单细胞组学数据激增推动AI代理分析流程革新，但缺乏综合评估基准。本研究构建首个多维度评估系统，涵盖统一平台、50个跨组学/物种/测序技术任务及认知规划、协作效率、知识融合等五项指标。实验表明Grok3-beta性能最优，多代理框架因角色分工显著提升效率，溯源分析揭示高质量代码生成和自省能力最为关键。

摘要

背景

单细胞组学数据的激增暴露了传统手动定义分析工作流程的局限性。人工智能代理提供了一种范式转变，实现了自适应规划、可执行代码生成、可追溯的决策以及实时知识融合。然而，缺乏一个全面的基准测试严重阻碍了进展。

结果

我们引入了一个新的基准测试评估系统，以严格评估代理在单细胞组学分析中的能力。该系统包括：一个与多种代理框架和大型语言模型（LLMs）兼容的统一平台；多维指标，用于评估认知程序合成、协作、执行效率、生物信息学知识整合和任务完成质量；以及50个涵盖多组学、物种和测序技术的多样化真实世界单细胞组学分析任务。我们的评估显示，Grok3-beta在测试的代理框架中表现出最先进的性能。多代理框架通过专门的角色划分显著提高了协作和执行效率。对代理能力的归因分析表明，高质量的代码生成对任务成功至关重要，而自我反思具有最大的整体影响，其次是检索增强生成（RAG）和规划。

结论

这项工作突出了代码生成、长上下文处理和上下文感知知识检索方面的持续挑战，为开发计算生物学中强大的AI代理提供了关键的实证基础和最佳实践。

背景

单细胞组学数据的激增暴露了传统手动定义分析工作流程的局限性。人工智能代理提供了一种范式转变，实现了自适应规划、可执行代码生成、可追溯的决策以及实时知识融合。然而，缺乏一个全面的基准测试严重阻碍了进展。

结果

我们引入了一个新的基准测试评估系统，以严格评估代理在单细胞组学分析中的能力。该系统包括：一个与多种代理框架和大型语言模型（LLMs）兼容的统一平台；多维指标，用于评估认知程序合成、协作、执行效率、生物信息学知识整合和任务完成质量；以及50个涵盖多组学、物种和测序技术的多样化真实世界单细胞组学分析任务。我们的评估显示，Grok3-beta在测试的代理框架中表现出最先进的性能。多代理框架通过专门的角色划分显著提高了协作和执行效率。对代理能力的归因分析表明，高质量的代码生成对任务成功至关重要，而自我反思具有最大的整体影响，其次是检索增强生成（RAG）和规划。