评估基于大语言模型（LLM）的代理在多轮对话中的表现：一项综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　本文通过PRISMA框架系统回顾近250篇文献，构建了包含任务完成、响应质量等五个维度的评估内容和标注法、自动化指标等四类评估方法的分类体系，揭示了传统评估的局限，并提出可扩展评价流程、隐私保护机制等未来方向。

摘要

本研究探讨了基于大型语言模型（LLM）的智能体在多轮对话场景中的评估方法。我们采用受 PRISMA 框架启发的方法，系统地回顾了近 250 篇学术文献，涵盖了来自不同出版渠道的最新研究成果，为后续分析奠定了坚实的基础。本研究通过构建两个相互关联的分类体系来提供一种结构化的方法：一个用于明确“评估什么”，另一个用于解释“如何评估”。第一个分类体系确定了基于 LLM 的智能体在多轮对话中的关键组成部分及其评估维度，包括任务完成度、响应质量、用户体验、记忆与上下文保持能力，以及规划和工具集成能力。这些评估维度确保了对智能体性能的全面而深入的评估。第二个分类体系侧重于评估方法，将评估方法分为基于注释的评估、自动化指标、结合人类评估与定量测量的混合策略，以及利用 LLM 的自我评估方法。该框架不仅涵盖了传统的评估指标（如 BLEU 和 ROUGE 分数），还纳入了能够反映多轮对话动态交互特性的先进技术。总体而言，这些框架总结了当前的研究现状，指出了传统评估方法的局限性，并为改进提供了明确的路径。基于对现有研究的总结，我们提出了若干挑战并指出了未来的研究方向，包括开发可扩展的实时评估流程、增强隐私保护机制，以及能够捕捉动态多轮交互的稳健评估指标。我们的贡献将历史洞察与现代实践相结合，为下一代可信赖的对话式 AI 系统的研发铺平了道路，同时为研究人员和实践者提供了全面的指导。

AI 摘要

AI 生成摘要（实验性）

本摘要由自动化工具生成，未经过文章作者的撰写或审核。它旨在帮助读者发现研究价值、评估文章的相关性，并协助来自相关研究领域的读者理解本文内容。该摘要旨在补充作者提供的摘要，后者仍是文章的正式版本。完整文章才是权威的信息来源。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的摘要版本。

AI 生成的摘要不可用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号