评估与规范代理型人工智能：基准测试、指标及监管机制的研究

《TRENDS IN FOOD SCIENCE & TECHNOLOGY》：Evaluating and Regulating Agentic AI: A Study of Benchmarks, Metrics, and Regulation

【字体：大中小】 时间：2026年05月10日 来源：TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4

编辑推荐：

　　Azib Farooq | Shaina Raza | Nazmul Karim | Hasan Iqbal | Athanasios V. Vasilakos | Christos Emmanouilidis
中佛罗里达大学，奥兰多，FL，美国

**摘要**
代理型人工智能（Agentive AI）代表了一代新型的人工智能（AI）系统，这些系统能够感知、推理、规划，并以一定程度的自主性实现目标。与传统的人工智能模型不同，这些系统具有记忆功能，能够与周围环境互动，并随着时间的推移进行自我调整。然而，评估这种交互性和进化行为仍然是一个重大挑战。尽管最近有几项调查研究了代理型AI的架构、组件和应用，但很少有研究系统地评估它们的性能、可靠性和在不断发展的代理型AI生态系统中的治理问题。本文通过回顾代理型AI评估和测试方面的最新进展来填补这一空白，重点关注三个核心维度：基准测试、指标和治理。我们分析了当前的评估框架如何捕捉单智能体和多智能体系统中的推理、协作和伦理对齐情况。最终，本研究旨在为构建可信赖、可审计且符合社会价值观的AI代理奠定统一的基础。

**1. 引言**
代理型AI代表了一种更广泛的范式，它超越了单一步骤的任务预测，能够作为持久的、目标导向的代理进行操作[1]。与传统模型（仅生成输出）不同，代理型AI能够保持状态、跨多个步骤进行规划、利用工具，并在开放环境中动态调整其行为。这些能力使代理型AI系统更像合作者或决策者，而不是被动模型。在本文的范围内，“代理型AI系统”特指基于大型语言模型（LLM）的代理。

这些现代能力建立在丰富的历史基础上。传统上，AI代理专注于为固定目标设定感知-行动循环[3]，但大型语言模型（LLMs）将泛化推理和自然语言适应性引入了这一范式。这一进化基于大量关于认知架构的研究：[4]将动态系统与适应行为联系起来，而[5]和[6]将动机和伦理纳入决策过程。同时，目标推理社区建立了元认知机制以实现自主目标修订，例如MIDCA（元认知、集成双循环架构）[26]。最近的综合分类法[27]进一步明确了AI驱动的自动化在不同自主性水平上的划分。这些框架为将特定代理组件与广义AI自动化进行比较提供了必要的结构基础。为了清晰理解关键术语，我们建议读者参考术语表（表3）。

**表1. 以往调查论文与我们在代理型AI方面的工作的符号比较**
| 调查 | 重点 | 时间线 | 基准测试 | 指标 | 治理 |
|-----------------|------------------|------------------|-------------|------------------|----------------|
| Yehudai等人 [1] | 基于LLM的代理评估 | Post | 1 | 1 | 1 | 2 |
| Plaat等人 [49] | 代理型LLM：推理-行动-交互 | Post | 2 | 2 | 2 | 2 |
| Acharya等人 [51] | 代理型AI基础与应用 | Pre+Post | 2 | 2 | 2 | 1 |
| Bandi等人 [54] | 分类学：AI代理 vs. 代理型AI | Pre+Post | 3 | 3 | 3 | 2 |
| Hughes等人 [52] | 多专家行业分析 | Pre+Post | 3 | 3 | 3 | 1 |
| Piccialli等人 [53] | 工业4.0的分布式代理AI | Pre+Post | 2 | 2 | 2 | 1 |
| Mohammadi等人 [43] | LLM代理的评估/基准测试 | Post | 1 | 1 | 1 | 3 |
| Nisa等人 [55] | 代理型AI概述（组织转型） | Pre+Post | 2 | 2 | 2 | 3 |
| Yu等人 [50] | 代理的可信赖性与安全性评估 | Post | 3 | 3 | 2 | 3 |
| 我们 | 基准测试、指标和治理 | Pre | 1 | 1 | 1 | 1 |

**表2. 代理型AI文献的主题分析**
| 主题 | 代表性作品及重点 | 基础与概念框架 | 核心概念化 | [54]提供了代理型AI演变的综合概述，而[49]、[51]界定了AI代理与代理型AI之间的概念区别。[56]和[52]概述了系统架构和跨学科视角，[53]、[55]和[44]将讨论扩展到工业和社会应用。[57]和[58]支持了经典的理论基础。**
| 自主性、治理与安全性 | 自主系统的伦理、监管和安全影响。[3]和[59]研究了自主性水平和治理框架，[60]和[61]提出了对齐和审计问题。基准测试如[48]、[62]、[63]和[64]评估了安全性、鲁棒性和防御机制。[65]和[66]探讨了具身代理的安全性和现实世界性能监控。**
| 基准测试与评估框架 | 用于评估基于LLM的代理的评估协议和基准测试套件。关键基础工作包括[43]、[68]和[1]。[45]、[69]、[70]、[71]和[72]代表了多领域基准测试。[73]、[74]和[75]评估了通用推理和规划能力。[76]、[77]和[78]强调了适应性性能跟踪和数据集管理。[79]**
| 多智能体系统与协作 | 研究协调、竞争和集体智能。[80]、[81]和[82]评估了大规模合作/竞争。[47]、[83]和[84]探讨了智能体之间的协调动态。[85]和[86]关注协作推理，[87]扩展到游戏情境。[44]讨论了基于社会科学的智能体范式。**
| 工具使用与具身环境 | 具身决策、工具集成和交互式多模态环境。工具使用探索基准测试包括[88]、[89]、[90]和[91]。具身代理评估由[31]、[92]和[93]领导。[94]、[95]和[96]等真实交互式测试平台模拟了复杂的决策环境。[97]、[98]和[99]对基础任务自动化和规划进行了基准测试。早期开源系统如[100]展示了自主任务执行的基础。**

**表3. 代理型AI（基于LLM的代理）的初步术语**
| 术语 | 简要定义 | |
|-----------------|---------------------------------------------|------------------------------|
| 代理型AI [56] | 较宽的范式和个体代理的设计哲学，而不仅仅是特定实例。 |
| 基于LLM的代理* [101] | 其推理核心是LLM的代理。 |
| 代理型AI系统* [101] | 可部署的代理型AI实现，相当于基于LLM的代理。 |
| 自主代理 [102] | 在最小或无人类监督下运行的代理，是基于LLM的代理的高自主性子集。 |
| 感知-推理-行动循环 [103] | 代理在环境中观察、推理和行动的核心操作周期。 |
| 规划器/控制器 [101] | 将高级目标转换为可执行的子任务或计划。 |
| 执行器/工具调用者 [104] | 调用API、代码或工具以执行具体操作。 |
| 反思 [105] | 通过过去行为的反馈进行自我评估和改进的机制。 |
| 检索增强生成（RAG） [37] | 通过外部文档检索增强事实依据。 |
| 记忆（短期/长期） [101] | 在多个推理步骤中存储上下文信息。 |
| 工具生成器 [104] | 经过训练的LLM，能够自主决定何时以及如何使用工具。 |
| 任务分解 [101] | 将复杂任务分解为更小、更易于管理的子目标。 |
| 观察/状态 [49] | 代理所感知的环境或信念的表示。 |
| 评判者/批评者/验证者 [41] | 基于LLM正确性、连贯性或安全的评估。 |
| 监护栏/策略引擎 [106] | 强制代理行为遵循伦理或安全约束。 |
| 奖励模型/偏好信号 [107] | 提供反馈以优化或微调代理策略。 |
| 思维链（CoT） [108] | 明确的推理轨迹，以提高逻辑一致性。 |
| 思维程序（PoT） [109] | 以代码形式执行推理，以提高精确性和可验证性。 |
| 多智能体系统 [102] | 多个自主代理之间的协作或竞争。 |

**1.1. 动机**
尽管代理型AI发展迅速，但评估其有效性仍然是一个重大挑战。例如，考虑一个专注于多平台电商推荐的代理型AI系统，用户希望购买一台价格低于1000美元、适合图形设计应用且电池寿命长的笔记本电脑。图3展示了所有必要的步骤及其潜在的失败情况以及每个步骤的评估指标。在所有这些指标上都取得成功将确保AI代理的整体任务成功。

**图3. 工作实例图，展示了使用代理型流程购买笔记本电脑的工作流程。**
第一个高亮框显示了每个流程步骤可能出现的失败情况，第二个高亮框显示了可用于应对这些失败情况的评估指标。传统的LLM评估方法[41]、[42]（如静态准确性或在保留测试上的正确性、单轮提示响应指标（如BLEU、ROUGE或完全匹配）以及工具调用精度）无法捕捉代理型AI行为的动态、互动性和目标导向特性[43]、[44]。静态基准测试很少考虑时间一致性、任务分解、代理如何从错误中恢复以及如何适应目标的变化。新兴研究探索了新的代理型AI评估范式，强调任务完成率、推理深度、协作效率和伦理对齐等指标[45]、[46]、[47]、[48]。

当前的代理型AI调查主要集中在组件分类（如规划、记忆、感知、工具使用）、架构（单智能体 vs. 多智能体）或应用领域（金融、医疗保健、软件工程）上，如表1所示。虽然这些综述提供了有价值的概念概述，但缺乏对基准测试、指标和治理框架的系统分析。目前尚不清楚如何衡量代理型AI在鲁棒性、可靠性、效率、安全性和对齐性等方面的表现。这一差距突显了需要进行专门的研究，以确保代理型AI系统不仅功能强大，而且值得信赖、可审计，并符合社会价值观。

与表1中显示的以往调查相比，我们将“简要覆盖”（22）定义为研究范围较窄的研究，而“最少”（33）表示覆盖范围有限。现有的调查大致分为三类：首先，[1]和[43]等以评估为重点的工作广泛涵盖了基准测试，但仅从安全性和鲁棒性的角度讨论治理问题，忽略了更广泛的法规 compliance。其次，[49]和[50]等架构评估侧重于构建代理（推理、安全防御），但将责任和标准化指标作为未解决的问题。最后，[51]、[52]和[53]等社会和行业分析强调伦理和劳动力整合，但依赖于定性意见而非系统的技术记录。

与这些工作相比，我们的调查通过提供一个整合技术基准测试与更广泛治理政策和法规 compliance 的整体框架，填补了这些空白，确保了先前文献中缺失的全面覆盖。具体来说，本研究解决了以下研究问题：
1. 当前用于评估代理型AI系统性能、推理和可靠性的交互式基准测试和定量/定性指标的现状是什么？（§5, §6）
2. 如何将这些技术评估范式与新兴的治理标准（如NIST AI RMF、EU AI Act）操作对齐，以确保自主代理的可审计和安全部署？（§7）
3. 如何构建一个统一的评估框架，系统地整合这些生命周期指标，同时提供针对数据污染和基准测试作弊的强大结构防御？（§4）

**1.2. 主要贡献**
本文专注于代理型AI系统的评估方法进行了专门研究。我们的具体贡献如下：
• 我们提供了一个全面的分类法（图2）和按生命周期阶段组织的现有基准测试和评估指标的 structured review。这包括对基准类型、评估维度和性能指标的统一映射。•我们分析了相关文献（第2、5、6节），强调了在评估代理型AI时出现的新趋势、方法论上的空白以及尚未解决的挑战。•我们考察了当前评估框架的治理维度和监管一致性（第7节），特别是在信任、问责制和合规标准方面。•我们引入了一种新的评估框架（第4节），用于代理型AI系统。与之前的调查和单一轴评估流程不同，该框架将生命周期意识评估与正式的（1）基准有效性审计、（2）结构化游戏检测层、（3）经过污染调整的评分以及（4）符合NIST AI RMF和ISO/IEC 42001的有效性合规性SLOs结合起来，形成了一个可部署、准备审计的协议，而不仅仅是一个概念性概述。

1.3. 论文结构
本文的其余部分组织如下：第2节概述了文献综述的方法，详细介绍了搜索策略、纳入-排除标准以及用于映射现有代理型AI评估研究的主题综合方法。第3节提供了关于大语言模型（LLMs）、视觉语言模型（VLMs）、检索增强（RAG）、基于LLM的代理和多代理系统的背景信息。第4节提出了一个新的评估框架。第5节讨论了用于评估自主LLM代理的主要基准和数据集，强调了它们的领域、设计原则和比较范围。第6节介绍了评估指标的分类，描述了用于衡量性能、可靠性和人类一致性的定量和定性维度。第7节探讨了代理型AI的治理、政策和审计框架，确定了监督和安全性的新兴标准和最佳实践。第8节讨论了污染和基准游戏现象，揭示了评估中的漏洞以及基准的演变。第9节的讨论提出了代理型AI的开放性挑战和未来发展方向。最后，第10节总结了统一评估和治理框架的开放性挑战、空白以及未来方向。

2. 文献综述方法
本综述遵循了一个结构化流程，以确保对代理型AI评估方法和基准的现有工作进行全面覆盖。通过使用诸如“代理型AI”、“基于LLM的代理”、“评估框架”和“基准”等关键词在数据库中进行搜索，以识别相关研究。如果论文讨论了与LLM驱动或自主代理相关的评估方法、基准设计或评估指标，则将其纳入研究范围。收集到的文献随后按主题进行了分析，以捕捉当前的趋势、局限性和开放性挑战。为了明确关键术语的含义，我们建议读者参考术语表（表3）。
以下搜索词用于在IEEE Xplore、ACM Digital Library、SpringerLink和arXiv等主要数据库中搜索材料：“代理型AI”、“自主代理”、“基于LLM的代理”、“AI评估”、“基准测试”、“代理型框架”、“多代理系统”、“代理中的反思”、“工具使用”和“推理评估”。应用布尔运算符（AND、OR）来细化查询（例如“代理型AI” AND “评估框架”）。搜索范围涵盖了2023年至2025年的出版物，以捕捉LLM发展后的最新进展。

纳入标准
- 专注于2023-2025年间基于LLM或自主代理系统的评估框架、基准或评估指标的研究。
- 讨论代理环境中计划、反思、记忆或协作推理的研究。
- 经同行评审的文章、高质量预印本或来自知名研究小组的技术报告。

排除标准
- 没有方法论细节的意见文章、社论或非技术性博客文章。
- 与评估、基准测试或代理系统无关的研究。
- 后期发表论文的重复版本或早期工作坊版本。

最初共检索到190篇论文，作者根据其与代理型AI评估和基准设计的相关性对其中138篇进行了仔细筛选和评估。还包括了一些关于代理、LLM、可信AI等概念的基础性论文。

主题分析和结果
主题分析（表2）显示，关于代理型AI的文献涵盖了五个主要的研究方向。基础性工作侧重于定义代理型AI、其概念边界和系统架构，建立了理论和应用视角。治理和安全研究突出了对自主性、一致性和监管的日益关注，并通过专门的基准来评估鲁棒性和合规性。文献综述分析的结果还表明，基准测试研究促进了推理、规划和适应性性能的系统性评估。多代理研究强调了代理之间的协作、竞争和社会动态。最后，体现和工具使用研究将代理型AI置于现实世界和多模态环境中，展示了向自主、上下文感知和交互式决策系统发展的进展。图4和图5展示了代理型AI领域中前五个关键词的频率趋势以及每年发表的论文数量。这两个图表都显示了多代理LLM出版物的增长趋势。

3. 背景
根据第1节中确立的范围和表3中的术语表，我们将代理型AI系统定义为基于LLM/VLM的系统，这些系统能够（i）在不同步骤之间保持状态，（ii）规划和选择工具/行动，以及（iii）在交互式环境中运行（网页、操作系统、API或实体模拟器）。不在范围内的包括没有工具使用或状态的单一-shot LLM提示。我们区分了工作记忆（上下文中的状态）、长期记忆（外部存储，如向量数据库或键值日志）和来源/审计日志（每个行动的谁/什么/何时/为什么），随后我们会评估其真实性和可追溯性（§6）。我们还假设了可选的HITL门（批准/覆盖）、策略检查以及可以中断或重塑计划的红队循环；我们将这些称为治理钩子（§7）。本综述文章中使用的一些关键术语见表3。

传统AI与代理型AI之间的根本区别在于交互循环。传统AI模型通常作为开环系统运行：它们根据静态预训练的知识将用户输入映射到输出（输入 → 过程 → 输出）。相比之下，代理型AI作为一个闭环系统能够实现自主性。如图6所示，这涉及到一个循环：感知（读取用户的目标和环境状态）、推理（将目标分解为逻辑步骤）、规划（选择工具和排序行动）以及行动（执行工具调用）。关键的是，代理会观察其行动的结果，如果出现错误，则进行反思并完善其计划，这是传统生成模型所不具备的能力。

3.1. 基于LLM的代理和类型
LLM具有文本接口，是基于变换器的架构，通过大规模文本语料库进行训练，以执行推理、规划和生成任务[110]。它们能够在不同领域实现灵活的少样本泛化，但仍然容易产生幻觉并且基础较弱。VLM通过集成视觉模态，扩展了这一范式，使得在图像注释、视觉问答和感知基础对话等任务中能够进行多模态推理[111]。基于RAG的系统进一步通过将参数化记忆（LLM知识）与非参数化记忆（检索索引）结合起来[37]，提高了事实的可靠性。这使代理能够动态访问最新信息，减少了幻觉，但引入了对检索质量和延迟的依赖。

在经典AI中，代理是一个能够感知其环境、对目标进行推理并采取行动以实现这些目标的系统[58]。现代基于LLM的代理结合了语言理解和外部工具使用，通过自然语言推理执行API调用、浏览、编码或查询数据库。这些代理可以在动态环境中规划、分解和行动，但由于提示不足、时间记忆丧失以及缺乏一致的治理框架，它们的自主性仍然有限。图7给出了代理型AI的概述。表4展示了LLM、VLM、RAG和代理在不同方面的比较。

多代理系统通过引入多个交互实体来概括单代理设置，每个实体专门负责感知、规划或执行，以共同解决复杂问题[112]。这种范式支持专业化、鲁棒性和新兴的协作[50]；然而，它也引发了关于可解释性和可解释性的问题。多代理框架目前正在被探索用于协作推理、人机协作和自我改进的生态系统，标志着从孤立推理模型向交互式认知系统的转变[113]。基于LLM的代理可以理解为四个渐进的智能和自主性阶段[114]。基础是检索器-生成器代理，它们结合了检索和生成功能，从现有数据源提供与上下文相关的响应。它们完全是反应型的[37]，仅对用户输入作出反应，没有自主改进能力。在此基础之上，工具增强代理集成了外部功能，如API和数据库[104]、[115]、[116]，使它们能够执行具体任务，如搜索、计算或预订。尽管能力更强，但它们仍然完全依赖于用户提示。下一个进化阶段是策略代理，这些代理可以分解复杂目标为结构化步骤，根据结果调整行动，并动态改进其方法[117]、[118]，但它们仍然局限于单一会话工作流，没有真正的持久性。最前沿的是自主代理，它们可以在会话之间保持上下文，独立启动行动，并通过反馈进行适应[77]。它们代表了从反应式智能到主动智能的转变，代理理论上可以自我指导改进并生成新的解决方案，尽管这种完全自主性仍然是一个未来的愿景。

3.2. 代理型AI中的挑战
根据我们的文献回顾，以下是一些与代理型AI框架相关的挑战：
- 推理可靠性和基础：代理仍然会出现幻觉，在时间使用下难以进行时间基础处理，并且错误处理不准确。
- 工具使用的脆弱性：当外部API速度慢时，思维链（CoT）计划往往会退化；错误处理和恢复策略规定不足，导致级联失败。
- 记忆和来源：短期和长期记忆不一致；缺乏来源信息，使得难以追踪为什么采取某个行动或重现结果。
- 多代理协调：劳动分工有助于提高性能，但引入了协调成本（冲突的信念、共享内存竞争）以及代理之间的责任不明确。
- 评估空白：大多数基准测试评估最终答案，而不是过程：规划质量、工具选择、协作以及在分布变化下的安全性仍然评估不足。
- 治理和可审计性：现有的检查是静态和单一次的；代理环境需要持续的监督、动作日志、决策理由和可验证的数据来源。
- RAG依赖性和数据质量：检索提高了真实性，但带来了新的失败模式：过时的索引、有偏见的来源、延迟/吞吐量权衡以及查询构建错误。
- 效率和成本：长期任务会增加延迟、碳排放和成本；很少有工作同时报告成本/能量和质量，这使得负责任的部署决策变得复杂。

这些问题促使我们开发了生命周期意识的基准（§5）和与治理对齐的评估（§6）。第9.1节将这些挑战映射到我们提出的评估和治理框架中。

3.3. 代理型AI中的基准
在当前的基于LLM的代理型AI研究中，使用了多种基准来评估自主代理的能力。现有的代理型AI基准评估了超出静态问答的交互能力。例如，AgentBench [68] 测量跨领域的多轮推理；τ-Bench [119] 评估长期视野和HITL交互；TRAIL [120] 专注于基于轨迹的推理和错误定位。其他值得注意的框架如WebArena [94]、OSWorld [73] 和 FieldWorkArena [121] 在需要动态适应和持续目标追求的现实或模拟环境中测试代理。总的来说，这些基准反映了从静态LLM评估向交互式、任务导向和行为级代理智能评估的转变。尽管该领域取得了重要的进展，但当前的基准并没有提供统一的、与治理对齐的、生命周期视角的代理行为视图。因此，我们引入了一个分类体系（图2）和一套统一的指标（表6和§6），共同评估过程、治理、鲁棒性和效率，使得可以在LLM、VLM、RAG和多代理系统之间进行同类比较。以下是2023年至2025年与智能代理（Agentic AI）相关的所有基准测试列表：

| 基准测试名称 | 任务 | 描述 |
|-------------------|------------------|----------------------|
| AgentBoard [130] | Jericho、Tool-Query、Tool-Operation、Alfworld、ScienceWorld、BabyAI | 提供细粒度的进度指标，以捕捉多轮交互期间的渐进式改进，并具有模块化评估框架，用于分析LLM代理在多个行为维度上的表现。 |
| AgentBench [68] | 操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题、家务管理、网上购物、网页浏览 | 评估LLM“代理”在八个环境（如操作系统、数据库、网络任务）中多轮开放式设置下的推理和决策能力。 |
| WebArena [94] | 电子商务、社交论坛讨论、协作软件开发、内容管理 | 模拟电子商务、社交论坛、协作编码和内容管理中的实际网络任务；在812个基于网页的任务上评估功能正确性。 |
| GAIA [145] | 问答（需要推理、多模态处理、网页浏览和工具使用） | 466个实际辅助任务，涉及多步骤推理、处理多模态输入（文本+图片/文件）以及熟练的工具使用；任务范围从简单查询到复杂的多工具问题。 |
| MINT [146] | 编码、推理、决策、问答、数学推理、代码生成 | 评估LLM通过多轮交互使用工具和动态反馈解决问题的能力；重新设计任务（推理问答、代码生成、决策）以要求迭代工具使用和用户反馈集成。 |
| ColBench [147] | 后端编程、前端设计 | 多轮基准测试，其中LLM与模拟的人类伙伴协作进行编码/设计任务，提出草稿、接收反馈并迭代改进——模拟真实的逐步开发工作流程。 |
| ToolEmu [148] | 风险识别 | 沙箱基准测试，包含36个高风险工具和144个测试用例，用于探究危险工具使用行为；模拟工具执行，并使用基于语言模型的评估器检查代理失败并量化相关风险。 |
| Webshop [93] | 电子商务购物（查找、定制和购买商品） | 模拟电子商务购物环境（118万个产品，超过1.2万条用户指令），评估LLM代理在现实网页导航、搜索、过滤和购买商品方面的表现。 |
| MetaTool [89] | 决定是否使用工具以及使用哪种工具 | 评估LLM是否“知道”何时使用工具以及能否选择正确的工具；包括2.1万个带有真实工具使用情况的提示（单一工具和多工具），涵盖工具使用意识和细致的工具选择场景。 |
| BFCL (Function-Calling) [90] | API调用生成 | 在多种语言（Python、Java、JS、REST）的2000对问答对中测试LLM的准确函数/API调用能力；评估正确的函数选择、参数格式化和适当的弃权情况。 |
| ToolLLM [88] | 单一工具API使用、多工具API使用 | 高级API/工具使用的框架和基准测试：引入ToolBench，一个包含1.6万个REST API（49个类别）的数据集，带有自动生成的指令，用于测试多步骤规划、正确的API调用（包括多工具序列）以及在需要时拒绝的能力。 |
| CREW-Wildfire [82] | 野火响应场景 | 基于野火响应场景的开源多代理基准测试，具有大型地图、异构代理、部分可观察性和长期目标；评估在现实复杂性下的可扩展协作、通信、空间推理和规划能力。 |
| AgentArch [69] | 客户请求路由、申请休假 | 企业聚焦的基准测试，评估18种不同的LLM代理架构（不同的编排方式：单一代理vs.多代理、提示风格、内存、工具集成）在复杂工作流任务上的表现，以揭示设计选择对性能的影响。 |
| m&m’s [99] | 多步骤多模态工具使用、工具增强型视觉问答 | 4,000多个多步骤多模态任务（文本+图片+音频），使用33种工具（视觉模型、API等），包含1,565个经人类验证的可执行计划；能够在不同策略（一次性vs.逐步规划）、计划格式（JSON vs.代码）和反馈类型下评估LLM规划器。 |
| TaskBench [45] | 任务分解、工具调用、参数预测 | 综合框架，通过将用户指令分解为子任务来评估LLM在任务自动化方面的表现；使用工具图表示和多方面的（自动化+人工）评估方法进行三阶段评估。 |
| LLM-Coordination [47] | 代理协调、协调问答、环境理解、心智理论推理 | 纯多代理协调游戏的基准测试；包括一个代理协调套件（LLM在四个合作游戏中充当代理）和一个协调问答集（198个问题），以测试环境理解、心智理论推理和联合规划能力。 |
| Collab-Overcooked [86] | 协作烹饪 | 基于Overcooked游戏环境的LLM多代理基准测试，包含30个协作任务；支持代理之间的自然语言交流，并引入面向过程的指标，以细粒度评估协作（协调、适应）效果。 |
| Roco (Multi-robot) [83] | 分类立方体、多机器人协作 | 使用LLM作为控制器的多机器人协作基准测试；评估语言模型代理如何通过基于对话的规划和行动来协调多个机器人在物理或模拟任务中实现共同目标。 |
| VillagerBench [84] | 多代理协作（在Minecraft中） | 基于Minecraft的多代理基准测试，其中LLM代理（作为“村民”）必须协调复杂的相互依赖任务；使用基于图的任务结构来评估开放式沙箱环境中的规划和协调。 |
| LLMARENA [85] | 井字棋、连通四、德州扑克、卧底游戏、竞拍（首价密封拍卖）、花火 | 动态多代理场景的基准测试，以评估LLM在变化环境中的协作能力；提供需要代理实时处理演变状态和其他代理行为的虚拟交互任务。 |
| CivRealm [70] | 完整游戏（文明）、小游戏（发展、战斗、外交） | 使用文明游戏环境作为长期规划和推理的基准；评估基于LLM的代理在具有开放性目标的复杂多步骤世界中的战略决策和学习能力。 |
| BattleAgentBench [81] | 单个代理场景导航、成对代理任务执行、多代理协作和竞争 | 多代理游戏场景的基准测试，旨在测试LLM代理之间的合作和竞争；评估模型如何形成联盟或对抗策略以及适应其他代理的行动。 |
| CuisineWorld [87] | 游戏中的多代理协作 | 基于MindAgent的多代理游戏基准测试，专注于协作烹饪任务；要求多个LLM驱动的代理高效协作完成食谱，并引入协作分数（CoS）来量化团队表现。 |
| MultiAgentBench [80] | 协作、竞争 | 针对多样化交互场景的LLM多代理系统的综合基准测试；通过基于里程碑的指标衡量任务成功以及协作和竞争的质量，并评估各种协调协议（星形、链形、图形等）对性能的影响。 |
| Embodied Agent Interface (EAI) [92] | 目标解释、子目标分解、动作序列化、转换建模 | 用于评估LLM在具身决策任务上的通用接口和基准测试；使用统一的正式框架（例如LTL目标、模块化子任务）提供细粒度的错误指标（缺失步骤、顺序错误等），以诊断LLM在交互式物理环境中的规划和推理能力。 |
| AutoPlanBench [97] | 自然语言规划任务（来自Blocksworld、Ferry等领域） | 评估LLM代理在日常场景中的规划能力，展示代理在某些方面的落后于传统符号规划器。 |
| SWE-bench [139] | 解决现实世界中的Github问题 | 基于软件开发任务的代理性能基准测试，要求代理解决公共仓库中发现的真实世界软件问题。 |
| ACPBench [98] | 动作适用性、进展性、可达性、动作可达性、验证、合理性、里程碑 | 专注于使用形式化合成问题评估LLM在7个推理任务和13个规划领域中的核心推理技能的基准测试。 |
| OSWorld [73] | 开放式计算任务（网页/桌面应用、文件I/O、多应用工作流） | 可扩展的现实计算环境，包含369个任务，用于评估多模态代理在各种操作系统和应用程序中的导航和执行能力。 |
| OmniACT [96] | 生成可执行程序（用于桌面和网络任务） | 测试代理在完整计算操作系统环境中协调动作和执行复杂任务的能力。 |
| AppWorld [95] | 交互式编码任务（使用日常应用） | 评估代理是否能够导航真实世界计算系统、执行复杂任务并在多个应用中协调动作。 |
| FlowBench [75] | 工作流引导规划（例如客户服务、物流） | 评估工作流规划能力，特别是针对需要复杂排序和协调的专业任务。 |
| Natural Plan [74] | 旅行规划、会议规划、日历安排 | 评估LLM在仅以自然语言呈现时处理真实世界规划任务的能力。 |
| StreamBench [76] | 连续任务流 | 具有挑战性的基准测试，评估代理通过利用外部记忆组件和先前交互随时间持续提升性能的能力。 |
| Reflection-Bench [77] | 预测、决策、感知、记忆、反事实思维、信念更新、元反思 | 通过将反思分解为包括信念更新、预测和元反思在内的七个认知组件来评估内在的认知能动性。 |
| REALM-Bench [71] | 现实世界规划场景 | 评估LLM和多代理系统在动态复杂现实世界规划与调度任务上的表现，重点关注协调和应对中断的能力。 |
| SWELancer [72] | 独立工程任务（漏洞修复、功能实现）、管理任务（选择技术提案） | 针对自由职业编码任务，通过将代理性能与货币价值和长期推理联系起来，代表最新的基准测试发展趋势。 |
| EASafetyBench [65] | 输入调解（针对具身代理） | 为具身代理提供的安全基准测试，提供定制的风险分类法、数据集和评估套件，用于训练/评估具身LLM的输入调解系统。 |
| SafePlan-Bench [48] | 安全任务规划（危险和安全任务） | 包含750个可执行任务（涵盖10种危险类型）的安全意识任务规划基准测试，以及通用SafeAgentEnv和评估指标，用于衡量具身LLM代理的危险识别和安全拒绝行为。 |
| IS-Bench [64] | 交互式安全（事前和事后的安全风险） | 多模态、过程导向的交互式安全基准测试（161个场景，388种风险），测试VLM驱动的具身代理是否能够感知新兴危险并执行正确的缓解步骤。 |
| A2Perf [66] | 计算机芯片布局规划（电路训练）、网页导航、四足机器人运动 | 包含三个真实环境（芯片布局规划、网页导航、四足机器人运动）的现实自主代理套件，以及任务性能、泛化能力、效率和可靠性的指标。 |
| DatasetResearch [79] | 数据集发现、数据集合成 | 需求驱动的数据集发现基准测试（208个真实世界数据集要求），评估代理查找或合成符合复杂知识密集型用户需求的数据集的能力。 |
| DCA-Bench [78] | 识别隐藏的数据集问题、自主数据集采集 | 数据集采集基准测试（221个真实世界测试用例），评估LLM代理在野外自动评估流程中检测和诊断数据质量问题的能力。 |
| Tool-Planner [91] | 使用集群的多工具任务规划 | 一种工具规划框架/基准测试方法，将工具按功能相似性分组，使LLM能够在工具集之间进行规划并从工具错误中稳健恢复。 |
| ScienceAgentBench [118] | 数据驱动的科学发现任务 | 基于科学的102个经过验证的领域特定任务的基准测试（转换为自包含的Python程序），用于严格评估语言代理在数据驱动的科学发现工作流上的表现。 |
| AssistantBench [138] | 现实且耗时的网络任务（信息检索） | 214个任务的基准测试，涉及现实且耗时的网络任务（多页/网页导航问题），旨在评估网络代理自主解决真实用户场景的能力。 |
| VisualWebArena [136] | 现实的基于视觉的网络任务 | 大型基于视觉的网络任务套件（数百个真实的自托管场景），用于评估多模态网络代理在图像+文本感知和网络交互技能方面的表现。 |
| MLAgentBench [124] | 机器学习实验任务 | 一套13个机器学习实验任务，评估代理运行实验、修改代码和迭代改进ML模型的能力。 |
| Can-Graph [149] | 任务规划 | 引入一个基准测试，以测试图结构化推理是否可以增强基于LLM的代理在多步骤任务中的规划和决策能力。 |
| SocialBench [143] | 社交性评估（个体和群体）、多选题、开放领域生成问题 | 通过结构化多角色社交互动场景评估对话代理的社交智能和角色扮演能力。 |
| Core-Bench [140] | 计算能力、代码和结果的可重复性 | 通过基准测试尝试重现已发表实验的代理来评估AI研究的计算可重复性。 |
| PaperBench [141] | 复制AI研究论文、理解论文贡献、开发代码库、执行实验 | 基于AI系统的基准测试，评估其复制现有AI研究的方法论和结果的能力。 |
| API-Bank [142] | 规划API调用、检索API、调用API | 为增强型LLM提供的大规模基准测试，评估其有效调用和协调多个真实世界API的能力。 |
| MMINA [137] | 多跳多模态互联网任务（例如购物、旅行、活动规划） | 基于多跳推理任务的多模态互联网代理基准测试，涉及文本、图片和基于网络的信息检索。 |
| WebCanvas [135] | 动态网络任务 | 测试网络代理在具有交互式动态网页的真实浏览器环境中执行任务的能力。 |
| BrowserGym [134] | 高效多任务处理、烹饪、家务活动、实验室工作 | 提供统一的开放生态系统，用于在受控浏览器模拟环境下训练和基准测试网络代理。 |
| TimeArena [144] | Android操作系统上的日常任务、跨应用协作 | 在时间受限的模拟环境中评估多任务处理LLM代理的效率、优先级和调度能力。 |
| Android Environment Benchmark [150] | Android操作系统上的日常任务、跨应用协作 | 分析LLM代理在复杂Android操作系统环境中的弱点，重点关注鲁棒性、适应性和任务成功率。 |
| Sotopia [151] | 开放式社交互动、社会目标驱动行为（合作、竞争和混合） | 提供交互式基准测试，用于评估语言代理在多代理社交模拟中的社交智能和合作技能。 |

*对于大多数基准测试，数据集名称与基准测试名称相同，因此未创建额外的列。基准测试及其评估指标的描述。

**来源**

| 评估指标 | 描述 | 阶段 |
| -------- | -------- | ------------------------- |
| ToolBench [115] | 参数准确性 | 使用工具时API调用参数的正确性 |
| Tool Execution Success | 成功执行工具的比率 | 无错误地成功执行工具的比率 |
| Tool Selection Accuracy | 工具选择准确性 | 为给定任务选择合适工具的准确性 |
| ST-Web AgentBench [133] | 政策下完成（CuP） | 同时完成任务并遵守所有政策约束的比率 |
| Risk Ratio | 风险比率 | 在安全性和可信度维度上量化政策违规情况 |
| AgentBench [68] | 成功率 | 八种环境下的主要指标；代理完成任务的目标百分比 |
| Win rate / Reward score | 胜率/奖励分数 | 在数字卡片游戏中，计算获胜轮次、总轮次、胜率和伤害率，然后计算最终奖励分数 |
| Answer F1 | 答案F1 | 对于知识图谱查询，计算代理预测的答案集与真实答案之间的F1分数 |
| Action F1 | 操作F1 | 在网页浏览任务中，比较预测操作与真实操作之间的标记级F1分数；用作微观级指标 |
| Step success rate | 步骤成功率 | 代理选择正确元素和操作的步骤比率 |
| Task success rate | 任务成功率 | 仅当链条中的所有步骤都正确时，任务才算成功；由于难度，AgentBench通常报告步骤成功率 |
| Progress (lateral puzzles) | 进度（横向谜题） | 代理在允许的轮次内未能解决谜题时猜测出的子弹部分 |

**第二阶段：过程执行与推理**

| PlanBench [155] | 成功率 | 测量生成的计划完全正确的规划任务比例（例如，GPT-4解决了26/600个欺骗性Blocksworld实例） |
| Partial correctness | 部分正确性 | 当不是所有前提条件/效果都满足时，为部分正确的计划提供credit |
| TRAIL [120] | 错误检测率 | 在多步骤代理工作流中正确识别错误的比率 |
| Joint Accuracy | 联合准确性 | 在代理跟踪中识别错误类别和位置的准确性 |
| SWE-PolyBench [165] | 文件级定位 | 识别需要修改的正确文件的准确性 |
| CST Node-level Retrieval | CST节点级检索 | 定位需要更改的特定代码结构的精度 |
| SWEET-RL | 转轮优势 | 在多轮互动中测量每个决策的质量优势分数 |
| Win Rate | 胜率 | 在人机协作任务完成中首选响应的比率 |
| Adaptive Monitoring [46] | 自适应多维评分 | 使用指数加权移动平均值跨维度计算的综合分数 |
| Harm Reduction Score | 损害降低分数 | 量化代理最小化潜在负面结果的能力 |
| Goal Drift | 目标偏移 | 测量代理随时间偏离预期目标的程度 |

**第三阶段：输出生成与任务完成**

| GAIA [145] | 准确匹配 | 通过规范化预测答案并检查与真实答案的完全相等性来自动评估答案；确保快速、事实性的评分 |
| ALFWorld [131] | 进度率 | 未实现完全任务成功时的部分完成率 |
| WebArena VisualArena [94], [136] | 精确匹配 | 如果代理的答案字符串与真实答案完全相等，则返回1的文本评估函数 |
| Must include | 必须包含 | 检查生成的响应是否包含所需的关键词或短语；部分匹配获得正向奖励 |
| Must exclude | 必须排除 | 如果输出中缺少特定不需要的字符串，则奖励代理 |
| Fuzzy match | 模糊匹配 | 使用LLM判断代理输出与真实答案之间的语义等价性；当答案接近时获得二元奖励 |
| eval_vqa | 对于视觉任务，使用视觉语言模型查询问题，并在返回的答案包含真实答案时奖励1 |
| eval fuzzy image match | 模糊图像匹配 | 使用结构相似性（SSIM）比较图像，以评估代理是否生成了正确的图像 |
| Task success rate | 任务成功率 | 在所有类别中成功完成的任务的总体百分比；来自WebArena/VisualWebArena的任务奖励 |
| FieldWork Arena [121] | 正确性分数 | 每个响应被标记为正确、错误或部分正确；部分答案获得0到1之间的分数，表示一致性程度 |
| Weighted accuracy | 加权准确性 | 作为正确性分数和连续数值分数的加权平均值计算出的最终准确性；改进了现实世界任务的模糊匹配 |
| Mind2Web [132] | 元素准确性 | 选择正确网页元素进行交互的准确性 |
| Operation F1 | 操作F1 | 对网页元素进行正确操作预测的F1分数 |
| Mind2Web2 [166] | 部分完成 | 测量部分任务完成的平均根分数 |
| Agent-as-a-Judge Score | 代理作为法官的评分 | 使用树结构评分标准的基于LLM的评估分数 |
| SWE-Bench | Resolved Rate | 通过测试成功解决的GitHub问题的百分比 |
| HotPotQA [167] | 多跳F1 | 用于问答中多步骤推理链的F1分数 |
| Supporting Fact F1 | 支持事实F1 | 用于识别推理步骤中相关支持事实的F1分数 |
| WebShop [93] | 属性F1 | 正确识别所需产品属性的F1分数 |
| Task Success Rate | 任务成功率 | 完成真实在线购物任务的比率 |
| WebMall [168] | 价格比较准确性 | 识别不同在线商店中最佳价格的准确性 |
| Cross-Shop Success Rate | 跨多个电子商务网站导航任务的成功率 |
| SUPER [156] | 准确性 | 最终输出（数值或文本）与黄金解决方案完全匹配的任务比例 |
| Landmark metric | 地标指标 | 即使最终答案错误，当代理达到中间“地标”状态（例如完成训练）时也给予部分学分 |
| Script-Executed metric | 脚本执行指标 | 对于没有黄金解决方案的任务的代理；如果提供的脚本在最小持续时间内无异常运行，则任务算成功 |
| MINT [146] | 成功率 | 在固定交互限制下成功完成的任务百分比 |
| Improvement rate | 改进率 | 通过将成功率与允许的交互轮次数进行回归得到的斜率；量化额外轮次如何提高性能 |
| MLE-Bench [123] | 奖牌率 | 代理根据Kaggle排行榜获得青铜/银/金牌的比例；主要指标是获得任何奖牌的尝试比例 |
| Raw competition scores | 原始竞赛分数 | 报告代理在每个竞赛自身指标（例如AUROC、F1、RMSE）上的分数，以便在不同任务之间进行公平比较 |
| Pass@k | 当代理被给予多次尝试时测量成功；pass@k改进量化了重复尝试的可靠性 |

**第四阶段：影响、治理与人类对齐**

| Rise of Agentic AI | 代理AI的兴起 | 定性指标，评估代理的推理步骤是否可理解；通过自我反思或跨代理反思对基础模型进行评估 |
| Transparency | 透明度 | 代理的内部决策过程对检查的开放程度；通过用户友好度或外部审计进行评估 |
| User satisfaction | 用户满意度 | 测量系统满足用户偏好程度；通过用户评分或净推广得分进行评估 |
| Fairness / Bias mitigation | 公平性/偏见缓解 | 用于检测和减少代理输出中的人口统计偏见的指标和技术 |
| Cooperative behavior | 协作行为 | 评估多个代理如何协作和协调以实现共同目标 |
| Robustness | 鲁棒性 | 评估代理在内部故障或对抗性输入下保持性能的能力；例如，对编码代理进行沙盒执行和回滚 |
| Accuracy / Precision / Recall / F1 score | 标准分类指标，用于量化代理输出的正确性 |
| Graph Edit Distance (GED) | 图表编辑距离 | 测量代理生成的任务图与真实答案之间的结构相似性；较低的GED表示更接近的对齐 |
| Rule fidelity | 规则忠实度 | 评估代理学习的符号规则与实际决策过程的准确匹配程度 |
| Task completion time (TCT) | 任务完成时间 | 代理计划和执行任务所花费的时间，提供操作效率指标 |
| Click-through rate (CTR) / Gross Merchandise Value (GMV) | 应用特定指标，测量用户参与度（CTR）和代理推荐的货币影响（GMV） |
| MLAgent Bench [124] | 成功率 | 代理在基线上将任务特定性能指标（例如测试准确性）提高≥10%的运行百分比 |
| Average Improvement | 平均相对改进 | 在基线上下游指标（例如准确性）的相对改进 |
| Wall-clock time | 壁钟时间 | 代理完成运行所花费的时间；用于测量效率 |
| Token Usage | 令牌使用 | 代理使用的输入和输出令牌数量，另一个效率指标 |
| τ-Bench [119] | 有状态评估/政策遵守 | 将任务后的最终数据库状态与预期结果进行比较，以确定代理是否实现了目标（无需人类或LLM法官） |
| PasskReliability | 可靠性指标 | 测量相同任务在k次独立试验中成功完成的频率；突出运行之间的一致性 |
| ToolLLM [88] | 通过率 | 自动评估器根据指令是否可解决以及代理是否检索到正确信息，将每个工具使用解决方案路径标记为通过、失败或不确定；通过率是通过解决方案的比例 |
| Pairwise comparison metric | 成对比较指标 | 根据信息丰富度、事实性、推理质量、里程碑、探索和成本对两种解决方案路径进行判断；多数投票在ChatGPT评估中确定哪个路径胜出 |
| ScaleAI ToolComp [169] | LLM评分 | 使用GPT-4法官将代理的最终答案与真实答案进行比较，将其分类为正确、格式错误正确的或错误；两个正确类别都算作胜利 |
| Exact match | 精确匹配 | 程序化检查排序和未排序的列表、数字（在容忍范围内）以及最终答案中的字符串，以确保与真实答案完全相等 |
| Process supervision score | 过程监督分数 | 评估代理如何对人类纠正的步骤进行排名；每次评估 renders 0表示损失，0.5表示平局，1表示胜利 |
| IBM WatsonX [125] | 任务成功率/完成率 | 代理成功完成的任务比例（标准任务级性能） |
| Average steps / action count | 平均步骤/操作次数 | 完成任务所需的平均操作次数（效率） |
| Latency / response time | 延迟/响应时间 | 请求与代理最终行动或决策之间的时间（响应性） |
| Policy-compliance / safety score | 政策遵守/安全分数 | 评估代理行动遵守配置的安全/政策检查的频率（风险控制） |
| Risk / severity score | 风险/严重性分数 | 代理行为产生的潜在危害/违规的聚合指标 |

**3.4. 代理AI中的评估方法**

当前的代理评估方法借鉴了来自相邻领域（如NLP（准确性、BLEU、困惑度）[122]、强化学习（RL）（奖励、成功率）和多模态推理（VQA准确性、grounding IoU）[42]）的指标。虽然这些方法提供了部分洞察，但它们仍然分散且未能捕捉到在多个组件和模态中操作的代理系统的整体性能。评估代理AI系统需要精确和多标准的指标，这些指标不仅捕捉任务成功，还捕捉效率、可靠性和与人类价值观的对齐。核心指标如成功率和准确性量化了代理实现定义目标的能力，形成了能力的基线。Pass@k [123] 和 policy-adherence [119] 指标通过评估代理在重复试验或有状态环境中的连续性和规则遵循行为来扩展这一点。面向效率的指标如令牌使用 [124] 和延迟 [125] 评估代理如何有效利用计算资源并在实时约束下响应。最后，新兴的以人为中心的维度，如可解释性和公平性 [42]，反映了人们对透明度、安全性和自主系统社会对齐的日益重视。关于代理AI系统评估的更多细节在§5和§6以及表5和表6中给出。

**4. 代理AI系统的评估框架**

我们提出了一个全面的代理AI系统评估框架，如图8所示。该框架逻辑上分为四个部分，每个部分旨在评估代理AI系统的特定方面。为了明确关键术语，我们建议读者参考词汇表（表3）。

**下载：** 下载高分辨率图片（989KB）
**下载：** 下载全尺寸图片
**图8. 具有污染和基准测试弹性的代理AI系统统一评估框架。**

**与以往框架的区别**

以往的调查沿单一轴进行评估：基准测试 [1]、[43]、架构可信度 [49]、[50] 或社会和工业影响 [51]、[52]、[53]。现有的评估流程（如HAL [126]）在固定框架下报告性能，但既不审计记忆风险也不评估代理游戏中的中间行为。以可信度为导向的评估（如 [50]）定性处理安全性，而没有与监管标准的操作对齐。据我们所知，没有现有的框架将生命周期意识代理评估、对污染的结构韧性和基准测试游戏以及监管合规性整合在一个可执行的协议中。我们的框架在四个具体和可验证的方面不同于以往的工作：
1. **基准测试有效性审计（第二阶段）**：按来源、时间保留、环境隔离和经验记忆限制对每个基准测试进行四标准分类。没有先前的代理评估调查将此审计作为得分报告的先决条件。
2. **游戏检测层（第三阶段）**：一种结构性的而非事后的防御，结合了中间检查点验证、双重自动化-人类评分和扰动一致性测试。这直接关闭了单一得分排行榜无法检测的奖励黑客攻击、评估器利用和捷径学习漏洞。
3. **污染调整后的评分**：原始性能按基准测试有效性类别进行缩放，产生可解释的能力估计，而不是可能膨胀的绝对分数。这种解释层目前缺乏在代理排行榜中。
4. **有效性合规性作为正式SLO（第四阶段）**：将污染审计和游戏抵抗验证从可选考虑提升为与NIST AI RMF [127] 和ISO/IEC 42001 [128] 对齐的治理级义务，操作上弥合了技术评估和监管责任之间的差距，这是先前调查中明确指出但未被解决的差距。

综上所述，这些元素将提案从一个描述性分类或单轴评估流程转变为一个可部署、可审计的协议。这是我们要求读者与表1中总结的工作进行权衡的贡献。

**代理类型识别**

评估的第一阶段是代理类型识别。正如我们在3.1节中讨论的，最受欢迎的代理类型类别包括检索生成器、工具调用、计划和自主代理。这些广泛的类别通常可以代表任何通用代理。尽管如此，特定代理不一定仅限于一种类型。代理可能结合不同类型，例如，航空公司推荐代理可能包括检索生成器、计划和工具调用子代理。

**任务和环境**

在代理类型识别之后是对代理的任务和环境的评估。一系列公开可用的基准测试适合这一类别。第5节提供了关于代理AI系统评估的全面讨论。关于代理环境，如果为不同类型的代理提供变化的环境测试平台，它们可能会报告不同的性能。整体代理排行榜（HAL）[126] 报告了主要代理系统在特定环境（称为支架）中的性能。不同的代理AI支架可能会影响代理系统的性能评估。因此，环境的一致性对于有效的代理系统评估至关重要。除了环境一致性之外，还必须在使用基准之前确认基准本身的有效性。据此，这一阶段包括一个包含四个标准的基准有效性审计：1. 来源：任务描述是否来自模型预训练语料库中可能存在的来源。2. 时间隔离：任务实例是否晚于模型的训练截止日期。3. 环境隔离：测试环境是私下托管的，还是来自具有最小网络存在的专有来源。4. 经验边界：是否进行了零样本探测实验以估计记忆驱动性能的上限。根据这些标准，每个基准都被赋予高、中或易受污染的有效性分类。这一分类会影响到所有后续的性能报告。

在下一个阶段，使用与代理流程相关的指标来评估流程的每个子阶段。这是在仪器化和跟踪阶段完成的。此时可以测量代理AI完成任务的整体能力。代理AI系统的整体任务成功依赖于一系列中间决策。这些中间步骤中的表现不佳会降低整个代理的性能，如图3所示。第6节提供了这种评估的全面指标。代理AI系统的整体成功是这些小规模、原子级任务中代理微成功的累积结果。这种多层次的仪器化理念也构成了防止基准攻击的结构性防御。因此，该框架在此阶段包含一个游戏检测层，包括三种机制：1. 中间检查点：验证代理流程中的每个子目标是否真正得到满足，通过实现最终成功条件而不完成中间步骤来关闭奖励作弊的漏洞。2. 双重评估协议：结合自动化指标评分和对随机样本轨迹的分层人工抽查验证，以检测评估者利用的情况，即代理满足自动化检查条件而没有完成任务的情况。3. 扰动一致性测试：在受控的任务扰动（对象位置排列、描述改写、环境结构修改）下评估代理，以揭露通过记忆结构规律而非真正推理获得的高分情况。

除了现有的指标外，这一阶段还报告了一个经污染调整后的分数，通过基准的有效性分类对原始性能进行缩放，以得出可解释的能力估计。

评估的最后一个阶段与治理相关。该阶段检查代理是否符合安全和风险的全局标准。服务水平目标（SLOs）决定了代理AI系统被视为成功必须遵守的标准。像ISO和NIST这样的监管组织已经引入了全面的AI法规标准[127]、[128]、[129]，以确保技术的安全传播。还有定性指标，为AI系统提供更细粒度的监管。关于代理系统的一致性和监管的详细信息可以在第7节找到。根据NIST AI RMF [127] 和 ISO/IEC 42001 [128] 的数据治理规定，该框架将基准污染审计和抗游戏性验证视为SLO级别的正式有效性合规义务。具体来说，在此框架下进行的任何评估必须满足以下有效性SLOs：1. 每个使用的基准都必须带有来自第2阶段的污染有效性分类。2. 评估必须至少包括第3阶段指定的中间检查点仪器化和人工抽查协议。3. 所有报告的性能声明都必须标注其污染有效性类别、抗游戏性状态以及相应的分数解释说明，以便读者和实践者能够正确地将分数解读为无偏的能力估计或经污染调整后的上限。

在整个评估阶段，代理AI系统的数据集、指标和案例研究都持续受到监控和评估。评估代理AI系统的框架在算法1中组成如下实验协议。

5. 用于代理AI的基准和数据集
我们区分了三种用于评估自主LLM代理的工件类型：(i) 交互式环境/基准（代理在其中行动的模拟或真实系统），(ii) 用于训练和离线评估的静态数据集（日志、轨迹、工具调用跟踪），以及 (iii) 调度跨工具或环境的多步骤任务的任务套件/包装器。基准提供了可控但多样化的设置，以测量代理如何感知、推理、计划和行动。通过一致的指标——任务成功、长期效率、工具使用可靠性、记忆保持和安全性——基准将代理能力转化为可比较、可复制的指标，适用于不同的提示、架构和工具使用范式。为了明确关键术语，我们建议读者参考词汇表（表3）。

基准的重要性在于它们作为统一框架的角色，这些框架指导了可复制的评估并加速了通用代理系统的进化。例如，AgentBench [68] 引入了一个多环境测试平台，用于评估开放式数字任务中的推理和决策制定，而WebArena [94] 则专注于现实的目标驱动的网络交互。同样，AgentBoard [130] 提供了结构化的评估流程，捕捉代理的认知、推理和社会维度。如表5所总结的，最新的基准（2023-2025年）正在开发中，用于评估在不同的发展中的真实世界和模拟环境中如何测量、比较和改进代理能力。图9还展示了这些基准的广泛分类，我们在下面进行了讨论。

多域代理基准测试代理在多样化环境中的多功能性、适应性和推理一致性。这些基准在一个统一的框架内评估代理在各种交互环境和任务类型中的感知、推理和行动能力。AgentBench是一个全面的基准，包含8个交互环境，用于评估作为代理的LLMs [68]。它涵盖了新的领域，如操作系统控制、数据库查询、知识图谱、数字卡片游戏，以及从先前数据集改编的任务（例如ALFWorld用于家务任务 [131]、WebShop用于网络购物 [93]、Mind2Web用于网络浏览 [132]）。这为多轮推理、工具使用和跨不同场景的决策制定提供了标准化的测试平台。

总的来说，这些基准主要评估泛化和多功能性，评估单个代理架构是否可以在不需要针对特定任务的微调的情况下适应异构环境（例如操作系统、数据库、游戏）。然而，它们的主要局限性在于深度与广度的权衡。为了覆盖广泛的领域，个别环境往往被简化或游戏化，缺乏完全集成真实世界工作流程中的噪声、模糊性和随机性。

网络交互环境评估代理在基于网络或GUI驱动的生态系统中的导航和行动能力，复制了真实世界中的人机交互 [133]。这些基准衡量界面理解、顺序推理和自主完成复杂网络任务的能力。这些基准属于模拟或真实的数字平台，评估代理在基于网络或GUI的界面中感知、导航和执行特定任务的能力。专门的基准评估代理浏览网站和GUI应用程序的能力。例如，BrowserGym和WebArena测试一般的网络导航 [94]、[134]，而WebCanvas增加了GUI交互 [135]。VisualWebArena [136] 和 MMInA [137] 引入了多模态网络任务（结合文本和图像）。AssistantBench套件针对现实的长期网络任务（如复杂的、耗时的在线活动）来评估在真实世界条件下的任务完成情况 [138]。

这些环境主要评估的基础能力和DOM遍历能力，特别是代理将高级自然语言目标映射到具体的HTML/GUI动作（如点击和打字）的能力，同时视觉解析复杂的页面结构。然而，一个关键的限制是环境的脆弱性。这些基准对UI更新（例如更改HTML ID）非常敏感，使得纵向比较变得困难。此外，静态模拟的网络快照往往无法捕捉到实时网络中的动态内容加载和状态变化。

代码和研究任务衡量代理在编码、调试以及进行科学推理或自动化工作流方面的能力。这些基准测试逻辑规划、问题解决以及与软件工具或研究流程接口的能力。几个数据集针对编码和科学领域的规划/执行。SWE-Bench [139] 包括解决GitHub问题的软件工程任务，而ScienceAgentBench [118] 专注于自动化科学数据分析和编程。对于研究辅助，CORE-Bench [140] 和 PaperBench [141] 挑战代理复现或总结学术结果（例如阅读论文、运行实验）。AppWorld [95] 在应用程序界面内提供交互式编码任务，测试代理与软件工具的集成能力。

编码基准可以进一步扩展到工具使用评估。工具使用基准评估函数调用和API集成。FlowBench [75]、ToolBench [91] 和 API-Bank [142] 是需要外部函数调用和API调用的任务集合。例如，ToolBench 包含一个包含16,000个真实世界API的指令调优数据集和自动化的ToolEval，用于测量成功率和解决方案质量。这些基准通常提供真实的工具调用序列和预期参数，使得能够详细评估代理是否选择了正确的工具和输入。

这些基准侧重于评估形式逻辑和API遵守情况，测试代理在确定性环境中对语法、参数约束和因果推理的严格合规性，其中执行要么编译要么失败。这一领域的主要瓶颈是沙盒化的成本。评估执行需要安全、隔离的容器，这些容器在规模上编排起来计算成本很高。此外，许多编码任务存在潜在的数据污染，因为代理可能在预训练期间记住了标准的GitHub仓库或API文档。

记忆和长期任务评估代理在长时间或顺序交互中保持连续性、回忆力和战略上下文的能力。它们强调时间推理、上下文保持和在不同场景中的状态管理。为了评估代理的记忆和上下文保持能力，像SocialBench [143] 这样的基准使用扩展对话（40多轮），其中代理随后必须回答问题，需要回忆早期对话的细节。另一个例子是TIME-Arena [144]，这是一个基于文本的模拟，具有时间敏感的多任务处理（例如管理烹饪和家务任务），强调时间推理。同样，AndroidArena [150] 提供了一个模拟的移动操作系统环境，用于测试在多个应用程序中的长期任务执行，带有用户约束。在这些基准上的成功表明代理能够在长时间交互中保持状态。

这一类评估旨在评估状态保持和时间连贯性，测试代理在数百次交互中保持一致的“自我”并检索相关历史上下文的能力。这里的主要限制是上下文饱和。性能经常受到底层LLM的上下文窗口限制和“迷失在中间”现象的阻碍，使得很难区分真正的推理失败和模型架构固有的简单检索失败。

多代理和社会模拟基准评估多个代理在共享或协作环境中的协调、沟通和展示社交智能的能力。这些基准评估协作动态、新兴行为和集体决策。SOTOPIA [151] 平台（2024年）创建了由LLM驱动的代理组成的“社会”，这些代理学习并社会互动；它附带了一个评估套件（SOTOPIA-Eval），使用人类和LLM裁判来评估结果，如集体目标完成和代理在社交角色中的可信度 [143]。其他工作通过在MMLU（语言理解）、MATH等领域让多个代理完成任务来测试新兴的合作和沟通，甚至玩象棋和囚徒困境[102]等游戏 [152]。指标包括代理团队是否优于单独行动的代理，以及他们是否表现出类似人类的行为（例如形成共识或信任）。

这些基准评估的核心能力是心智理论和协调能力，特别是模拟其他代理的信念、协商和协作分解任务的能力。这一领域的一个重大挑战是信用分配问题，确定哪个特定代理导致了复杂群体动态中的失败在数学上很困难。此外，多代理模拟由于持续的代理间通信而产生指数级的标记成本，往往使得大规模评估在经济上变得不切实际。

安全和鲁棒性基准测试代理在面对对抗性、不安全或操纵性场景时的适应性和道德对齐程度。这些基准专注于识别自主系统中的漏洞、失败模式和对齐风险。一些数据集专门测试风险或对抗性场景。AgentHarm [62] 评估了代理在接收到不安全提示时产生有害或有毒输出的概率 [43]。AgentDojo [63] 通过模拟恶意输入来测试代理对提示注入和越狱攻击的抵御能力，看代理是否会被操控。这些基准测试用于审核安全性。它们通过关注故障模式和压力下的对齐情况来补充通用基准测试。这些基准测试主要评估策略遵从性和弹性，衡量代理拒绝有害指令的能力（拒绝率）以及检测对抗性操控（如提示注入）的能力，同时不损害良性的任务表现。一个关键限制是它们依赖于静态威胁模型。针对适应性强的对手，攻击库很快就会过时。此外，当前的指标难以量化“对齐税”，即确保人工智能系统对齐所需的额外成本，这可能导致由于过于敏感的安全过滤器而降低系统的实用性。

6. 代理式AI系统的评估指标
研究人员使用定量和定性指标来评估自主大语言模型（LLM）代理的性能、安全性和可靠性。定量指标提供了代理效率、准确性或一致性的客观数值度量，例如在AgentBench [68] 和MLAgentBench [124] 等基准测试中的成功率、F1分数、墙钟时间或令牌使用量。这些指标捕捉了任务完成和资源利用的可测量方面。为了明确关键术语，我们建议读者参考术语表（表3）。

相比之下，定性指标捕捉了代理行为的主观或解释性维度，如可解释性、透明度、用户满意度或公平性 [54], [153]，通过人类判断、反思或审计进行评估。这些互补的方法共同提供了对代理在复杂现实环境中表现如何以及其行为是否负责任的全面评估 [154]。表6和图10中的评估指标分类图展示了定性和定量评估指标的详细分类及其对应的基准测试来源。

下载：下载高分辨率图像（2MB）
下载：下载全尺寸图像

图10. 代理生命周期及其每个步骤的指标分类

任务成功率和目标完成率指标衡量代理是否有效地实现了分配的目标，这是性能的最基本指标。它衡量代理在不同运行或环境中实现预期结果的一致性。这通常以每次任务的成功率或任务目标完成分数来报告。许多评估使用二进制成功指标（如果代理的行为满足了目标则为1，否则为0）或奖励函数来标记目标是否达成。对于概率型代理，像Pass@N这样的变体衡量了N次尝试中的成功概率。例如，一个代理可能需要多次尝试来解决一个问题，Pass@5则表示它在至少五次尝试中有一次成功的比例。AgentBench [68] 中的任务成功率、MINT [146] 中的成功率以及PlanBench [155] 中的成功率是用于量化任务完成性能的代表性示例。

输出质量（准确性和连贯性）维度评估代理的输出在正确性、连贯性和上下文相关性方面的表现，而不仅仅是任务的成功。它关注内容的事实准确性、流畅性和逻辑合理性，以反映用户感知的质量 [94], [136], [156]。这一指标包括传统的自然语言处理（NLP）指标：生成内容的准确性和相关性、语言的清晰/流畅性以及所提供的推理的逻辑一致性。代理可能完成任务，但仍产生令人困惑或次优的解决方案 [121]，因此这些指标反映了用户体验。例如，在对话代理中，可以评估响应的流畅性和代理解释或步骤的逻辑一致性。如果代理使用外部工具或知识库，则适用标准的检索增强指标：例如，事实正确性（答案是否与验证信息一致）以及响应与查询的上下文相关性。通常，在自动指标（如BLEU或ROUGE）不足时，会使用人类评估者或基于LLM的裁判来定性评估输出，例如在用户研究中对两个代理的解决方案进行正确性或偏好排序。SUPER [156] 中的准确性、AgentBench [68] 中的Answer F1和FieldWorkArena [121] 中的正确性分数就是这一维度的例子。

效率（延迟和成本）衡量代理快速达成目标的能力，并以最小的计算或财务成本 [130]。它反映了系统的响应性和资源优化，这两者对于实际部署至关重要。对于交互式代理来说，延迟非常关键。研究人员使用首次收到模型输出所需的时间（TTFT3）这一指标来衡量。这是从提交问题到收到第一个令牌所需的时间（如果响应不为空）。在代理式AI环境中，它衡量代理开始响应的速度，特别是在流式交互中。端到端延迟 [157]（完成任务的总时间）是另一个重要的指标，如果代理执行了长的工具使用序列或多步骤计划。成本是另一个实用指标：许多LLM代理通过API调用运行，因此可以通过计算令牌或工具调用次数来估计货币成本 [158]。一些工作报告了每个任务的平均模型查询次数或消耗的令牌数，因为以较少调用次数解决问题的代理在实际部署中更高效。总之，吞吐量和资源使用指标有助于确定代理不仅有效，而且可以在大规模上实际部署。例如MLAgentBench [124] 中的墙钟时间和令牌使用量以及IBM WatsonX [125] 中的延迟/响应时间。

工具使用准确性评估代理对外部工具或API使用的精确度和适当性。由于工具使用是任何代理式AI系统的核心，专门的指标评估该过程的每个方面。在工具使用背景下的评估指标通常回答诸如“代理是否在需要时选择了正确的工具？它是否正确使用了工具？”等问题。指标包括调用准确性，即代理是否正确判断是否需要以及何时需要工具/API调用 [159]，以及工具选择准确性 [116]，即它是否从可用工具集中选择了合适的工具。在代理必须从大型工具包或插件库中选择的情境下也是如此。

检索准确性是另一个衡量标准——一个排名指标 [160]（例如，平均倒数排名或NDCG），用于给定查询的目标工具。在选择工具后，代理必须为API调用生成正确的参数。在这里，评估者使用参数名称F1分数（代理是否提供了所有必需的参数？）和参数准确性等指标。例如，如果代理调用函数book_flight(destination, date)，它应提供正确格式的目的地和日期，缺少或错误的字段会降低F1分数。接下来的评估是基于执行的，其中代理的工具调用实际上在沙箱中运行，并检查结果是否正确。这可以捕捉到仅靠语法检查会忽略的语义错误（调用运行但产生错误结果）。代表性的指标包括Parameter Accuracy、Tool Execution Success 和 Tool Selection Accuracy（来自ToolBench [115]）以及Pass Rate（来自ToolLLM [88]）。

规划和推理衡量代理决策过程中的逻辑结构和多步骤推理的质量。这显示了代理计划的质量，而不仅仅是最终结果（成功或失败）。为了评估规划质量，研究人员将代理的动作序列与专家或参考计划进行比较 [161]。一种方法是将理想计划表示为图（节点 = 动作/工具，边 = 顺序/依赖关系）。然后他们计算Node F1（代理是否包含了正确的动作？）和Edge F1（它是否按正确的顺序执行了这些动作？）[149]。高Node F1但低Edge F1意味着代理选择了大部分相关的步骤，但顺序错误。

类似地，代理动作序列与最优序列之间的标准化编辑距离 [162] 可以指示规划效率。另一个指标是Step Success Rate [68], [124]，即代理的有效动作或更接近目标的动作的百分比。例如，在烹饪任务中，每个正确执行的步骤都会计入步骤成功率 [87]。这些指标常用于ScienceWorld [118] 或ALFRED [131] 等基准测试中，关注代理的推理忠实度，而不仅仅是最终答案。

记忆和长期一致性衡量代理是否能够在长时间互动中保留并适当使用历史上下文。持续的上下文理解对于现实部署至关重要。对于长期运行的代理，一个重要的评估是系统是否记得并利用之前的上下文。在像SocialBench [143] 这样的长对话测试中，经过40轮对话后，可能会就第5轮的内容提问代理，高分意味着它保留了该细节并做出了正确的回答。这里的指标包括信息保留准确性（代理是否回忆起了之前的事实或决策？）和上下文利用（代理的行为是否与之前的状态一致？）。例如，带有用户档案的代理不应与用户之前提供的事实相矛盾。一些工作还跟踪记忆占用（代理需要存储信息所需的上下文窗口或外部内存量）以及它是否能在需要时检索相关记忆。本质上，这些测试确保代理能够处理长生命周期的依赖关系而不忘记或重复错误。τ-Bench [119] 中的Stateful Evaluation指标和Adaptive Monitoring [46] 中的Goal Drift score都是这一类别的示例，通过量化随时间的一致性来体现。

多代理协作指标衡量代理之间或代理与人类之间的协调、沟通和合作的有效性。当多个代理一起工作或代理与人类互动时，评估必须捕捉协调和社会动态。常见指标包括团队成功率（团队是否实现了目标，例如赢得游戏或完成任务，这与单个代理相比如何？）[68], [130]。对于协作场景，还会测量完成时间或效率（例如，两个代理解决谜题的速度是否比单个代理快）[125], [146]。

在定性上，研究人员观察代理是否发展出沟通协议或表现出角色专业化。一些研究使用人类裁判或LLM批评者来评估代理之间的对话是否符合连贯性、说服力或预期的人类规范 [41], [163]。还有一些针对特定社会现象的指标，如测量一致性 [164]（如果同伴不同意，代理是否会改变其正确答案？）、信任（在经济游戏中，代理是否表现出类似于人类的信任和互惠？）或共识建立（一组代理达到共识的频率）。尽管这些评估有时具有领域特定性，但随着代理与人类或其他代理合作变得重要。合作评估在SWEET-RL [147] 中表现为Win Rate。

在多代理生态系统中，代理间的通信成为主要的计算成本，往往超过了任务本身的成本。为了解决这个问题，我们引入了三个可计算的维度来评估协作效率。

通信开销（CO）：
设Mcomm表示在任务期间代理间协调消息中交换的总令牌数，Mtask表示在直接任务执行动作中消耗的令牌数（工具调用、环境交互和最终输出）。通信开销定义为：
(1) CO = Mcomm + Mtask ∈ [0,1]
CO值为1表示代理在同步上花费了过多的资源，而不是解决问题。实际上，Mcomm是通过在代理轨迹日志中标记每个令牌的来源消息类型（协调 vs. 执行）来测量的。

协调与执行比率（CER）：
设Dplan表示被分类为协调的对话轮数（谈判、角色分配、共识建立），Dexec表示涉及直接环境动作的轮数。该比率为：
(2) CER = Dplan / Dexec
CER远大于1表示代理在达成共识方面存在低效的闲聊或谈判循环 [170]。轮次分类可以通过将动作与预定义的动作类型本体（例如CoordINATE vs. ACT）进行标记，或者通过轻量级分类器对轮次内容进行自动化。

上下文饱和度（CS）：
设P(t)表示交互步骤t时共享的提示大小，Wmax表示模型的最大上下文窗口。步骤t的上下文饱和度为：
(3) CS(t) = P(t) / Wmax ∈ [0,1]
饱和点t*定义为：
(4) t* = min{t: CS(t) ≥ θ}
其中θ是一个特定于部署的阈值（保守的默认值为θ=0.80，超过这个阈值“中间丢失”现象会变得明显 [171]监控相对于预期任务范围的结果可以为多智能体协调中的上下文耗尽和角色混淆提供早期预警信号。在生产环境中，识别临界点——即CO和CER超过部署预算，或者在任务完成前CS(t)接近θ——对于经济可行性和可靠的智能体协调至关重要。鲁棒性和可靠性指标用于评估智能体在受到干扰或重复试验时的行为稳定性和一致性。自主性要求在不同条件下仍能保持可靠性。一致性[119]是一种检查方法，用于判断智能体在相同输入或任务下多次运行时是否产生相同结果。鉴于大型语言模型（LLMs）[111]的随机性质，相同的查询可能会产生不同的答案，因此研究人员量化这种差异。一个一致的智能体更可预测且值得信赖。鲁棒性评估包括引入干扰，例如重新表述请求、添加无关数据或更改环境变量，然后观察智能体的表现是否仍然稳定[133]、[164]。如果微小变化会导致成功率大幅下降，则该智能体被认为是脆弱的。一些对抗性评估会故意提供棘手或误导性的输入，以查看智能体是否能够避免陷阱。在这种干扰下的性能下降程度是衡量鲁棒性的关键指标。此外，对于长时间运行的智能体，研究人员还会关注错误积累[120]，即智能体是否能从错误中恢复，还是错误会随着时间累积。总之，这些指标旨在确保智能体在非理想情况下的行为稳定且可预测。一个典型的例子是Passk来自τ-Bench [119]，用于评估其对对抗性输入的恢复能力。

安全性和一致性指标评估智能体的行为是否符合伦理规范、安全约束和政策规则。为了评估智能体的行为是否符合伦理和政策预期，使用多种衡量标准。毒性检测和伤害检查统计智能体的输出中包含仇恨言论、骚扰或其他有害内容的频率。像AgentHarm [62]这样的评估直接衡量不安全响应的频率或对危险指令的遵守情况。偏见和公平性指标检查智能体的决策或内容是否对某些群体存在偏见[172]，例如，在相同任务下是否对不同人口统计特征产生不同的结果。研究人员可以使用偏见基准或构造的测试（例如，在请求中更改性别/种族并观察答案质量是否变化）来量化不公平行为。合规性和政策遵守是另一个方面[119]、[133]，智能体通常会收到指南（如“不要泄露机密信息”或“如果被要求提供非法建议则拒绝”），并且指标可以追踪政策违规的频率。例如，智能体违反禁止请求的频率或泄露私人数据的频率。AgentDojo [63]是一个基准测试，它故意尝试注入提示，然后根据智能体是否抵抗这些攻击来进行评分。最后，一些一致性测试涉及将智能体与创造性的对抗性提示进行对抗测试，然后由人类评估任何不当行为的严重程度[125]。因此，对目标驱动的智能体的全面评估不仅考虑任务熟练度，还包括其可信度，即它是否在应该做的事情上做得正确，而在不应该做的事情上没有出错。IBM WatsonX中的Policy-Compliance/Safety Score和ST-WebAgentBench中的Risk Ratio等安全性和政策遵守指标体现了这一维度。

6.1. 实际权衡
这些指标类别为评估提供了描述性的视角。在实际应用中，智能体存在内在的权衡。每个指标都针对特定维度进行优化，但这可能会对其他维度产生不利影响。接下来，我们将讨论不同优化维度之间可能存在的实际权衡。

推理成本与成功率：像Pass@k或Best-of-N这样的概率指标显著夸大了成功率，但隐藏了计算成本。一个在100次尝试中达到90%成功率的智能体适用于离线研究，但对于实时部署来说成本过高。因此，任务完成指标应 accompanied by a normalization factor of Token Usage 或 Wall-Clock Time，以评估经济可行性[124]、[158]。只有当资源消耗保持在运营预算范围内时，高效率才是可行的。

安全性与实用性：实用性和严格的安全合规性之间往往存在反比关系。针对最大政策遵守或最小风险比率进行优化的智能体在良性边界情况下通常会表现出更高的拒绝率，从而降低其整体任务成功率[62]、[133]。评估者必须区分因为无法完成任务而失败的智能体，以及因为正确拒绝高风险行为而失败的智能体。全面评估需要同时报告效用和安全分数，而不是将它们汇总为一个指标。

静态约束与动态环境：静态数据集（例如HotPotQA、WebShop）具有高可重复性和低成本，但存在数据污染（记忆化）和缺乏环境响应性的问题，即与环境的交互。相反，动态环境（例如WebArena、FieldWorkArena）由于模拟真实环境而具有较高的生态有效性，但它们很脆弱；外部网站或API的更新可能会破坏评估代码，使得纵向比较变得困难[94]、[121]。一个稳健的评估策略采用静态基准进行回归测试，并使用动态环境进行最终验证。

结果评估与过程评估：二元成功率奖励了幸运的猜测。尽管推理有缺陷或工具使用效率低下，智能体也可能输出正确的最终答案。计划和推理指标（例如Step Success Rate、Node F1）对于诊断“出于错误原因正确”的情况是必要的[68]。然而，基于过程的指标成本较高，通常需要人类专家或昂贵的LLM作为裁判的设置，而结果指标自动计算成本较低。

7. 与法规的契合
我们将治理定义为在何种条件下智能体可以做什么或不能做什么，政策定义为可执行的规则（政策即代码），审计定义为可验证的事件证据。与聊天风格模型不同，智能体AI系统会改变外部状态：它们会登录服务、修改文件、触发工作流程，并与其他智能体协调。因此，治理重点从内容可接受性转移到行为授权、来源追踪和问责制：智能体被允许做什么、在什么条件下做什么、在何种监督下进行，以及这些行为如何被记录和审计以供事后审查。我们在图11中展示了使用智能体AI的监管契合的整个流程，并在表7中提供了详细信息，展示了监管契合控制与机制、可衡量的SLOs、审计工件、标准和生命周期阶段的映射。为了清楚关键术语的含义，我们建议读者参考术语表（表3）。

下载：下载高分辨率图像（379KB）
下载：下载全尺寸图像

图11. 智能体AI的监管契合。

表7. 监管契合控制与机制、可衡量的SLOs、审计工件、标准和生命周期阶段的映射。

控制领域
具体机制（例如）
SLOs（例如）
审计工件
标准映射
生命周期阶段
行为授权
政策即代码（OPA/Rego）；零信任连续认证
Z；工具允许/拒绝列表；环境守护（生产/阶段）；上下文检查（数据敏感性、用户角色）；高风险操作的强制性HITL
每1000次操作的UAR；每周政策覆盖事件发生率；MTTD；政策包快照；评估日志（决定、输入、效果）；签名批准记录；HITL transcripts；链接政策版本的变更票据

NIST AI RMF [127]：治理/管理
ISO/IEC 42001: 8.3, 8.5 [128]
EU AI Act：风险管理与上市后监控 [178]

设计、部署、运营—能力范围和最小权限
范围化的、可撤销的能力（能力令牌/VC）；工具范围（读取/列出/执行）；时间限制的权限；绑定到范围的故障切换/断路器
范围蔓延率；能力注册表；VC/认证列表；撤销日志；范围到政策的矩阵；断路器激活日志

NIST: Map/Manage [127]
ISO 42001: 6.1, 8.2 [128]
EU AI Act：技术文档与控制 [178]

设计、运营—身份与秘密管理
工作负载身份（OIDC/SPIFFE）；秘密保存/轮换；短暂的有效凭证；设备姿态检查；代理/控制平面/工具之间的MTLS
秘密轮换间隔合规性；日志中的秘密使用；未经授权的凭证使用；MTLS覆盖范围
KMS/VAULT轮换记录；访问日志；证书生命周期；失败的authZ尝试；秘密扫描报告

NIST: Govern/Manage [127]
ISO 42001: 8.7 [128]
EU AI Act：安全性与稳健性 [178]

构建、运营
数据治理与隐私
DPIA/TRA；数据最小化；工具边界上的DLP；PII编辑；目的限制标签；保留策略；数据集谱系
PII泄露率；DLP阻止率；保留合规性；目的标签遵守情况；跨境传输跟踪
DPIA报告；数据目录；谱系图；编辑配置；保留/审计日志；访问审查

GDPR / PIPEDA [179]
NIST: Map / Measure [127]
ISO 42001: 6.2, 8.8 [128]
EU AI Act：风险管理/数据 [178]

设计、运营
来源追踪与问责制（经认证）
双签名收据（代理意图+工具执行）；整体/SLSA认证；JSON-LD/VC ABoM（版本、工具、数据集、政策）；哈希链日志
来源覆盖百分比（带有收据的操作）；认证验证率；篡改检测MTTC
每次发布的ABoM；整体元数据；SLSA来源；哈希链证明；验证报告

NIST: Measure/Manage [127]
ISO 42001: 8.6 [128]
EU AI Act：技术文档 [178]
NTIA SBOM/SLSA [129]

构建、运营
工具治理与沙箱
工具注册表及方案；静态/动态策略检查；系统调用/文件/网络沙箱；安全输出处理（禁止原始执行）
工具调用的精确度/召回率；不安全输出执行频率；阻止的出口尝试；沙箱逃逸率
工具方案；沙箱配置；出口日志；阻止/允许决策；不安全输出测试结果

OWASP LLM [180]
NIST: Manage [127]
ISO 42001: 8.5 [128]
EU AI Act：安全控制 [178]

构建、运营
运行时保证与故障切换
金丝雀任务；影子策略；运行时监控；速率限制；自动去范围化；带有人类确认的故障切换
不安全模式的MTTD/MTTC；影子策略下的成功率下降
监控仪表板；异常警报；故障切换审计；影子策略回放追踪

NIST: Manage [127]
EU AI Act：上市后监控 [178]
ISO 42001: 9.1 [128]

运营
红队与对抗性测试
提示注入套件；越狱语料库；不安全输出处理测试；数据投毒检查；SSRF/文件写入探测；计划性混乱测试
提示注入成功率；越狱率；IOH事件发生率；红队报告；场景目录；再现种子；缓解差异；回归仪表板

MITRE ATLAS [181]
OWASP LLM [180]
NIST: Measure/Manage [127]
ISO 42001: 8.9 [128]

预发布、持续—评估与评判（质量）
程序化断言；基于迹线的评分；多样化的LLM裁判+盲人类评审；评分标准校准；泄漏检查
注释者间一致性；LLM-人类一致性；评判泄漏率；成功率的CI宽度
评分标准；评判提示；盲样本；一致性统计；泄漏测试；评估清单

NIST: Measure [127]
ISO 42001: 9.1 [128]
EU AI Act：技术文档 [178]

测试、运营
风险SLOs与预算
预先承诺的风险SLOs；与自主性级别挂钩的预算；当预算消耗时自动收紧政策
每周错误审查
UAR、PIR、PJR、MTTC；SLO文档；预算仪表板；审查分钟；纠正措施；趋势分析

NIST: Govern/Manage [127]
ISO 42001: 6.1, 9.1 [128]
SRE错误预算 [182]

计划、运营—事件响应与取证
运行手册；不可变日志；快照状态；通信模板；监管机构通知工作流；含CAPA的事后分析
MTTD/MTTR；IR运行手册；票证跟踪；快照；事后分析；CAPA日志；监管机构文件

NIST: Manage [127]
ISO 42001: 8.10 [128]
EU AI Act：严重事件报告 [178]

运营—变更管理与版本控制
模型/提示/工具版本控制；门控发布；回滚计划；政策差异；批准
变更失败率；回滚成功时间；门控覆盖百分比；未受控制的变更发生率
变更日志；批准记录；回滚证据；政策差异历史

NIST: Govern/Manage [127]
ISO 42001: 8.1 [128]
EU AI Act：QMS实践

构建、发布
第三方与供应链
供应商风险审查；SBOM/ABoM摄取；许可证合规性；API配额/SLAs；加密来源验证
%具有验证来源的依赖项；供应商SLA违规；许可证不合规率
供应商评估；SBOM/ABoM存档；许可证扫描；SLA报告；验证日志

NIST: Map/Manage [127]
ISO 42001: 8.4 [128]
NTIA SBOM [129]
SLSA [175]

计划、运营
HITL与培训
HITL的风险分级；升级SLAs；操作员培训/认证；高影响操作的双重控制；用户体验以揭示理由
HITL延迟；覆盖正确率；受训操作员覆盖范围；双重控制遵守情况
培训记录；认证日志；HITL transcripts；用户体验截图；审计样本

NIST: Govern/Manage [127]
ISO 42001: 7.2 [128]
EU AI Act：人类监督 [178]

设计、运营
披露与透明度
面向用户的权限卡；自主性级别证书；安全措施变更日志；数据使用通知；退出路径
披露的及时性；完整性检查表得分；用户投诉率
能力卡；L4–L5自主性标签；发布说明；DPIA摘要；DSR日志

EU AI Act：透明度 [178]
NIST: Govern [127]
ISO 42001: 8.6 [128]

发布、运营
缩写：UAR：未经授权的操作率；PIR：提示越狱率；PJR：政策覆盖率；MTTD/MTTR/MTTC：平均检测/恢复/遏制时间；DLP：数据丢失预防；VC：可验证凭证；SBOM/ABoM：（软件/代理）物料清单
控制平面视图（核心思想）我们将治理视为一个控制平面，它批准或拒绝代理提出的每个外部操作。控制平面执行最小权限凭证、范围化能力、政策即代码检查、工具白名单以及在高风险情况下的强制性人类批准。政策引擎根据组织规则和上下文（数据敏感性、用户角色、环境）评估每个工具调用，遵循零信任原则进行持续授权，而不是一次性批准[173]、[174]。

来源追踪与问责制（使审计客观）
为了使审计客观，每个步骤都附带签名且可查询的来源信息：代理签署意图（提示、理由、政策状态），工具或API签署执行收据（做了什么、输入/输出、副作用）。这些双重认证构成了一个类似于软件SBOM的代理物料清单（ABoM），具有SLSA/整体风格的来源追踪和可验证的凭证。结果是一个易于问责和跨组织交接的操作轨迹[129]、[175]、[176]、[177]。在实际应用中，图11提供了实现路径；表7列出了需要测量和保留的内容。风险服务水平目标（Operational Safety）的监督是通过风险服务水平目标来实现的（例如，未经授权的操作发生率、政策覆盖事件、快速注入成功率等）。每个代理或服务都会获得一个风险预算；当这个预算被消耗时，控制平面会通过速率限制、能力撤销或HITL升级等方式自动加强安全措施。这种方法将SRE错误预算机制适应于代理的自主性，并使安全阈值成为可衡量且预先约定的契约[182]。持续保证（测试 → 更新 → 重新评估）治理措施包括针对LLM特定风险（如提示注入、不安全输出处理、数据污染）和AI威胁策略（如模型盗窃或规避）的对抗性测试，并使用标准目录和红队剧本。在部署前和运行时持续进行检查（如金丝雀任务、影子策略），并将发现结果用于更新政策和调整能力范围[180]、[181]。法规映射和负责任扩展控制平面模型遵循现行的指导方针：生命周期风险管理、上市后监控（欧盟AI法案）、AI管理系统（ISO/IEC 42001），以及NIST AI RMF的功能，包括治理、映射、测量和管理。对于具有更高能力的系统，负责任扩展的提议将更大的自主性与更强的安全措施和披露义务联系起来[127]、[128]、[183]。

实用检查清单：
(i) 定义自主性层级和初始能力范围。
(ii) 通过代码化的策略对每个工具调用进行持续授权。
(iii) 向代理发放有范围限制且可撤销的能力凭证，并记录双重签名的收据。
(iv) 为每个版本发布带有来源信息的代理材料清单（Agent Bill of Materials, ABoM）。
(v) 设置风险服务水平目标（Risk SLOs）和错误预算，并将断路器与自主性级别关联起来。
(vi) 进行持续的AI红队测试，并将结果反馈到政策和能力范围中。

自主性级别框架：最近的研究提出了明确的自主性分类和管理方法，而不是将“更多自主性”视为能力的无监管副产品。针对代理的五级自主性框架受到安全关键领域的启发，范围从第1级（人类是操作者；代理仅根据明确指令行事）到第5级（人类是完全自主代理的观察者）。这种分类法帮助开发人员和政策制定者指定允许的决策范围。它还引入了自主性证书——由可信第三方颁发的标签，以使代理的自主性级别和关键行为对集成者和其他代理可见[3]。

行业治理分析：组织正在评估从助手到代理的权力转移，并建议相应的控制措施。2025年的行业白皮书指出，工具执行和目标导向行为带来了新的安全和责任问题，建议加强监督检查点、限制权限、持续监控以及在从沙箱测试过渡到生产环境时进行适当阶段的审核[59]。

法规和政策视角：政策和安全提案强调自主性增加了责任要求。指导措施包括部署前的风险评估、持续监控、决策的可审计性，以及对高风险代理的人为干预或关闭路径[127]、[178]、[183]。这些方向与控制平面方法一致，其中授权、来源信息和回退机制是一流的设计元素。

自动化审计和红队测试：最近的研究探索使用专门的审计代理来探测其他系统中的隐藏目标、不安全行为或提示注入敏感性。这结合了广度（大规模场景生成）和深度（追踪检查和针对性压力测试），为人类审查提供了可扩展的补充，并随着时间的推移支持回归式的安全测试[61]。

实用监督机制：从业者报告了内置的合规性检查（代理循环内的规则检查和允许/禁止的操作模型）、带有理由的全面操作日志记录、在超过定义的风险阈值时触发的人工干预，以及随着能力或法规演变而更新政策的自适应治理结构[3]、[60]。

7.1. 一个补货代理的案例研究：为了说明这些治理原则在实践中的应用，考虑一个负责库存管理的自主代理。最近Moffatt v. Air Canada (2024)的裁决强调了这种控制的必要性[184]，该裁决确定组织可能对其不受约束的代理所做的具有约束力的承诺承担财务责任。该代理被授权通过供应商API补货，但每次交易有一个5,000美元的硬性财务限制。

• 场景（触发条件）：代理检测到关键组件的库存短缺。根据销售预测模型，它预测需求激增，并尝试下达价值12,000美元的大额订单以防止缺货。
• 代码化的策略（拦截）：组织的治理层拦截API调用并实施Open Policy Agent的Rego策略[185]。该层将进行“速度检查”，不仅拒绝单个大额交易，也会拒绝一系列小额交易，从而降低代理操纵系统的能力。
• 控制平面（执行）：由于请求超出了阈值，控制平面阻止了外出工具调用，向代理返回“202 Accepted”状态并提示等待批准。这导致代理需要请求批准而不是启动失败并重试的工作流程。同时，它触发了一个升级工作流程，通知运营经理预算差异。
• 审计（可追溯性）：经理审查理由并批准异常。最终的代理材料清单（Agent Bill of Materials, ABoM）记录了整个责任链：代理的原始意图、自动策略拦截、人工 override 签名以及最终执行的交易。这确保了完整的、符合法律要求的审计轨迹。

8. 污染与基准测试游戏：首先，在代理AI评估的背景下提供这两个现象的精确、特定于上下文的定义，因为这些术语在文献中通常被松散使用甚至互换使用，我们认为这本身是造成混淆的根源。为了与本文中使用的术语保持一致，我们建议读者参考表3中的术语表。

设M是一个在语料库Dtrain上预训练的语言模型，设B={(ti, si, Ei)}i=1N是一个代理基准，其中ti表示自然语言任务描述，si表示黄金解决方案轨迹（动作和观察的序列），Ei表示任务i的初始环境状态。当满足以下任何条件时，就会发生污染：
1. 任务级别：存在ti∈B，使得ti或与其语义上接近的ti?存在于Dtrain中，使得M能够回忆起任务而不是对其进行推理。
2. 解决方案级别：存在si∈B，使得si或结构上等价的轨迹存在于Dtrain中，使模型能够从记忆中复现正确的动作序列。
3. 环境级别：环境状态Ei在Dtrain中有充分的表示（例如，活跃的网站、公共GitHub仓库、公开可用的UI截图），使得M能够在没有真实交互的情况下对环境查询作出响应。

在任何C1-C3条件下，基准性能Perf(M,B)都会高估模型的真实泛化能力。测得的分数反映了部分记忆，而不是可转移的代理能力。

设Eval(τ, t)→[0, 1]是基准B的评估函数，它将代理轨迹τ和任务t映射到一个标量分数；设C(τ, t)→[0,1]表示真正的任务完成指示器，即任务目标是否真正得到满足。当代理A产生的轨迹τA使得Eval(τA, t)?C(τA, t)时，即代理在代理评估指标上取得了高分，但实际上未能完成任务，这时就发生了基准测试游戏。正式来说，游戏利用了代理指标和真实能力之间的差距：argmax τ Eval(τ, t) ≠ argmax τ C(τ, t)。

污染是一个数据来源问题，它关乎模型在训练期间看到了哪些信息。基准测试游戏是一个度量设计问题，它关乎评估函数是否忠实地反映了预期的能力。如果评估函数存在结构上的漏洞，模型就可以操纵一个它从未见过的基准。相反，即使模型被污染，如果其评估足够稳健，它也可能无法操纵基准。这两种情况都威胁到基准的有效性，但通过完全不同的机制，需要完全不同的缓解措施。表8概述了代理AI背景下基准测试游戏的主要子类型及其具体示例。

8.1. 实证证据来自最近的代理AI基准测试：以下部分讨论了在代理基准测试背景下数据泄露和游戏的具体示例。
8.1.1. 污染：SWE-bench [139] 从真实的GitHub问题和合并的拉取请求中构建代码修复任务。由于GitHub是LLM预训练管道中经常被爬取的来源之一，问题描述（C1）和接受的补丁解决方案（C2）都存在于前沿模型的训练数据中。最近的研究[186]表明，旧问题比新问题的解决率更高，这间接但有力地证明了C1/C2污染的存在。这直接推动了SWE-bench Verified和SWE-bench Lite的发布。WorkArena [187]和WorkArena++ [188]建立在ServiceNow企业平台上，这是一个在公共网页爬取中几乎不存在的专有环境。这构成了一个有意图的C3防御，通过将任务设定在一个不存在于Dtrain的环境中。WorkArena还进行了零样本环境探测实验，通过询问模型关于平台特定的事实来实证地限制C3污染的程度，确定了任务相关知识可以被记忆的最大范围。OSWorld [73]在发布时维持了一个私有的未公开测试分区，直接阻止了C1和C2的泄露。此外，每个任务都从一个新 provisioned 的操作系统快照开始，防止通过缓存或持久状态导致的C3环境污染。作者还报告了测量任务新鲜度对性能影响的污染边界实验。WebArena [94]在私有服务器上本地托管所有网页环境，切断了实时网站内容进入预训练语料库的URL路径。页面内容（产品列表、评论、用户生成的文本）在初始化时被程序化随机化，进一步防止模型利用记忆中的页面特定事实，同时解决了C1和C3问题。
8.1.2. 基准测试游戏：语言模型代理经常通过在评估中利用统计捷径和评估器漏洞来人为地获得高分数，而不是通过真正的推理。例如，在ALFWorld [131]中，代理通过记忆一致的对象位置来规避 shortcut learning；在Mind2Web [132]和ToolBench [88]中，它们依赖于结构上的DOM模式或表面级别的关键词匹配，当站点布局或工具描述发生变化时就会失败。此外，代理还会主动利用自动化评分系统；AgentBench [68]的研究揭示了模型产生满足自动字符串匹配条件的动作序列，而没有完成实际的任务；HELMET [189]的评估显示代理通过利用上下文窗口极端端的位置偏差来提升他们的分数，而不是进行真正的长距离分析。

为了应对这些普遍存在的游戏策略，τ-bench [119]引入了参数化的随机任务实例化作为最先进的架构防御。通过为每次评估生成完全新的、随机化的客户配置文件、政策和环境状态，它在结构上消除了使用记忆中的模式、奖励操纵或评估器漏洞的能力。因为没有两个任务实例是相同的，代理被迫展示出真正的能力，使得在其他静态环境中看到的基准测试游戏在功能上变得不可能。这与Provenance和ABOM（§7）相呼应，后者要求每个步骤都带有签名和可查询的证据，以证明意图和执行的合理性，从而确保问责性。•多智能体协调：通过智能体类型识别（§4）对子智能体架构进行分类，以评估交互质量。在治理方面，自治级别框架（§7）引入了“自治证书”，以明确界定每个智能体的决策范围和权限。•评估差距：通过任务和环境（§4）使用标准化框架来评估过程质量，而不仅仅是结果的正确性。此外，持续保证（§7）超越了静态基准测试，能够针对不断演变的安全风险运行动态红队评估和金丝雀任务。•治理和可审计性：通过服务水平目标（SLOs）和治理（§4）来评估系统的合规性，例如符合NIST AI RMF标准。控制平面（§7）将监督从手动审查转变为基于日志的自动化验证，每项授权决策都遵循零信任原则。•RAG依赖性和数据质量：通过仪器化（§4）将检索准确性和查询构建作为独立指标进行测量。控制平面（§7）通过确保智能体仅访问其被明确授权使用的数据源来减轻被破坏的风险。•效率和成本：通过SLOs（§4）将效率指标（延迟、令牌使用量）视为关键成功标准。这支持负责任扩展（§7），当预算超支时，将计算成本和碳影响视为限制智能体自主性的硬性约束。9.2. 智能体评估的进展和局限性最近的基准测试和指标分类越来越多地将智能体视为决策系统，而不仅仅是文本生成器，但该领域仍然碎片化。虽然传统的NLP/RL指标是有用的基准，但它们很少能够涵盖感知、规划、工具使用和控制方面的端到端行为，这促使人们开发更丰富的、考虑过程的评估方案[98]。因此，有必要研究用于智能体AI的评估指标，这也激发了这项研究。一个解决方案是学习从单一结果得分向结合任务成功率、效率和政策遵从性的多维评分卡的转变。除了成功率或准确性之外，还有状态的和与治理相关的指标（参见第5节和第6节），例如政策遵从性、风险/严重性比率以及在政策约束下的完成情况，这些指标明确测试智能体是否在保持约束的同时实现了目标。这些指标家族通过将行为与组织规则而非仅仅与真实情况联系起来，使部署利益相关者能够理解失败模式。评估环境也在不断发展。模拟和HITL研究探究了时间特性、一致性、目标漂移、信任和可持续性。这表明智能体AI的质量取决于策略而非仅仅最终输出[43]。因此，新兴框架跟踪交互历史和长期效应，以揭示计划何时退化、安全约束被绕过或协调失败的情况。社区测试平台现在涵盖了真实的网络任务、操作系统/工具环境和多环境套件[154]。这种广度提高了生态效度，但也增加了可比性难度。例如，任务设计、奖励函数和监督风格差异很大，除非评估报告具有共享定义的结果和过程指标，否则跨基准的推广性声明会较弱。先前工作的一个关键局限性在于性能指标与治理要求之间的联系较弱[43]。一方面，智能体AI系统因其自主性和易用性而在市场上迅速获得关注；另一方面，治理框架越来越要求透明度、问责性和风险意识操作[157]。先前的调查（表1）主要集中在组件分类和应用领域上，对于如何以集成方式评估鲁棒性、可靠性、效率、安全性和一致性提供了有限的指导。这一差距强调了需要将技术性能信号与监督机制对齐，例如将任务成功或pass@k与政策遵从性、风险比率和可审计性指标结合起来。在这项工作中，我们指出了这一差距，并提出了如何将当前的评估实践应用于此的建议。然而，像任何研究一样，我们的审查也有一定的局限性。首先，它主要集中在2023-2025年期间，并且主要包含公开记录的基准测试。选择这个时间范围是为了捕捉该领域最新的发展；然而，一些基础研究和快速发展的工业实践可能被低估了。其次，尽管我们试图包括各种模型家族；无论是专有的还是开源的，专有的评估和保密的红队练习都超出了我们的范围。因此，我们的综合可能无法完全反映私营生态系统内进行的安全性、可靠性和治理测试的深度。为了使结果可部署，结果和过程指标应与治理杠杆相关联（如第7节所讨论的）。一些建议包括：(i) 将在政策下完成作为一级指标；(ii) 报告风险SLO（例如未经授权的动作率、政策覆盖、提示注入成功率）以及success@k；(iii) 显示可追溯的可审计性（存在签名动作、理由可见性、可复现的状态检查）。这将基准测试分数转化为风险预算和发布门槛的输入，而不仅仅是独立的排行榜。9.3. 公开的挑战和未来的方向有两个设计方向显得特别有前景。(i) 以轨迹为先的评估：评估不仅应关注最终答案，还应关注整个过程：包括模型的思考、行动、观察和中间步骤。这有助于更清晰地了解决策是如何做出的，并允许更好地审计和监督整个推理过程（例如，通过“过程跟踪审计”来实现）。(ii) 基于状态的评分：评估应依赖于可验证的事实，如数据库条目或文件系统状态，从而使结果不那么主观。这种方法允许我们检查是否实现了目标以及模型是否遵循了正确的规则和政策。几个开放的挑战值得进一步关注，下面我们讨论了一些简短的解决方案：•智能体在分布变化、从错误中恢复或在失败后适应期间很少被评估。我们建议包括留出一个域不参与、反事实划分、添加故障后的恢复任务，并报告超出分布（OOD）的差距、恢复率和失败率以及成功率。•在包括智能体AI的AI解决方案中，关于鲁棒性和可靠性的报告并不一致。我们建议披露种子清扫和提示/参数消融；运行输入扰动测试；报告置信区间和方差；并发布可复现的配置[111]。•以人类为中心的结果（信任、满意度、认知负荷）需要明确的操作定义和与实际交互日志相关联的仪器化。我们建议预定义结构和评分标准，尽可能使用经过验证的仪器，并将调查与日志派生的代理（例如干预次数、帮助请求）结合[190]。•测试污染（训练暴露）和评委泄露（LLM或人类访问黄金标签）的风险可能会夸大结果。我们建议针对训练语料库进行去重复（hash/MinHash），跟踪数据集的来源，对评委进行盲化，并维护带有泄露检查的隐藏保留集[191]。•环境漂变（网络、操作系统或用户界面的变化）和工具可用性混淆（权限、配额）使得可比性复杂化[192]。我们建议使用带版本控制的容器化任务，记录环境指纹和工具权限，并提供可重放的轨迹。•多步骤设置引入了错误传播，其中早期错误不成比例地影响结果。我们建议报告步骤级别的正确性、恢复率和恢复时间，并使用计划/轨迹验证和有针对性的重启测试来定位失败。•随机因素（种子、解码选择、网络延迟）和用户界面仪器化可以调节行为。我们建议标准化解码和种子，运行带有置信区间的多种子评估，在可能的情况下控制延迟，并记录仪器化的影响。•效率和可持续性也经常被低估报告。我们建议报告每种设置的单位经济效益：令牌、墙钟时间、步骤、内存以及每个成功任务的成本[193]；并且在相关的情况下，添加能源/CO2估算，以揭示效率前沿上的权衡（例如成功与成本/能源）。•依赖高保真环境（例如完整的操作系统、复杂的模拟器）造成了巨大的基础设施障碍，通常需要专门的集群来进行编排。我们建议报告“设置税”（编排资源），并开发轻量级的代理环境或标准化的计算胶囊，以使学术研究人员能够更容易地访问。•测试时缩放和迭代工作流程的兴起加剧了能力与可持续性之间的差距，其中容易过度思考的智能体会在简单任务上消耗不成比例的能量。我们建议通过惩罚不必要的推理步骤来评估计算节俭性，并报告特定的“每任务瓦特”指标，以阻止浪费性的准确性最大化。展望未来，我们提倡使用评估卡统一报告：(i) 结果指标（成功、分级准确性、pass@k），(ii) 过程指标（计划/步骤正确性、错误定位、恢复率），(iii) 资源和时间效率（步骤、令牌、墙钟时间、每个成功的成本），以及(iv) 治理指标（政策遵从性、风险比率、可追溯性）。这些 additions 在网络、操作系统/工具和多智能体设置中一致应用，使评估与第7节中的控制平面视图对齐，将基准测试结果转化为可操作的风险SLOs、发布门槛和可审计的轨迹。9.4. 认知架构和基于LLM的智能体AI虽然最近关于基于LLM的智能体的研究进展迅速，但从智能、自主或认知代理的文献中获得的经验也为进一步的研究提供了有希望的线索[67]、[194]。这一领域的研究受益于哲学[195]和心理学[196]的视角，这些视角将动机元素构建到认知架构中，关于是什么驱动智能体行为朝着目标生成及随后的规划[197]、[198]、[199]。动机概念对于遵循认知科学视角[36]、[196]、[200]、[201]、[202]的架构也是相关的，受益于元认知层以及通过学习产生的架构发展[203]。最近在认知系统架构方面的发展结合了数值计算、符号计算和亚符号计算，并融合了认知系统和涌现结构的方面，这些结构由学习塑造[4]。基于LLM的架构显然是属于涌现类型的。实际上，为了采用智能体AI，需要从操作角度进行审计和评估。假设智能体AI的一个关键目标是操作自主性，基准测试必须考虑领域无关和领域特定的方面。这种自主性本质上源于计算操作[198]。领域特定的评估需要更仔细地检查在适用应用领域背景下操作上具有重要意义的内容。总体而言，进一步研究智能体AI的基准测试可以从操作、计算和对齐的角度进行。因此，需要研究(a) 智能体AI的操作效率和效果；(b) 从认知功能（例如记忆、注意力机制、目标生成、决策制定等）的角度来看质量和性能；(c) 计算资源；以及(d) 价值、伦理、政策和控制的对齐[204]。10. 结论本研究强调了对结构化评估和监管的日益增长的需求，以指导智能体AI系统的发展。虽然之前的调查主要集中在定义、架构和应用上，但我们的工作通过系统地组织基准测试、指标和治理方法，弥合了评估自主的、基于LLM的智能体的关键差距。我们展示了评估智能体AI需要多维度的评估，这超出了准确性或任务成功的范畴，还包括推理深度、适应性、合作性、伦理对齐和安全性。此外，将这些评估与欧盟AI法案、NIST AI RMF和ISO/IEC 42001等新兴监管框架联系起来，为负责任的部署提供了路径。然而，实现这一愿景需要解决该领域的一个关键差异。最紧迫的研究差距在于技术增长的快速步伐与治理对齐的缓慢进展之间的不对称性。这造成了智能体能力的随机性质与可验证可靠性要求之间的日益扩大的脱节。未来的研究必须加快治理框架的发展，以跟上技术创新的步伐。此外，评估方法必须超越简单的性能指标，转向评估基于轨迹的推理、自主错误恢复和安全性合规性的统一多维评分卡。解决这些差距对于将智能体AI从实验原型转变为透明、负责和操作上安全的系统至关重要。未引用的引用缺失引用表C.11、[2]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]CRediT作者贡献声明Azib Farooq：概念化、方法论、验证、可视化、写作——初稿撰写、审阅和编辑。Shaina Raza：概念化、方法论、监督、验证、写作——初稿撰写、审阅和编辑。Nazmul Karim：写作——审阅和编辑。Hasan Iqbal：写作——审阅和编辑。Athanasios V. Vasilakos：监督。Christos Emmanouilidis：监督。

热点排行