编辑推荐:
针对大语言模型(LLMs)静态评估无法有效捕捉真实交互中动态策略和连续性的问题,提出M2DE框架。该框架通过自由探索与脚本执行双模式生成多样化测试提示,结合创作者-验证者-评估者三智能体闭循环架构,动态评估五个信任维度,量化指标涵盖失败时机与深度。实验表明,M2DE显著提升模型可靠性评估的准确性,发现静态和浅层动态评估忽略的多类漏洞。
肖洪江|李秀英|王冉|王浩|王烨|张亮飞|张远
中国传媒大学媒体融合与传播国家重点实验室,北京,中国
摘要
随着大型语言模型(LLMs)在现实世界场景中的日益应用,其可信度已成为阻碍其可靠采用的关键瓶颈。然而,当前的评估方法主要依赖于静态基准测试,这些测试无法捕捉人类与LLM之间的持续和策略性互动,从而导致实际应用中的“可靠性幻觉”。我们提出了一个多压力源多维度动态评估框架(M2DE)来解决这一问题。首先,基于初始的压力源数据集,该框架通过自由探索和脚本执行模式生成测试提示,确保了测试的多样性和互补性。其次,它引入了一个闭环的创建者-验证者-评估者多智能体架构,通过自适应的多轮互动深入探索LLM的行为。最后,它使用三个关键指标从五个维度量化模型的可信度。实验结果揭示了静态和简单动态评估所忽略的多个漏洞,并展示了M2DE的显著优势。这些详细的评估可以进一步帮助LLM开发者进行有针对性的模型调试和优化。
引言
近年来,大型语言模型(LLMs)在自然语言理解、文本生成和复杂推理任务方面取得了显著进展。诸如GPT-4 [1]和LLaMA 2 [2]等代表性系统展示了强大的跨任务泛化能力 [3],使得它们在智能客户服务、科学研究、教育和医疗保健等高风险领域得到广泛应用。这些应用极大地改变了人机交互的效率和性质 [4]。然而,随着部署规模的扩大和使用场景的复杂性增加,人们对LLM可信度的担忧也日益突出。欧盟人工智能法案等监管举措进一步提高了对这些评估的要求,推动了严格和可复制的可信度评估 [5]。诸如幻觉、对抗性操纵的脆弱性、系统性偏见以及潜在的隐私泄露等问题直接威胁到了模型的安全性和实际可用性 [6]、[7]、[8]、[9]。
目前对LLM能力和可信度的评估仍然主要由静态基准测试主导,例如MMLU、C-Eval和GSM8K [10]、[11]、[12]。虽然这些基准测试对于评估模型的横向能力和实现可复制的跨模型比较具有重要的价值,但它们的固有特性——包括单轮互动、预定义的提示和静态上下文——限制了它们模拟现实世界应用中常见的持续、策略性互动的能力。最近的研究试图通过任务演化、自动生成样本或思维链扩展 [13]、[14]、[15] 来推进动态评估方法。尽管这些研究提高了样本的多样性并减少了数据污染,但大多数方法仍然局限于低轮互动和浅层迭代的对抗性探测,无法充分捕捉到用户行为的真实情况,如渐进式信息探索、策略性规避或意图隐藏。
当前方法与现实世界用户互动之间的这种不匹配导致了“可靠性幻觉”:一个模型在静态或浅层迭代测试下可能看起来表现良好且稳健,但在面对扩展的多轮、策略性互动时却会失效。具体来说,现有的评估方法存在三个关键局限性。首先,它们缺乏对真实用户行为轨迹的系统性模拟,难以再现渐进式诱导或多阶段信息提取过程。其次,对抗性测试通常依赖于预定义的提示结构,在构建攻击路径时对模型的中间响应适应不足。第三,当前的评估指标侧重于总体突破率或孤立失败案例,缺乏动态量化框架。因此,模型在复杂交互动态下的韧性仍然知之甚少。
这些挑战凸显了需要一个新型评估框架的需求——一个能够同时模拟互动连续性和意图混淆的框架,并能够在多个可信度维度上进行系统量化。
为了解决这些局限性,我们引入了M2DE(多压力源多维度动态评估),这是一个专为真实的人机交互设计的可信度评估框架。M2DE旨在满足三个核心要求:(1)捕捉用户与模型互动的连续性和策略性;(2)涵盖五个基本的可信度维度;(3)提供自动化、可复制和可扩展的评估工作流程。
本研究的主要贡献总结如下:
- •
提出M2DE,一个多压力源多维度动态评估框架,可以弥补静态和浅层迭代动态基准在模拟复杂人机交互方面的局限性。
- •
设计了一种双模式评估机制,平衡了策略多样性和结构可复制性,确保评估结果的可推广性和可靠性。
- •
引入了一个三智能体闭环架构,以实现高度自动化的评估工作流程。
- •
开发了三个专门的指标,用于捕捉模型失败的时间和深度,增强了模型韧性特征的粒度和全面性。
部分摘录
静态评估
现有的静态评估基准测试——如SuperGLUE [16]、MMLU [10]、TruthfulQA [17]、GSM8K [12]和C-Eval [11]——主要采用单轮、固定的问题集来评估模型的知识覆盖范围、语言理解和推理能力。这些基准测试提供了可复制的评估流程,但它们的非交互式模式使得它们无法模拟真实用户行为,如多轮提问、上下文积累或策略性探测。
M2DE框架
我们提出了一个新颖的M2DE框架,整合了多种压力源、多个维度、闭环多智能体架构和三个定量指标,以揭示模型风险并在动态互动过程中评估模型的可信度。
实验
为了全面评估M2DE的有效性,我们选择了八个具有代表性的广泛部署的LLMs进行评估,包括LLaMA 2-7B [2]、LLaMA 2-13B [2]、LLaMA 3-8B [37]、Mistral-7B-v0.3 [38]、GPT-3.5-Turbo [39]、GPT-4.1 [1]、GLM-4.5 [40]和Qwen-Turbo [41]。这些模型涵盖了不同的参数规模、训练范式、开放程度和商业化路径,共同反映了当前LLMs的可信度现状。所有模型都在其
结果
为了研究互动次数对风险估计的影响,我们在三种条件下评估了模型性能:SBE、SDE和M2DE。如图3所示,在M2DE条件下的BR显著高于SBE和SDE条件。这一发现表明,较少的互动次数会导致对模型整体风险的低估。我们还计算了M2DE带来的BR改进
讨论
本研究提出了M2DE,一个多压力源、多维度动态评估框架,用于系统地探究LLMs在真实、高轮互动条件下的可信度。实验结果提供了关于LLM脆弱性本质、现有评估范式的局限性以及下一代可信度评估所需设计原则的几个重要见解。
结论
本文介绍了M2DE,一个多压力源多维度动态评估框架,旨在评估LLMs在真实、高轮互动条件下的可信度。通过整合双模式压力测试、闭环多智能体架构和轮次感知的定量指标,M2DE解决了静态和浅层动态基准的根本局限性。通过在多个模型、语言和可信度维度上的广泛实验,我们
CRediT作者贡献声明
肖洪江:写作——审稿与编辑、撰写初稿、可视化、验证、监督、资源管理、方法论、研究、资金获取、概念化。李秀英:撰写初稿、可视化、软件开发、方法论、形式分析、数据管理、概念化、审稿与编辑。王冉:软件开发、形式分析、数据管理、撰写初稿。王浩:形式分析、数据管理。王烨:
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
致谢
本研究得到了中国国家重点研发计划(项目编号2024YFF0907200)、国家广播电视总局中长期研发计划(项目编号2024 AC0400)和中央高校基本科研业务费(项目编号CUC25SG006)的支持。