从全面覆盖到组合复杂性：大型语言模型中战略推理的博弈论评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Game-theoretic evaluation of strategic reasoning in large language models: From complete coverage to compositional complexity

【字体：大中小】 时间：2026年02月10日 来源：Neurocomputing 6.5

编辑推荐：

　　战略推理能力评估基准构建及大型语言模型表现分析，提出TMGBench覆盖144种经典博弈类型，通过合成故事场景和层次化复杂结构评估LLMs，发现模型在原子博弈中准确率超90%但复杂组合骤降至20%以下，揭示架构性缺陷。

郭宇|王浩川|冯晓冲

哈尔滨工业大学，中国哈尔滨

摘要

对大型语言模型（LLMs）中的战略推理进行博弈论评估对于推进人工智能系统至关重要，但面临一些根本性挑战：博弈覆盖不全面、数据污染风险以及无法评估组合推理的复杂性。我们提出了TMGBench这一基准测试框架，它通过系统设计实现了从全面覆盖到组合复杂性的逐步提升。在全面覆盖方面，TMGBench纳入了Robinson-Goforth拓扑结构中的所有144种标准博弈类型，成为首个实现全面博弈论表示的基准测试工具，从而消除了现有评估方法中的抽样偏差。每种博弈都是通过合成生成的叙事场景来实现的，并经过严格验证以确保新颖性和防止数据泄露。为了解决组合复杂性问题，我们引入了一个分层框架，将这些原子级博弈程序化地组合成顺序、并行和嵌套结构，从而创建出可扩展的挑战，系统地探究从简单战略决策到复杂多智能体交互的推理深度。我们的评估揭示了LLMs在从简单到复杂推理过程中的关键局限性。即使是最先进的模型，在基本的博弈论推理方面也存在问题，表现出逻辑不一致性和表面的“心智理论”理解能力。随着组合复杂性的增加，性能会急剧下降：在孤立博弈中准确率达到60%的模型，在组合结构中的准确率会降至20%以下，这暴露了当前AI系统处理战略依赖关系的根本架构缺陷。这些结果表明，现有的LLMs缺乏真正战略思维所需的组合推理能力。TMGBench因此提供了全面的诊断覆盖和可扩展的复杂性框架，对于推动人工智能向人类水平的博弈论推理和战略决策能力迈进至关重要。

引言

大型语言模型（LLMs）的快速发展重塑了人工智能的范式，在各个领域取得了突破[1]、[2]、[3]、[4]。这些成就主要归功于LLMs在训练过程中吸收大量知识的能力，以及它们通过内部表示在粗粒度层面组织信息和在细粒度层面关联知识的能力[5]。这些核心能力推动了LLMs在多种推理任务中的成功，包括数学推理[6]、常识推理[7]、逻辑推理[8]和战略推理[9]、[10]。其中，战略推理因其多智能体特性及其与社会智能的紧密关联而受到特别关注[11]、[12]。

战略推理是指在竞争或合作情境中预测、计划和响应他人行为以实现特定目标的认知过程[13]。因此，自然包含合作与竞争的博弈场景成为研究LLMs战略推理能力的理想领域[14]。特别是，研究人员让LLMs参与游戏玩法，分析它们的决策行为并评估其在这些场景中的战略智能[10]。作为最经典的博弈论场景之一，囚徒困境（Prisoner’s Dilemma）在这一领域得到了广泛研究[15]。此外，其他传统游戏如“性别之战”（Battle of the Sexes）[16]、“猎鹿游戏”（Stag Hunt）[17]和“独裁者游戏”（Dictator Game）[18]也引起了广泛关注。这些研究为LLMs的战略推理能力提供了初步见解[19]、[20]、[21]、[22]、[23]、[24]。

然而，当前的研究存在三个主要局限性，阻碍了对LLMs战略推理能力的全面、稳健和可持续评估：(1) 博弈类型覆盖有限：大多数研究仅关注少数经典博弈，而没有考虑博弈结构的全部多样性。(2) 博弈场景泄露风险：经典博弈场景可能存在于训练数据集中，引发数据泄露的担忧。(3) 博弈形式的扩展性差：现有研究主要关注有限的博弈形式，可能无法有效挑战OpenAI的o3-mini等高性能LLMs。

为了解决上述问题，我们推出了TMGBench这一基准测试框架，它涵盖了广泛的博弈类型，具有合成的博弈场景，并支持可扩展和可重组的博弈形式。具体来说，为了解决第一个问题，我们包含了Robinson-Goforth拓扑结构中定义的2x2博弈的所有144种类型[25]。这种拓扑结构基于不同的数值收益矩阵，包括但不限于经典的囚徒困境（见第3.2节）。为了解决第二个问题，我们使用合成数据生成技术为每种经典博弈创建了五种不同的基于故事的博弈。本质上，基于故事的博弈是其对应经典博弈的情境化版本，具有相同的结构但情境不同[9]。为了确保数据质量，我们引入了两个额外步骤：主题控制和人工审查。首先，我们定义了一组与合作和竞争相关的主题（如商业和法律），以指导数据生成过程。然后，为了确保合成博弈符合所需的博弈结构并且易于理解，我们进行了严格的人工审查（见第3.3节）。为了解决第三个问题，我们提出了三种扩展和组织博弈的形式：顺序、并行和嵌套。使用上述构建的博弈作为原子单元，我们将它们重新组织成这些复杂形式，以评估LLMs的战略推理能力。顺序和并行形式分别评估模型在顺序和并行决策方面的能力，而嵌套形式则探索LLMs的多层战略推理能力（见第3.4节）。

基于TMGBench，¹我们对当前主流LLMs进行了全面分析和评估（见第4节），重点关注战略推理所需的四个核心方面：(1) 理性推理，即通过收益分析识别最优策略的能力，这是博弈论决策的基础；(2) 推理稳健性，即在等效博弈的不同情境框架下保持一致战略选择的能力[9]；(3) 心智理论（ToM）能力，即模拟对手心理状态并预测其策略的能力，这对于高级战略推理至关重要[[21]、[22]、[23]、[24]、[25]、[26]、[27]；(4) 复杂博弈推理，即处理组合战略场景的能力。我们进一步通过人工评估研究验证了TMGBench，建立了性能基准，并通过系统理解评估确认了任务质量。我们的评估得出以下关键发现：

•

先进的LLMs（o3-mini、Qwen3、deepseek-reasoner）在原子博弈上的准确率超过90%，但大多数模型的准确率低于60%，表明战略推理需要超出一般语言理解能力的特定能力。

•

LLMs在基于故事的博弈上的表现相比相应的经典形式下降了多达75%，且不同叙事之间的差异很大（见

），表明它们依赖于表面模式而非抽象的博弈结构理解。

•

一阶心智理论提示对某些模型有益，但对其他模型效果有限；二阶心智理论仅提供微小的额外收益，表明LLMs缺乏进行稳健对手建模的递归推理能力。

•

GPT模型在0任务博弈中表现出系统的不对称模式，答案与位置相关而非收益结构，表明它们依赖启发式方法而非真正的战略分析。

•

随着组合复杂性的增加，性能急剧下降：在孤立博弈中准确率为60%的模型在10个博弈的组合中准确率降至20%以下，暴露了根本的架构缺陷。

章节片段

战略推理

战略推理[11]、[12]、[13]是一种独特而复杂的推理形式，专注于在多智能体环境中做出最优决策。它涉及通过预测他人的行为和理解自己的选择将如何影响他们的反应来精心选择策略。战略推理与其他推理范式（如常识推理、符号推理和因果推理）的不同之处在于其动态性质和内在的不确定性

基准测试概述

TMGBench是一个旨在评估LLMs在博弈论场景中的战略推理能力的基准测试工具，如图1所示。它全面涵盖了144种类型的博弈（见第3.2节），每种类型包含多个实例（每个实例中有两名玩家，每位玩家可以在两种策略之间选择，从而产生四种可能的结果），这些结果可以分为经典和基于故事的设置。值得注意的是，基于故事的实例是

LLMs的表现概述

总体而言，我们根据Open LLM Leaderboard [35]选择了几款最先进的模型，并在TMGBench上进行了广泛的实验。这些模型包括GPT（o3-mini、gpt-4o、gpt-4o-mini、gpt-3.5-turbo）、Claude（claude-3-5-sonnet、claude-3-haiku）、Llama（Llama-3.1-8B、Llama-3.1-70B）、Gemma（gemma-3-27b-it）、Qwen（Qwen3-32B、Qwen2-72B）和Deepseek（deepseek-reasoner）。我们对每个数据点进行了4次独立测试，涵盖了经典设置和基于故事的设置（因此总共进行了2880次测试）

扩展到更大规模的博弈

更大的战略场景通常由更简单的原子交互组成或可简化为更简单的交互，这表明我们对基本构建块的发现具有更广泛的相关性。我们的复杂博弈形式直接对应于更大规模博弈的重要类别。顺序组合反映了玩家轮流决策的多轮谈判。并行组合对应于需要同时独立决策的多市场竞争。最值得注意的是，嵌套组合

结论

本研究提出了TMGBench这一基准测试工具，旨在系统地评估AI系统的战略推理能力，特别是基于Robinson-Goforth拓扑结构的144种基本博弈类型的大型语言模型。为了增强真实感并降低数据泄露风险，该基准测试利用GPT-4o生成的合成数据来创建丰富的、基于故事的博弈场景，并将这些原子博弈组装成复杂的顺序和并行结构

写作过程中生成式AI和AI辅助技术的声明

在准备本工作时，作者使用了大型语言模型来提高文章的可读性和语言质量。使用该工具后，作者根据需要审查和编辑了内容，并对发表文章的内容承担全部责任。

CRediT作者贡献声明

郭宇：撰写——原始草稿、方法论、数据整理、概念化。王浩川：撰写——原始草稿、验证、软件开发、方法论、数据整理、概念化。冯晓冲：撰写——审稿与编辑、监督、项目管理、研究调查、资金获取。

资助

本工作得到了香港创新与科技支援计划平台研究项目（资助编号ITS/269/22FP）的支持。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

郭宇，哈尔滨工业大学博士生。研究兴趣：智能体建模、人工智能。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言