在非传递性游戏中，代理人表现受人口规模影响：一个多代理人石头-剪刀-布基准测试

《Scientific Reports》：Population-dependent agent performance in non-transitive games: a multi-agent rock–paper–scissors benchmark

【字体：大中小】 时间：2026年06月06日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要非传递性环境使得“最佳”策略的概念变得复杂：性能取决于对手群体，排名只有在特定的对手群体和规则下才有意义。我们提出了一个可复现的多智能体基准测试，用于迭代版的“石头-剪刀-布”游戏，并评估了来自18种不同类型的54个智能体——包括深度循环模型和Transformer序列模型、

摘要

非传递性环境使得“最佳”策略的概念变得复杂：性能取决于对手群体，排名只有在特定的对手群体和规则下才有意义。我们提出了一个可复现的多智能体基准测试，用于迭代版的“石头-剪刀-布”游戏，并评估了来自18种不同类型的54个智能体——包括深度循环模型和Transformer序列模型、演员-评论家强化学习器、贝叶斯/马尔可夫预测器、经典分类器以及基于规则的基线算法——在10个随机种子设置下进行的500轮双循环锦标赛中的表现。为了支持审计性，我们定义了一个简单的遗憾度量标准：一个Lipschitz型不等式，用于限制最佳响应收益差距，该差距通过智能体预测的动作分布与从日志预测中在线计算出的对手动作分布之间的\(\ell _1\)差异来表示。实验结果表明：(i) 循环预测器往往能够获得最高且最稳定的分数，尤其是在面对可预测的对手时收益最大；(ii) 排名会随着对手群体的变化而显著改变（Spearman相关性\(\rho = 0.83\)），在不同评估组之间排名最高的算法也会发生变化；(iii) 由此产生的元游戏表现出明显的非传递性特征，包括在成对收益矩阵中检测到134个循环结构。在我们的500轮在线更新预算和短上下文设计下，Transformer智能体具有竞争力，但并未超越经过调优的循环模型，这可能反映了在短期对抗性游戏中归纳偏见的不匹配。我们的代码和分析流程为研究典型非传递性游戏中的群体依赖性评估和学习动态提供了一个可扩展的测试平台。

联系信箱：

摘要

热点排行