LLM-TOC：基于大语言模型（LLM）的思维理论对抗性课程，用于多智能体任务的泛化训练作者：陈旭（Chenxu Wang）、袁江（Jiang Yuan）、于天奇（Tianqi Yu）、江新月（Xinyue Jiang）、向柳玉（Xiang Liuyu）、张俊杰（Junge Zhang）和何照峰（Zhaofeng He）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Mathematics》：LLM-TOC: LLM-Driven Theory-of-Mind Adversarial Curriculum for Multi-Agent Generalization Chenxu Wang, Jiang Yuan, Tianqi Yu, Xinyue Jiang, Liuyu Xiang, Junge Zhang and Zhaofeng He

【字体：大中小】 时间：2026年03月09日 来源：Mathematics 2.2

编辑推荐：

　　零样本泛化到未见对手和队友的多智能体系统挑战，LLM-TOC框架通过双层Stackelberg博弈实现动态策略生成，结合梯度显著性反馈提升效率，理论证明泛化误差界更优，实验显示性能达Oracle PPO的75%-85%且训练成本降低60%。

摘要

在多智能体系统（MASs）中，对分布外（OOD）的队友和对手进行零样本泛化仍然是通用AI面临的一个基本挑战，尤其是在开放式交互场景中。现有的多智能体强化学习（MARL）范式，如自我对弈和基于群体的训练，通常只能收敛到有限的纳什均衡子集，这使得智能体在面对语义多样且未见过的行为时变得脆弱。最近在运行时调用大型语言模型（LLMs）的方法可以提高适应性，但会引入较大的延迟，并且随着任务范围的扩大而变得不太可靠；相比之下，基于LLM的奖励塑造方法仍然受到内部强化学习循环效率低下的限制。为了解决这些限制，我们提出了LLM-TOC（LLM驱动的思维理论对抗性课程），它将泛化问题视为一个双层斯塔克伯格博弈：在内层循环中，一个MARL智能体（追随者）针对固定群体最小化遗憾；而在外层循环中，LLM充当语义预言机，在图灵完备的代码空间中生成可执行的对抗性或合作策略，以最大化智能体的遗憾。为了应对离散代码生成中缺乏梯度的问题，我们引入了梯度显著性反馈机制，将像素级别的价值波动转换为语义上有意义的因果线索，以引导LLM生成目标策略。我们还通过PAC-Bayes框架提供了理论分析，证明在合理的预设条件下，LLM-TOC的收敛速率为

?? ? (1 / \sqrt ?? < />

，并且比参数空间探索方法能够获得更紧密的泛化误差界限。在Melting Pot基准测试中的实验表明，以预期的累积集体回报作为核心的零样本泛化指标，LLM-TOC在所有保留的测试场景中始终优于自我对弈基线（IPPO和MAPPO）和基于LLM推理的方法Hypothetical Minds，其性能达到了Oracle PPO上限的75%到85%。同时，以达到目标相对性能所需的RL环境交互步数作为核心效率指标，与主流基线相比，我们的框架将总训练计算成本降低了60%以上。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号