LLM-TOC:基于大语言模型(LLM)的思维理论对抗性课程,用于多智能体任务的泛化训练
作者:陈旭(Chenxu Wang)、袁江(Jiang Yuan)、于天奇(Tianqi Yu)、江新月(Xinyue Jiang)、向柳玉(Xiang Liuyu)、张俊杰(Junge Zhang)和何照峰(Zhaofeng He)
《Mathematics》:LLM-TOC: LLM-Driven Theory-of-Mind Adversarial Curriculum for Multi-Agent Generalization
Chenxu Wang,
Jiang Yuan,
Tianqi Yu,
Xinyue Jiang,
Liuyu Xiang,
Junge Zhang and
Zhaofeng He
【字体:
大
中
小
】
时间:2026年03月09日
来源:Mathematics 2.2
编辑推荐:
零样本泛化到未见对手和队友的多智能体系统挑战,LLM-TOC框架通过双层Stackelberg博弈实现动态策略生成,结合梯度显著性反馈提升效率,理论证明泛化误差界更优,实验显示性能达Oracle PPO的75%-85%且训练成本降低60%。
摘要
在多智能体系统(MASs)中,对分布外(OOD)的队友和对手进行零样本泛化仍然是通用AI面临的一个基本挑战,尤其是在开放式交互场景中。现有的多智能体强化学习(MARL)范式,如自我对弈和基于群体的训练,通常只能收敛到有限的纳什均衡子集,这使得智能体在面对语义多样且未见过的行为时变得脆弱。最近在运行时调用大型语言模型(LLMs)的方法可以提高适应性,但会引入较大的延迟,并且随着任务范围的扩大而变得不太可靠;相比之下,基于LLM的奖励塑造方法仍然受到内部强化学习循环效率低下的限制。为了解决这些限制,我们提出了LLM-TOC(LLM驱动的思维理论对抗性课程),它将泛化问题视为一个双层斯塔克伯格博弈:在内层循环中,一个MARL智能体(追随者)针对固定群体最小化遗憾;而在外层循环中,LLM充当语义预言机,在图灵完备的代码空间中生成可执行的对抗性或合作策略,以最大化智能体的遗憾。为了应对离散代码生成中缺乏梯度的问题,我们引入了梯度显著性反馈机制,将像素级别的价值波动转换为语义上有意义的因果线索,以引导LLM生成目标策略。我们还通过PAC-Bayes框架提供了理论分析,证明在合理的预设条件下,LLM-TOC的收敛速率为???(1/√??< />,并且比参数空间探索方法能够获得更紧密的泛化误差界限。在Melting Pot基准测试中的实验表明,以预期的累积集体回报作为核心的零样本泛化指标,LLM-TOC在所有保留的测试场景中始终优于自我对弈基线(IPPO和MAPPO)和基于LLM推理的方法Hypothetical Minds,其性能达到了Oracle PPO上限的75%到85%。同时,以达到目标相对性能所需的RL环境交互步数作为核心效率指标,与主流基线相比,我们的框架将总训练计算成本降低了60%以上。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号