LLM-TOC:基于大语言模型(LLM)的思维理论对抗性课程,用于多智能体任务的泛化训练 作者:陈旭(Chenxu Wang)、袁江(Jiang Yuan)、于天奇(Tianqi Yu)、江新月(Xinyue Jiang)、向柳玉(Xiang Liuyu)、张俊杰(Junge Zhang)和何照峰(Zhaofeng He)

《Mathematics》:LLM-TOC: LLM-Driven Theory-of-Mind Adversarial Curriculum for Multi-Agent Generalization Chenxu Wang, Jiang Yuan, Tianqi Yu, Xinyue Jiang, Liuyu Xiang, Junge Zhang and Zhaofeng He

【字体: 时间:2026年03月09日 来源:Mathematics 2.2

编辑推荐:

  零样本泛化到未见对手和队友的多智能体系统挑战,LLM-TOC框架通过双层Stackelberg博弈实现动态策略生成,结合梯度显著性反馈提升效率,理论证明泛化误差界更优,实验显示性能达Oracle PPO的75%-85%且训练成本降低60%。

  

摘要

在多智能体系统(MASs)中,对分布外(OOD)的队友和对手进行零样本泛化仍然是通用AI面临的一个基本挑战,尤其是在开放式交互场景中。现有的多智能体强化学习(MARL)范式,如自我对弈和基于群体的训练,通常只能收敛到有限的纳什均衡子集,这使得智能体在面对语义多样且未见过的行为时变得脆弱。最近在运行时调用大型语言模型(LLMs)的方法可以提高适应性,但会引入较大的延迟,并且随着任务范围的扩大而变得不太可靠;相比之下,基于LLM的奖励塑造方法仍然受到内部强化学习循环效率低下的限制。为了解决这些限制,我们提出了LLM-TOC(LLM驱动的思维理论对抗性课程),它将泛化问题视为一个双层斯塔克伯格博弈:在内层循环中,一个MARL智能体(追随者)针对固定群体最小化遗憾;而在外层循环中,LLM充当语义预言机,在图灵完备的代码空间中生成可执行的对抗性或合作策略,以最大化智能体的遗憾。为了应对离散代码生成中缺乏梯度的问题,我们引入了梯度显著性反馈机制,将像素级别的价值波动转换为语义上有意义的因果线索,以引导LLM生成目标策略。我们还通过PAC-Bayes框架提供了理论分析,证明在合理的预设条件下,LLM-TOC的收敛速率为???(1/??< />,并且比参数空间探索方法能够获得更紧密的泛化误差界限。在Melting Pot基准测试中的实验表明,以预期的累积集体回报作为核心的零样本泛化指标,LLM-TOC在所有保留的测试场景中始终优于自我对弈基线(IPPO和MAPPO)和基于LLM推理的方法Hypothetical Minds,其性能达到了Oracle PPO上限的75%到85%。同时,以达到目标相对性能所需的RL环境交互步数作为核心效率指标,与主流基线相比,我们的框架将总训练计算成本降低了60%以上。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号