高斯-牛顿时序差分学习与非线性函数逼近

《IEEE Transactions on Neural Networks and Learning Systems》:Gauss–Newton Temporal Difference Learning With Nonlinear Function Approximation

【字体: 时间:2026年02月27日 来源:IEEE Transactions on Neural Networks and Learning Systems 8.9

编辑推荐:

  提出基于高斯-牛顿迭代的GNTD学习方法,优化非线性Q函数近似,通过目标网络避免双采样,分析不精确步长确保高效计算,推导全局最优收敛性,样本复杂度提升至O(ε^{-1.5}),实验验证优于传统TD方法。

  

摘要:

在本文中,我们提出了一种高斯-牛顿时序差分(GNTD)学习方法,用于解决具有非线性函数逼近的学习问题。在每次迭代中,该方法采用高斯-牛顿(GN)步骤来优化一种改进的均方贝尔曼误差(MSBE)版本,同时利用目标网络避免双重采样。通过对不精确的GN步骤进行分析,我们可以安全且高效地通过廉价的矩阵运算来计算GN更新。在温和的条件下,对于各种非线性函数逼近,证明了该方法能够非渐近地、以有限样本量收敛到全局最优解。特别地,对于使用ReLU激活函数的神经网络参数化,GNTD的样本复杂度降低到了O(约为ε?1),而现有的神经时序差分(TD)方法的样本复杂度为ε?2。此外,对于一般的光滑函数逼近,GNTD的样本复杂度也达到了Oε?1.5。我们通过多个强化学习(RL)基准测试对这种方法进行了验证,结果表明GNTD不仅能够获得更高的奖励,而且收敛速度也比TD类型方法更快。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号