高斯-牛顿时序差分学习与非线性函数逼近

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

高斯-牛顿时序差分学习与非线性函数逼近

《IEEE Transactions on Neural Networks and Learning Systems》：Gauss–Newton Temporal Difference Learning With Nonlinear Function Approximation

【字体：大中小】 时间：2026年02月27日 来源：IEEE Transactions on Neural Networks and Learning Systems 8.9

编辑推荐：

　　提出基于高斯-牛顿迭代的GNTD学习方法，优化非线性Q函数近似，通过目标网络避免双采样，分析不精确步长确保高效计算，推导全局最优收敛性，样本复杂度提升至O(ε^{-1.5})，实验验证优于传统TD方法。

摘要：

在本文中，我们提出了一种高斯-牛顿时序差分（GNTD）学习方法，用于解决具有非线性函数逼近的学习问题。在每次迭代中，该方法采用高斯-牛顿（GN）步骤来优化一种改进的均方贝尔曼误差（MSBE）版本，同时利用目标网络避免双重采样。通过对不精确的GN步骤进行分析，我们可以安全且高效地通过廉价的矩阵运算来计算GN更新。在温和的条件下，对于各种非线性函数逼近，证明了该方法能够非渐近地、以有限样本量收敛到全局最优解。特别地，对于使用ReLU激活函数的神经网络参数化，GNTD的样本复杂度降低到了O（约为ε?1），而现有的神经时序差分（TD）方法的样本复杂度为ε?2。此外，对于一般的光滑函数逼近，GNTD的样本复杂度也达到了Oε?1.5。我们通过多个强化学习（RL）基准测试对这种方法进行了验证，结果表明GNTD不仅能够获得更高的奖励，而且收敛速度也比TD类型方法更快。

联系信箱：

粤ICP备09063491号

摘要：

热点排行