×

SBEED公司

swMATH ID: 34727
软件作者: Bo Dai、Albert Shaw、Lihong Li、Lin Xiao、Niao He、Zhen Liu、Jianshu Chen、Le Song
描述: SBEED:非线性函数逼近的收敛强化学习。当使用函数逼近时,求解具有稳定性保证的Bellman最优方程一直是强化学习中的一个主要开放问题。基本困难在于,Bellman算子可能会成为一般的扩展,从而导致Q学习等流行算法的振荡甚至发散行为。在本文中,我们重新讨论了Bellman方程,并使用Nesterov的平滑技术和Legendre-Fincel变换将其重新构造为一个新的原对偶优化问题。然后,我们开发了一种新的算法,称为平滑Bellman错误嵌入,以解决可以使用任何可微函数类的优化问题。我们提供了一般非线性函数逼近的第一个收敛保证,并分析了算法的样本复杂度。从经验上讲,我们的算法在几个基准控制问题上优于最先进的基线。
主页: https://arxiv.org/abs/1712.10285
相关软件: OpenAI健身房githubWasserstein甘CVXPY公司像素x像素CycleGAN公司阿尔法零RMS公司亚当伦敦银行支持向量机多最小值UCI-毫升青蒿素DSCOVR公司MuJoCo公司基线火炬火炬差异平方英寸PILCO公司
引用于: 18文件

按年份列出的引文