SBEED公司 swMATH ID: 34727 软件作者: Bo Dai、Albert Shaw、Lihong Li、Lin Xiao、Niao He、Zhen Liu、Jianshu Chen、Le Song 描述: SBEED:非线性函数逼近的收敛强化学习。当使用函数逼近时,求解具有稳定性保证的Bellman最优方程一直是强化学习中的一个主要开放问题。基本困难在于,Bellman算子可能会成为一般的扩展,从而导致Q学习等流行算法的振荡甚至发散行为。在本文中,我们重新讨论了Bellman方程,并使用Nesterov的平滑技术和Legendre-Fincel变换将其重新构造为一个新的原对偶优化问题。然后,我们开发了一种新的算法,称为平滑Bellman错误嵌入,以解决可以使用任何可微函数类的优化问题。我们提供了一般非线性函数逼近的第一个收敛保证,并分析了算法的样本复杂度。从经验上讲,我们的算法在几个基准控制问题上优于最先进的基线。 主页: https://arxiv.org/abs/1712.10285 相关软件: OpenAI健身房;github;Wasserstein甘;CVXPY公司;像素x像素;CycleGAN公司;AlphaZero(零字母);RMS公司;亚当;伦敦银行支持向量机;多最小值;UCI-毫升;青蒿素;DSCOVR公司;MuJoCo公司;基线;火炬;火炬差异;SQIL公司;PILCO公司 引用于: 18文件 全部的 前5名62位作者引用 2 岑世聪 2 陈雨欣 2 池跃杰 2 梅萨姆·拉扎维亚因 1 理查德·阿奇博尔德 1 阿扎姆·阿斯尔 1 Krishnakumar Balasubramanian 1 包,冯 1 鲍旭灿 1 阿纳·布西奇 1 曹燕钊 1 陈伟杰 1 陈欣 1 陈诚 1 阿迪蒂亚·德夫拉吉。 1 迪尔隆(Dhillon,Inderjit S.)。 1 冯、梁 1 罗杰·格罗斯 1 本·M·汉布利。 1 他,尼奥 1 洪明毅 1 胡一凡 1 黄、白鹤 1 Jason D·李。 1 Laurent Lessard 1 李浩亚 1 李永丰 1 林启航 1 刘明瑞 1 安德鲁·洛伊 1 陆海浩 1 马世谦 1 阿西克·鲁帕姆·马哈茂德 1 Guglielmo Manneschi 1 阿尔贝托·玛丽亚·梅特利 1 肖恩·梅恩(Sean P.Meyn)。 1 德米特里·奥斯特罗夫斯基。 1 潘伟伟 1 拉菲克·哈桑 1 马塞洛·雷斯特利 1 沈晶晶 1 理查德·萨顿。 1 谭涛 1 王梦迪 1 王中若 1 魏玉婷 1 文,在文 1 谢、洪 1 徐仁元 1 徐,子 1 杨惠宁 1 杨金文 1 杨天宝 1 英、乐兴 1 余湘富 1 于慧珍 1 詹文浩 1 张国栋 1 张,何 1 张俊宇 1 张树忠 1 赵明明 全部的 前5名10连载 6 SIAM优化杂志 三 机器学习研究杂志(JMLR) 1 信息科学 1 运筹学 1 机器学习 1 全球优化杂志 1 数学编程。A系列B系列 1 计算优化与应用 1 数学金融学 1 离散和连续动力系统。S系列 全部的 前5名在8个字段中引用 11 计算机科学(68至XX) 11 运筹学、数学规划(90-XX) 三 数值分析(65-XX) 三 系统论;控制(93至XX) 2 概率论与随机过程(60-XX) 2 博弈论、经济学、金融和其他社会和行为科学(91-XX) 1 变分法与最优控制;最优化(49至XX) 1 统计学(62-XX) 按年份列出的引文