强化学习中Softmax和Gap-Increased算子有效性和鲁棒性的理论分析
Tadashi Kozuno、Eiji Uchibe、Kenji Doya
第二十二届国际人工智能与统计会议记录,PMLR 89:2995-30032019年。
摘要
本文提出并分析了保守值迭代,它将值迭代、软值迭代、优势学习和动态策略规划统一起来。我们的分析表明,结合使用间隙增大和最大算子的算法对随机错误具有弹性,但对非随机错误没有弹性。相反,使用softmax运算符而不使用间隙增大运算符的算法对所有类型的错误都不太敏感,但可能显示出较差的渐近性能。使用间隙增大和softmax算子组合的算法更有效,可能会逐渐优于使用max算子的算法。这些理论结果不仅提供了对各种强化学习算法的深入理解,而且还突出了间隙增加算子的有效性,以及max算子对传统贪婪值更新的局限性。
引用本文
相关材料