Theoretical Analysis of Efficiency and Robustness of Softmax and Gap-Increasing Operators in Reinforcement Learning

Tadashi Kozuno; Eiji Uchibe; Kenji Doya

强化学习中Softmax和Gap-Increased算子有效性和鲁棒性的理论分析

Tadashi Kozuno、Eiji Uchibe、Kenji Doya

第二十二届国际人工智能与统计会议记录，PMLR 89:2995-30032019年。

摘要

本文提出并分析了保守值迭代，它将值迭代、软值迭代、优势学习和动态策略规划统一起来。我们的分析表明，结合使用间隙增大和最大算子的算法对随机错误具有弹性，但对非随机错误没有弹性。相反，使用softmax运算符而不使用间隙增大运算符的算法对所有类型的错误都不太敏感，但可能显示出较差的渐近性能。使用间隙增大和softmax算子组合的算法更有效，可能会逐渐优于使用max算子的算法。这些理论结果不仅提供了对各种强化学习算法的深入理解，而且还突出了间隙增加算子的有效性，以及max算子对传统贪婪值更新的局限性。

引用本文

BibTeX公司

@会议记录{pmlr-v89-kozuno19a，title={Softmax和Gap-Increased算子在强化学习中的效率和鲁棒性的理论分析}，author={Kozuno、Tadashi和Uchibe、Eiji和Doya、Kenji}，booktitle={第二十二届国际人工智能与统计会议论文集}，页数={2995--3003}，年份={2019}，editor={Chaudhuri，Kamalika和Sugiyama，Masashi}，体积={89}，series={机器学习研究论文集}，月={4月16日--18日}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v89/kozuno19a/kozuno 19a.pdf},网址={https://proceedings.mlr.press/v89/kozuno19a.html},抽象={在本文中，我们提出并分析了保守值迭代，它将值迭代、软值迭代、优势学习和动态策略规划相结合。我们的分析表明，使用间隙增加和最大算子组合的算法对随机误差有弹性，但对非随机误差没有弹性。相反使用softmax算子而不使用间隙增大算子的算法对所有类型的错误都不太敏感，但可能表现出较差的渐近性能。使用间隙增大和softmax算子组合的算法更有效，可能会逐渐优于使用max算子的算法。这些理论结果不仅提供了对各种强化学习算法的深入理解，而且还突出了gap-increased算子的有效性，以及max算子进行传统贪婪值更新的局限性。}}

尾注

%0会议论文%Softmax和Gap递增算子在强化学习中的有效性和鲁棒性的T理论分析%A Tadashi Kozuno公司%内知英二%一个Kenji Doya%第二十二届国际人工智能与统计会议论文集%C机器学习研究进展%D 2019年%E卡马利卡·乔杜里%E Masashi Sugiyama公司%对于pmlr-v89-kozuno19a%我PMLR%电话2995--3003%U型https://proceedings.mlr.press/v89/kozuno19a.html%89伏%X在本文中，我们提出并分析了保守值迭代，它统一了值迭代、软值迭代、优势学习和动态策略规划。我们的分析表明，结合使用间隙增大和最大算子的算法对随机错误具有弹性，但对非随机错误没有弹性。相反，使用softmax运算符而不使用间隙增大运算符的算法对所有类型的错误都不太敏感，但可能显示出较差的渐近性能。使用间隙增大和softmax算子组合的算法更有效，可能会逐渐优于使用max算子的算法。这些理论结果不仅提供了对各种强化学习算法的深入理解，而且还突出了间隙增大算子的有效性，以及最大算子进行传统贪婪值更新的局限性。

亚太地区

Kozuno，T.、Uchibe，E.和Doya，K.（2019年）。强化学习中Softmax和Gap-Increased算子效率和鲁棒性的理论分析。第二十二届国际人工智能与统计会议记录，英寸机器学习研究进展89:2995-3003网址：https://proceedings.mlr.press/v89/kozuno19a.html。

强化学习中Softmax和Gap-Increased算子有效性和鲁棒性的理论分析

摘要

引用本文

相关材料