Taylor Expansion Policy Optimization

Yunhao Tang; Michal Valko; Remi Munos

泰勒展开策略优化

汤云浩、米查尔·瓦尔科、雷米·穆诺斯

第37届机器学习国际会议记录，第119:9397-94062020页。

摘要

在这项工作中，我们研究了泰勒展开在强化学习中的应用。特别地，我们提出了泰勒展开策略优化，这是一种策略优化形式，将先前的工作概括为一阶特例。我们还表明，泰勒展开与非政策评估密切相关。最后，我们表明，这种新的公式需要进行修改，以提高几种最先进的分布式算法的性能。

引用本文

BibTeX公司

@会议记录{pmlr-v119-tang20d，title={泰勒展开策略优化}，author={Tang、Yunhao和Valko、Michal和Munos、Remi}，booktitle={第37届机器学习国际会议论文集}，页数={9397--9406}，年份={2020年}，editor={III，哈尔·达姆和辛格，阿尔蒂}，体积＝{119}，series={机器学习研究论文集}，月={7月13日至18日}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v119/tang20d/tang20d.pdf},url={https://proceedings.mlr.press/v119/tang20d.html},抽象={在这项工作中，我们研究了泰勒展开式在强化学习中的应用。特别是，我们提出了泰勒展开策略优化，这是一种策略优化形式，它将先前的工作推广为一阶特例。我们还表明泰勒展开式与非策略评估密切相关。最后，我们证明了这种新的公式需要进行修改，以提高几种最先进的分布式算法的性能。}}

尾注

%0会议论文%T泰勒展开策略优化%汤云浩%米查尔·瓦尔科%雷米·穆诺斯%第37届机器学习国际会议论文集%C机器学习研究进展%D 2020年%哈尔·达梅三世%阿尔蒂·辛格%F pmlr-v119-tang20d型%我PMLR%电话：9397-9406%U型https://proceedings.mlr.press/v119/tang20d.html%V 119（伏119）%在这项工作中，我们研究了泰勒展开在强化学习中的应用。特别地，我们提出了泰勒展开策略优化，这是一种策略优化形式，将先前的工作概括为一阶特例。我们还表明，泰勒展开与非政策评估密切相关。最后，我们表明，这种新的公式需要进行修改，以提高几种最先进的分布式算法的性能。

亚太地区

Tang，Y.、Valko，M.和Munos，R.（2020年）。泰勒展开策略优化。第37届机器学习国际会议记录，英寸机器学习研究论文集119:9397-9406网址：https://proceedings.mlr.press/v119/tang20d.html。

泰勒展开策略优化

摘要

引用本文

相关材料