泰勒展开策略优化

汤云浩、米查尔·瓦尔科、雷米·穆诺斯
第37届机器学习国际会议记录,第119:9397-94062020页。

摘要

在这项工作中,我们研究了泰勒展开在强化学习中的应用。特别地,我们提出了泰勒展开策略优化,这是一种策略优化形式,将先前的工作概括为一阶特例。我们还表明,泰勒展开与非政策评估密切相关。最后,我们表明,这种新的公式需要进行修改,以提高几种最先进的分布式算法的性能。

引用本文


BibTeX公司
@会议记录{pmlr-v119-tang20d,title={泰勒展开策略优化},author={Tang、Yunhao和Valko、Michal和Munos、Remi},booktitle={第37届机器学习国际会议论文集},页数={9397--9406},年份={2020年},editor={III,哈尔·达姆和辛格,阿尔蒂},体积={119},series={机器学习研究论文集},月={7月13日至18日},publisher={PMLR},pdf={http://proceedings.mlr.press/v119/tang20d/tang20d.pdf},url={https://proceedings.mlr.press/v119/tang20d.html},抽象={在这项工作中,我们研究了泰勒展开式在强化学习中的应用。特别是,我们提出了泰勒展开策略优化,这是一种策略优化形式,它将先前的工作推广为一阶特例。我们还表明泰勒展开式与非策略评估密切相关。最后,我们证明了这种新的公式需要进行修改,以提高几种最先进的分布式算法的性能。}}
尾注
%0会议论文%T泰勒展开策略优化%汤云浩%米查尔·瓦尔科%雷米·穆诺斯%第37届机器学习国际会议论文集%C机器学习研究进展%D 2020年%哈尔·达梅三世%阿尔蒂·辛格%F pmlr-v119-tang20d型%我PMLR%电话:9397-9406%U型https://proceedings.mlr.press/v119/tang20d.html%V 119(伏119)%在这项工作中,我们研究了泰勒展开在强化学习中的应用。特别地,我们提出了泰勒展开策略优化,这是一种策略优化形式,将先前的工作概括为一阶特例。我们还表明,泰勒展开与非政策评估密切相关。最后,我们表明,这种新的公式需要进行修改,以提高几种最先进的分布式算法的性能。
亚太地区
Tang,Y.、Valko,M.和Munos,R.(2020年)。泰勒展开策略优化。第37届机器学习国际会议记录,英寸机器学习研究论文集119:9397-9406网址:https://proceedings.mlr.press/v119/tang20d.html。

相关材料