最近的帖子



深度强化学习奏效-现在怎么办?
可以放心地假设深层强化学习确实有效。这是由最近取得巨大成就的趋势所支持的。一个重要的问题是——现在怎么办?在这篇文章中,我对深度RL研究的某些趋势提出了质疑,并提出了一些见解和解决方案。
接受的论文
上下文MDP中的反向强化学习
斯塔夫·贝洛戈洛夫斯基*、菲利普·科尔桑斯基*、谢·曼诺尔*、陈泰斯勒*和汤姆·扎哈维*
出版:Springer机器学习2021

现实世界中的顺序决策问题通常具有两个重要的属性——奖励函数通常未知,但可以获得专家演示,并且通常存在一个静态参数,也称为上下文,它决定了问题的某些方面。在这项工作中,我们形式化了上下文逆强化学习框架,提出了几种算法,并对其进行了理论和实证分析。

 
分配政策优化:连续控制的替代方法
Chen Tessler*、Guy Tennenholtz*和Shie Mannor
出版:2019年NeurIPS

我们提出了一种学习分布策略的方法,这些策略不限于参数分布函数(例如高斯和Delta)。该方法克服了连续控制下的次优局部极值问题。

 
动作鲁棒强化学习及其在连续控制中的应用
Chen Tessler、Yonathan Efroni和Shie Mannor
出版:2019年ICML

动作鲁棒性是鲁棒性的一种特殊情况,其中代理对所执行动作中的不确定性具有鲁棒性。我们(从理论上)表明,这种形式的鲁棒性具有有效的解决方案,并且(从经验上)可以产生对机器人领域常见不确定性具有鲁棒性的策略。

 
奖励约束政策优化
Chen Tessler、Daniel J.Mankowitz和Shie Mannor
出版:2019年ICLR

学习遵守行为约束的政策是一项重要任务。我们的算法RCPO不仅可以有效地满足折扣约束,还可以满足平均和概率约束。

 
采矿业终身学习的深层次方法
Chen Tessler*、Shahar Givony*、Tom Zahavy*、Daniel J.Mankowitz*和Shie Mannor
出版:AAAI 2017年

我们提出了一个终身学习系统,它能够重用知识并将知识从一个任务转移到另一个任务,同时有效地保留以前学习过的知识库。知识通过学习可重用技能来传递,以解决Minecraft中的任务,这是一款流行的视频游戏,是一个尚未解决的高维终身学习问题。