陈泰斯勒

上下文MDP中的反向强化学习
斯塔夫·贝洛戈洛夫斯基*、菲利普·科尔桑斯基*、谢·曼诺尔*、陈泰斯勒*和汤姆·扎哈维*
出版：Springer机器学习2021

现实世界中的顺序决策问题通常具有两个重要的属性——奖励函数通常未知，但可以获得专家演示，并且通常存在一个静态参数，也称为上下文，它决定了问题的某些方面。在这项工作中，我们形式化了上下文逆强化学习框架，提出了几种算法，并对其进行了理论和实证分析。

分配政策优化：连续控制的替代方法
Chen Tessler*、Guy Tennenholtz*和Shie Mannor
出版：2019年NeurIPS

我们提出了一种学习分布策略的方法，这些策略不限于参数分布函数（例如高斯和Delta）。该方法克服了连续控制下的次优局部极值问题。

动作鲁棒强化学习及其在连续控制中的应用
Chen Tessler、Yonathan Efroni和Shie Mannor
出版：2019年ICML

动作鲁棒性是鲁棒性的一种特殊情况，其中代理对所执行动作中的不确定性具有鲁棒性。我们（从理论上）表明，这种形式的鲁棒性具有有效的解决方案，并且（从经验上）可以产生对机器人领域常见不确定性具有鲁棒性的策略。

奖励约束政策优化
Chen Tessler、Daniel J.Mankowitz和Shie Mannor
出版：2019年ICLR

学习遵守行为约束的政策是一项重要任务。我们的算法RCPO不仅可以有效地满足折扣约束，还可以满足平均和概率约束。

采矿业终身学习的深层次方法
Chen Tessler*、Shahar Givony*、Tom Zahavy*、Daniel J.Mankowitz*和Shie Mannor
出版：AAAI 2017年

我们提出了一个终身学习系统，它能够重用知识并将知识从一个任务转移到另一个任务，同时有效地保留以前学习过的知识库。知识通过学习可重用技能来传递，以解决Minecraft中的任务，这是一款流行的视频游戏，是一个尚未解决的高维终身学习问题。