计算机科学>机器学习
职务: 学习不确定感知的临时扩展操作
摘要: 在强化学习中,动作空间中的时间抽象,以动作重复为例,是一种通过扩展动作促进政策学习的技术。 然而,在以前的动作重复研究中,一个主要的局限性是它可能会降低性能,特别是当重复次优动作时。 这个问题经常会否定重复动作的优点。 为了解决这个问题,我们提出了一种新的算法,称为不确定感知时态扩展(UTE)。 UTE使用集合方法来准确测量动作扩展过程中的不确定性。 该功能允许政策在强调勘探或采用针对其特定需求的不确定性规避方法之间进行战略性选择。 我们通过在Gridworld和Atari 2600环境中的实验证明了UTE的有效性。 我们的研究结果表明,UTE优于现有的动作重复算法,有效地缓解了其固有的局限性,并显著提高了策略学习效率。