计算机科学>机器学习
标题: 去噪MDP:学习世界模型比学习世界本身更好
摘要: 将信号与噪声分离的能力,以及用干净的抽象进行推理的能力,对智能至关重要。 有了这种能力,人类可以在不考虑所有可能的麻烦因素的情况下高效地执行现实世界中的任务。 人工制剂如何做到这一点? 代理可以安全地将哪些信息作为噪音丢弃? 在这项工作中,我们根据可控性和与报酬的关系将野外信息分为四类,并将有用信息表述为可控和报酬相关的信息。 该框架澄清了强化学习(RL)中表征学习的各种先前工作所去除的信息类型,并引出了我们提出的学习去噪MDP的方法,该方法明确排除了某些噪声干扰因素。 对DeepMind Control Suite和RoboDesk的变体进行的大量实验表明,我们的去噪世界模型在策略优化控制任务以及联合位置回归的非控制任务中的性能优于单独使用原始观测值和之前的工作。