下一步: 介绍
机器学习研究杂志(3)2002 145-174 于2001年10月提交;修订1/02;发布时间:8/02
-MDP:在不同环境中学习
伊斯特万·斯齐塔szityu@cs.elte.hu
巴林特·塔卡奇deim@inf.elte.hu(英文)
安德拉斯·林茨(András Lőrincz)lorincz@inf.elte.hu
埃特沃斯·洛兰大学信息系统系
Pázmány Péter sétány 1/C
匈牙利布达佩斯H-1117
编辑器:Sridhar Mahadevan
摘要
在本文中-引入MDP模型并收敛定理是使用Szepesvári的广义MDP框架和利特曼。使用这个模型族,我们表明Q-learning能够发现不同环境中的近最优策略。这个新家庭的潜力MDP模型的事件学习其将决策的优化与控制器分离。我们显示由特定控制器增强的事件学习到-MDP,甚至可以实现近乎最佳的性能如果环境可能发生重大而突然的变化。插图关于两段摆问题。