下一个向上的以前的
下一步: 介绍


机器学习研究杂志(3)2002 145-174      于2001年10月提交;修订1/02;发布时间:8/02

 

$\varepsilon美元$-MDP:在不同环境中学习

伊斯特万·斯齐塔szityu@cs.elte.hu
巴林特·塔卡奇
deim@inf.elte.hu(英文)
安德拉斯·林茨(András Lőrincz)
lorincz@inf.elte.hu
埃特沃斯·洛兰大学信息系统系
Pázmány Péter sétány 1/C
匈牙利布达佩斯H-1117

 

编辑器:Sridhar Mahadevan

摘要

在本文中$\varepsilon美元$-引入MDP模型并收敛定理是使用Szepesvári的广义MDP框架和利特曼。使用这个模型族,我们表明Q-learning能够发现不同环境中的近最优策略。这个新家庭的潜力MDP模型的事件学习其将决策的优化与控制器分离。我们显示由特定控制器增强的事件学习$\varepsilon美元$-MDP,甚至可以实现近乎最佳的性能如果环境可能发生重大而突然的变化。插图关于两段摆问题。


\开始{关键字}强化学习、融合、事件学习、SARSA、MDP、,广义MDP,$\varepsilon$-MDP,SDS控制器\结束{关键字}