$\varepsilon美元$ -MDP：在不同环境中学习

伊斯特万·斯齐塔szityu@cs.elte.hu
巴林特·塔卡奇deim@inf.elte.hu（英文）
安德拉斯·林茨（András Lőrincz）lorincz@inf.elte.hu
埃特沃斯·洛兰大学信息系统系
Pázmány Péter sétány 1/C
匈牙利布达佩斯H-1117

编辑器：Sridhar Mahadevan

摘要

在本文中 $\varepsilon美元$ -引入MDP模型并收敛定理是使用Szepesvári的广义MDP框架和利特曼。使用这个模型族，我们表明Q-learning能够发现不同环境中的近最优策略。这个新家庭的潜力MDP模型的事件学习其将决策的优化与控制器分离。我们显示由特定控制器增强的事件学习到 $\varepsilon美元$ -MDP，甚至可以实现近乎最佳的性能如果环境可能发生重大而突然的变化。插图关于两段摆问题。

$\开始{关键字}强化学习、融合、事件学习、SARSA、MDP、，广义MDP，$\varepsilon$-MDP，SDS控制器\结束{关键字}$

中的Q-learning广义MDP

不同MDP环境

插图：事件学习算法

计算演示：双连杆摆