一般来说,对多臂机器人的研究是在这样的背景下进行的,即在无限时间范围内的每一个时间步长,控制器选择在单个周期内激活一个独立过程的有限集合(统计实验、种群等)中的单个过程或强盗,获得奖励,这是激活过程的一个功能,并在这样做的过程中推进所选的过程。经典的做法是,每轮奖励以常数因子β∈(0,1)进行折扣。
在本文中,我们提出了一个问题的解决方案,该问题具有潜在的非马尔可夫、不可计数的状态空间奖励过程,在该框架下,首先,折扣因子可能是不均匀的并且随着时间的推移而变化,其次,每个强盗的激活周期可能不是固定的或均匀的,相反,在更改为另一个强盗之前,可能会有一个随机的激活持续时间。该解决方案基于广义状态重启指数,并将问题视为“基于状态空间的决策”,而是“基于时间的决策”。