×

\(epsilon)-最优离散线性回报学习自动机。 (英语) Zbl 0657.68062号

我们考虑可变结构随机自动机(VSSA),它与环境交互,并动态学习环境提供的最佳操作。与所有VSSA一样,自动机完全由一组动作概率更新规则定义[V.I.瓦尔沙夫斯基I.P.沃伦科娃,自动。遥控器24,327-333(1963),翻译自Avtom。Telemekh公司。24353-360(1963年;兹bl 0122.375);K.S.纳伦德拉M.A.L.Thathachar先生,IEEE传输。系统。人类网络。SMC-4323-334(1974年;Zbl 0279.68067号)]. 然而,为了最小化对用于实现VSSA的随机数生成器的要求,并提高自动机的收敛速度,我们考虑了概率函数只能假设有限个值的情况。这些值离散化了概率空间[0,1],因此它们被称为离散化学习自动机。离散自动机是线性的,因为[0,1]的子区间长度相等。
我们将证明以下结果:a)在最小惩罚概率小于0.5的所有环境中,二作用离散化线性奖惩自动机是遍历的和(epsilon)-最优的;b) 在所有随机环境中,存在遍历且(epsilon)最优的离散化二作用线性奖惩自动机;和c)带有人工创建的吸收屏障的离散化二作用线性奖励-优惠自动机在所有随机环境中都是最优的。除上述理论结果外,还将提供仿真结果,以表明所讨论的自动机的特性。文中还给出了所有这些自动机的收敛速度和一些尚未解决的问题。

MSC公司:

68T05型 人工智能中的学习和自适应系统
65年第68季度 形式语言和自动机
PDF格式BibTeX公司 XML格式引用
全文: DOI程序