B.J.奥门。;J.P.R.克里斯滕森。 \(epsilon)-最优离散线性回报学习自动机。 (英语) Zbl 0657.68062号 IEEE传输。系统。人类网络。 18,第3期,451-458(1988). 我们考虑可变结构随机自动机(VSSA),它与环境交互,并动态学习环境提供的最佳操作。与所有VSSA一样,自动机完全由一组动作概率更新规则定义[V.I.瓦尔沙夫斯基和I.P.沃伦科娃,自动。遥控器24,327-333(1963),翻译自Avtom。Telemekh公司。24353-360(1963年;兹bl 0122.375);K.S.纳伦德拉和M.A.L.Thathachar先生,IEEE传输。系统。人类网络。SMC-4323-334(1974年;Zbl 0279.68067号)]. 然而,为了最小化对用于实现VSSA的随机数生成器的要求,并提高自动机的收敛速度,我们考虑了概率函数只能假设有限个值的情况。这些值离散化了概率空间[0,1],因此它们被称为离散化学习自动机。离散自动机是线性的,因为[0,1]的子区间长度相等。我们将证明以下结果:a)在最小惩罚概率小于0.5的所有环境中,二作用离散化线性奖惩自动机是遍历的和(epsilon)-最优的;b) 在所有随机环境中,存在遍历且(epsilon)最优的离散化二作用线性奖惩自动机;和c)带有人工创建的吸收屏障的离散化二作用线性奖励-优惠自动机在所有随机环境中都是最优的。除上述理论结果外,还将提供仿真结果,以表明所讨论的自动机的特性。文中还给出了所有这些自动机的收敛速度和一些尚未解决的问题。 引用于2文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 65年第68季度 形式语言和自动机 关键词:变结构随机自动机;动作概率更新规则;随机数发生器;离散学习自动机 引文:Zbl 0122.375号;Zbl 0279.68067号 PDF格式BibTeX公司 XML格式引用 \textit{B.J.Oommen}和\textit{J.P.R.Christensen},IEEE Trans。系统。人类网络。18,第3号,451--458(1988;Zbl 0657.68062) 全文: DOI程序