文件Zbl 0657.68062-zbMATH Open

B.J.奥门。;J.P.R.克里斯滕森。

\（epsilon）-最优离散线性回报学习自动机。（英语） Zbl 0657.68062号

IEEE传输。系统。人类网络。 18，第3期，451-458（1988）.

我们考虑可变结构随机自动机（VSSA），它与环境交互，并动态学习环境提供的最佳操作。与所有VSSA一样，自动机完全由一组动作概率更新规则定义[V.I.瓦尔沙夫斯基和I.P.沃伦科娃，自动。遥控器24，327-333（1963），翻译自Avtom。Telemekh公司。24353-360（1963年；兹bl 0122.375）；K.S.纳伦德拉和M.A.L.Thathachar先生，IEEE传输。系统。人类网络。SMC-4323-334（1974年；Zbl 0279.68067号)]. 然而，为了最小化对用于实现VSSA的随机数生成器的要求，并提高自动机的收敛速度，我们考虑了概率函数只能假设有限个值的情况。这些值离散化了概率空间[0,1]，因此它们被称为离散化学习自动机。离散自动机是线性的，因为[0,1]的子区间长度相等。
我们将证明以下结果：a）在最小惩罚概率小于0.5的所有环境中，二作用离散化线性奖惩自动机是遍历的和（epsilon）-最优的；b）在所有随机环境中，存在遍历且（epsilon）最优的离散化二作用线性奖惩自动机；和c）带有人工创建的吸收屏障的离散化二作用线性奖励-优惠自动机在所有随机环境中都是最优的。除上述理论结果外，还将提供仿真结果，以表明所讨论的自动机的特性。文中还给出了所有这些自动机的收敛速度和一些尚未解决的问题。

引用于2文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
65年第68季度	形式语言和自动机

关键词：

变结构随机自动机;动作概率更新规则;随机数发生器;离散学习自动机

引文：

Zbl 0122.375号;Zbl 0279.68067号

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

\（epsilon）-最优离散线性回报学习自动机。（英语） Zbl 0657.68062号

MSC公司：

关键词：

引文：

示例

领域

操作员

\（epsilon）-最优离散线性回报学习自动机。 （英语） Zbl 0657.68062号

MSC公司：

关键词：

引文：

\（epsilon）-最优离散线性回报学习自动机。（英语） Zbl 0657.68062号