文件Zbl 1099.68699-zbMATH Open

时间差分学习算法的最坏情况分析。转载自《机器学习》22，第1-3期（1996年）。（英语） Zbl 1099.68699号

Kaelbling，Leslie Pack（编辑），强化学习的最新进展。转载自《机器学习》22，第1-3期（1996年）。马萨诸塞州波士顿：Kluwer学术出版社（ISBN 0-7923-9705-3/hbk）。95-121 (1996).

摘要：我们研究了一系列基于Sutton时间差异方法的学习算法的行为。在我们的在线学习框架中，学习是在一系列试验中进行的，学习算法的目标是估计未来将得到的所有增强的折现总和。在这种情况下，我们能够证明对Sutton的所谓TD（（gl）算法稍作修改的版本的性能的一般上界。这些界限是根据给定训练序列上最佳线性预测器的性能来确定的，并且在没有对生成学习者观察到的训练序列的过程进行任何统计假设的情况下进行了证明。我们还证明了该学习问题的任何算法的性能下限，并对密切相关的学习预测问题进行了类似的分析，在该模型中，学习者必须在接受强化之前对整批观察结果进行预测。
关于整个系列，请参见[兹比尔0948.00502].

引用于1文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

机器学习;时间差异学习;在线学习;最坏情况分析

PDF格式 BibTeX公司 XML格式引用

全文：内政部

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
皮	出版年份
车辆	评审员
立方厘米	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

时间差分学习算法的最坏情况分析。转载自《机器学习》22，第1-3期（1996年）。（英语） Zbl 1099.68699号

MSC公司：

关键词：

示例

领域

操作员

时间差分学习算法的最坏情况分析。转载自《机器学习》22，第1-3期（1996年）。 （英语） Zbl 1099.68699号

MSC公司：

关键词：

时间差分学习算法的最坏情况分析。转载自《机器学习》22，第1-3期（1996年）。（英语） Zbl 1099.68699号