×

时间差分学习算法的最坏情况分析。转载自《机器学习》22,第1-3期(1996年)。 (英语) Zbl 1099.68699号

Kaelbling,Leslie Pack(编辑),强化学习的最新进展。转载自《机器学习》22,第1-3期(1996年)。马萨诸塞州波士顿:Kluwer学术出版社(ISBN 0-7923-9705-3/hbk)。95-121 (1996).
摘要:我们研究了一系列基于Sutton时间差异方法的学习算法的行为。在我们的在线学习框架中,学习是在一系列试验中进行的,学习算法的目标是估计未来将得到的所有增强的折现总和。在这种情况下,我们能够证明对Sutton的所谓TD((gl)算法稍作修改的版本的性能的一般上界。这些界限是根据给定训练序列上最佳线性预测器的性能来确定的,并且在没有对生成学习者观察到的训练序列的过程进行任何统计假设的情况下进行了证明。我们还证明了该学习问题的任何算法的性能下限,并对密切相关的学习预测问题进行了类似的分析,在该模型中,学习者必须在接受强化之前对整批观察结果进行预测。
关于整个系列,请参见[兹比尔0948.00502].

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部