×

从强盗到Monte-Carlo树搜索:乐观原则应用于优化和规划。 (英语) Zbl 1296.91086号

小结:这项工作涵盖了在有限数值预算下应用于大规模优化问题的乐观主义面对不确定性原则的几个方面。本文所报告的研究的最初动机来源于计算机围棋中推广的所谓蒙特卡罗树搜索方法的经验成功,并进一步扩展到许多其他游戏以及优化和规划问题。我们的目标是通过描述底层优化问题的复杂性,并设计具有性能保证的高效算法,为该领域的理论基础发展做出贡献。
这里提出的主要思想是,可以将复杂的决策问题(例如大型搜索空间中的优化问题)分解为一系列基本决策,其中序列中的每个决策都使用(随机)多武装土匪(随机环境中决策的简单数学模型)。这种所谓的等级盗贼方法(在等级中,一个盗贼观察到的回报本身就是另一个盗匪在更深层次上的回归)具有一个很好的特点,即通过对空间的准均匀采样开始探索,然后以不同的尺度逐步聚焦于最有希望的区域,根据迄今为止观察到的评估,直到最终围绕函数的全局最优值执行局部搜索。该方法的性能是根据返回解的最优性作为函数求值次数的函数来评估的。
我们对函数优化领域的主要贡献是为一般搜索空间(如度量空间、树、图、欧几里德空间)设计了一类分层乐观算法,根据计算结果是有噪声还是无噪声,以及“平滑度”的某些度量,使用不同的算法实例化函数的已知或未知。算法的性能取决于函数围绕其全局最优值的“局部”行为,用某种度量度量的近最优状态数量表示。如果函数的局部光滑性已知,则可以设计非常有效的优化算法(收敛速度与空间维数无关)。当这些信息未知时,可以构建自适应技术,在某些情况下,其性能几乎与已知时一样好。
为了自包含,我们首先在第1章中简要介绍了随机多臂盗贼问题,并描述了UCB(上置信限)策略和几个扩展。在第二章中,我们介绍了蒙特卡罗树搜索方法在计算机围棋中的应用,并说明了以前算法的局限性,如UCT(UCB应用于树)。这为设计理论上完善的乐观优化算法提供了动机。第3章和第4章介绍了分层乐观优化的主要贡献,其中介绍了半度量空间的一般设置,并提出和分析了针对半度量优化假定为局部光滑(围绕其最大值)的函数的算法。第3章考虑了半度量已知并且可以由算法使用的情况,而第4章考虑了半度量未知的情况,并描述了一种自适应技术,该技术几乎与已知时一样好。最后,在第5章中,我们描述了一个特定结构化问题的乐观策略,即具有无限水平折扣回报的马尔可夫决策过程中的规划问题。

MSC公司:

91B06型 决策理论
90C06型 数学规划中的大尺度问题
90立方厘米 马尔可夫和半马尔可夫决策过程
90C27型 组合优化
90B50型 管理决策,包括多个目标
90立方厘米 随机规划
65二氧化碳 蒙特卡罗方法
60克40 停车时间;最优停车问题;赌博理论
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部