×

非参数信念下序贯抽样的最优学习。 (英语) Zbl 1331.90042号

作者考虑了在有限的可能方案集上最大化未知函数的问题。
他们提出了一种用于排序和选择问题的顺序学习策略,使用非参数程序估计策略的价值。他们的估计方法在一组核函数上进行聚合,以获得更一致的估计。最后的估计使用了一个加权方案核估计的均方误差作为权重。证明了该加权方案在独立核估计下是最优的。为了选择度量,作者采用了依赖于预测分布的知识梯度策略来计算最佳采样点。该方法允许设置期望信念相互关联但事先未知关联结构的设置。此外,该策略被证明是渐近最优的。

MSC公司:

90立方厘米 随机规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿格拉瓦尔:持续不断的武装土匪问题。SIAM J.控制优化。1926-1951年(1995年)·Zbl 0848.93069号 ·doi:10.1137/S0363012992237273
[2] Barton,R.R.,Meckesheimer,M.:第18章仿真中基于元模型的仿真优化。收录人:Henderson,S.G.,Nelson,B.L.(编辑)。《运筹学与管理科学手册》第13卷。Elsevier(第535-574页)(2006年)·Zbl 1280.68184号
[3] Billingsley,P.:《概率与测度》,第三版。Wiley-Interscience,纽约(1995)·Zbl 0822.60002号
[4] Branin,F.H.:求解联立非线性方程多解的广泛收敛方法。IBM J.Res.Dev.16,504-522(1972)·Zbl 0271.65034号 ·数字对象标识代码:10.1147/rd.165.0504
[5] Bunea,F.,Nobel,A.:条件平均数任意估计值的累加程序。IEEE传输。《Inf.Theory》54,1725-1735(2008)·Zbl 1329.62359号 ·doi:10.1109/TIT.2008.917657
[6] Chehrazi,N.,Weber,T.A.:决策问题的单调近似。操作。第58号决议,1158-1177(2010年)·Zbl 1228.90115号 ·数字对象标识代码:10.1287/opre.1100.0814
[7] Chick,S.E.,Gans,N.:模拟选择问题的经济分析。管理。科学。55, 421-437 (2009) ·doi:10.1287个/mnsc.1080.0949
[8] Cochran,W.G.,Cox,G.M.:实验设计。威利,纽约(1957)·Zbl 0077.13205号
[9] Fan,J.,Gijbels,I.:局部多项式建模及其应用:统计学与应用概率专著66(Chapman&Hall/CRC统计学与应用可能性专著)。查普曼和霍尔,伦敦(1996)·Zbl 0873.62037号
[10] Frazier,P.I.、Powell,W.B.、Dayanik,S.:顺序信息收集的知识粒度策略。SIAM J.控制优化。472410-2439(2008年)·Zbl 1274.62155号 ·数字对象标识代码:10.1137/070693424
[11] Frazier,P.I.,Powell,W.B.,Dayanik,S.:相关正常信念的知识梯度政策。信息J.计算。21, 599-613 (2009) ·Zbl 1243.91014号 ·doi:10.1287/ijoc.1080.0314
[12] Freund,Y.,Schapire,R.:在线学习的决策理论推广以及在计算学习理论中的应用。收录于:Vitanyi,P.(编辑),《计算机科学讲义》第904卷。施普林格·柏林,海德堡(1995)·Zbl 0880.68103号
[13] Fu,M.C.:第19章梯度估计。In:模拟。收录于:《运营研究和管理科学手册》第13卷亨德森·S.G.、纳尔逊·B.L.(编辑)。Elsevier,第575-616页(2006年)·Zbl 0827.62076号
[14] Gelman,A.,Carlin,J.B.,Stern,H.S.,Rubin,D.B.:贝叶斯数据分析,第二版(统计科学文本)。查普曼和霍尔/CRC,博卡拉顿(2003)
[15] George,A.、Powell,W.B.、Kulkarni,S.R.:使用多重聚合进行多属性资源管理的价值函数近似。J.马赫。学习。第9号决议,2079-2111(2008)·Zbl 1225.68180号
[16] Gibbs,M.:《回归和分类的贝叶斯-高斯过程》,论文。剑桥大学(1997)
[17] Ginebra,J.,Clayton,M.K.:应对表面强盗。J.R.统计社会服务。B(方法学)57,771-784(1995)·Zbl 0827.62076号
[18] Gittins J.,Jones D.(1974)实验顺序设计的动态分配指数。收录:Gani,J.、Sarkadi,K.、Vincze,I.(编辑)《统计学进展》。荷兰北部,阿姆斯特丹,第241-266页·兹伯利0303.62064
[19] Gittins,J.C.:班迪特过程和动态分配指数。J.R.统计社会服务。B(方法学)41,148-177(1979)·Zbl 0411.62055号
[20] Gupta,S.S.,Miescke,K.J.:贝叶斯前瞻性一阶段抽样分配,用于选择最佳人群。J.统计计划。推理,54,229-244。统计选择理论40年,第一部分(1996)·Zbl 0854.62018号
[21] Hardle,W.K.:应用非参数回归。剑桥大学出版社,剑桥(1992)·Zbl 0714.62030号
[22] Hardle,W.K.,Muller,M.,Sperlich,S.,Werwatz,A.:非参数和半参数模型。施普林格,柏林(2004)·Zbl 1059.62032号 ·doi:10.1007/978-3-642-17146-8
[23] Huang,D.,Allen,T.T.,Notz,W.I.,Zeng,N.:通过序列kriging元模型对随机黑盒系统进行全局优化。J.全球。最佳方案。34, 441-466 (2006) ·邮编1098.90097 ·doi:10.1007/s10898-005-2454-3
[24] Juditsky,A.,Nemirovski,A.:非参数回归的函数聚集。Ann.Stat.28,681-712(2000)·Zbl 1105.62338号 ·doi:10.1214/aos/1015951994
[25] Kaelbling,L.P.:嵌入式系统学习。麻省理工学院出版社,剑桥(1993)
[26] Kleinberg,R.:连环武装匪徒问题的边界几乎很紧。摘自:《神经信息处理系统进展》17,麻省理工学院出版社,第697-704页(2005年)·Zbl 1329.62359号
[27] Mes,M.R.,Powell,W.B.,Frazier,P.I.:顺序抽样的层次知识梯度。J.马赫。学习。第12号决议,2931-2974(2011年)·Zbl 1280.68184号
[28] Negoescu,D.M.,Frazier,P.I.,Powell,W.B.:药物发现中测序实验的知识粒度算法。信息J.计算。23, 346-363 (2011) ·兹比尔1243.92023 ·doi:10.1287/ijoc.1100.0417
[29] Nelson,B.L.,Swann,J.,Goldsman,D.,Song,W.:当备选方案数量较多时,选择最佳模拟系统的简单程序。Oper。第49号决议,950-963(2001年)·doi:10.1287/操作49.6.950.10019
[30] Olafsson,S.:《模拟》第21章元启发式。In:Henderson,S.G.,Nelson,B.L.(编辑)《运营研究和管理科学手册》第13卷。,第633-654页。爱思唯尔(2006)
[31] 鲍威尔,W.B.:近似动态规划:解决概率统计中维威利级数的问题。霍博肯·威利(2007)·Zbl 1156.90021号 ·数字对象标识代码:10.1002/9780470182963
[32] Powell,W.B.,Ryzhov,I.:最佳学习。费城威利(2012)·doi:10.1002/9781118309858
[33] Robbins,H.,Monro,S.:一种随机近似方法。安。数学。《统计》第22卷,第400-407页(1951年)·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[34] Ryzhov,I.,Powell,W.,Frazier,P.:一般在线学习问题的知识梯度算法,(2011)·Zbl 1241.90201号
[35] Spall,J.C.:随机搜索和优化简介。威利,纽约(2003)·邮编1088.90002 ·doi:10.1002/0471722138
[36] Sutton,R.S.,Barto,A.G.:强化学习简介。麻省理工学院出版社,剑桥(1998)
[37] Villemonteix,J.,Vazquez,E.,Walter,E.:费用评估函数全局优化的信息方法。J.全球。最佳方案。44, 509-534 (2009) ·Zbl 1180.90253号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。