×

多维连续空间上非线性参数信念模型的最优学习。 (英语) 兹比尔1404.62023

摘要:我们考虑优化一个参数形式已知但参数向量未知的昂贵函数(f(x;θ))的最优学习问题。对函数的观测可能涉及模拟或实验室或现场实验,既昂贵又嘈杂。我们的目标是在找到(x)的最佳值的同时学习真参数(θ)。我们开发了一种称为知识梯度的方法的有效实现,该方法可以优化每个实验的信息价值。我们的算法可以处理多维连续向量的(x)和(θ)。我们证明了我们的算法渐进地学习正确的(θ)和最佳的(x)值。实验表明,该算法即使在高维情况下也能快速收敛。

MSC公司:

62F07型 统计排名和选择程序
90立方厘米15 随机规划
90C59 数学规划中的近似方法和启发式
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] S.Agrawal和N.Goyal,多武器强盗问题的汤普森抽样分析《JMLR学习理论研讨会论文集》,2012年,第39.1–39.26页。
[2] E.J.Anderson和M.C.Ferris,带噪声函数求值优化的直接搜索算法、SIAM J.Optim.、。,11(2001),第837–857页·Zbl 1035.90106号
[3] D.V.Arnold和H.-G.Beyer,噪声存在下进化策略与其他直接搜索方法的比较,计算。最佳方案。申请。,24(2003),第135–159页·Zbl 1035.90110号
[4] J.-Y.Audibert和S.Bubeck,多武装匪徒的最佳手臂识别,《学习理论会议论文集》,2010年。
[5] P.Auer、N.Cesa-Bianchi和P.Fischer,多武器盗贼问题的有限时间分析,马赫。学习。,47(2002),第235–256页·Zbl 1012.68093号
[6] N.T.贝利,生物学中的统计方法,剑桥大学出版社,英国剑桥,1995年·Zbl 0092.37102号
[7] V.E.Bening和V.Y.Korolev,广义泊松模型及其在保险和金融中的应用Walter de Gruyter,柏林,2002年·Zbl 1041.60004号
[8] L.Bianchi、M.Dorigo、L.M.Gambardela和W.J.Gutjahr,随机组合优化的元启发式研究综述,自然计算。,8(2009年),第239-287页·Zbl 1162.90591号
[9] G.I.Bischi、A.K.Naimzada和L.Sbragia,局部垄断近似下的寡头博弈《经济学杂志》。行为。组织。,62(2007),第371-388页。
[10] A.J.Booker、J.E.Dennis、P.D.Frank、D.B.Serafini、V.Torczon和M.W.Trosset,通过代理优化昂贵函数的严格框架,结构。多磁盘。最佳。,17(1999),第1-13页。
[11] J.Branke、S.Meisel和C.Schmidt,噪声存在下的模拟退火《启发式杂志》,14(2007),第627-654页·Zbl 1173.90589号
[12] C.H.Chen、J.Lin、E.Yuïcesan和S.E.Chick,模拟预算分配以进一步提高顺序优化的效率,离散事件动态。系统。,10(2000),第251-270页·Zbl 0970.90014号
[13] S.Chen、K.Reyes、X.He、M.Gupta、J.Goodman、M.McAlpine和W.B.Powell,非中心齐方噪声分布下释放曲线匹配序贯实验的最优学习,工作文件,2016年。
[14] S.Chen、K.-R.G.Reyes、M.K.Gupta、M.C.McAlpine和W.B.Powell,基于知识梯度策略的实验设计优化学习及其在表征纳米乳液稳定性中的应用SIAM/ASA J.不确定性。数量。,3(2015),第320–345页·Zbl 1327.62098号
[15] S.E.Chick、J.Branke和C.Schmidt,连续抽样以使信息的期望值在短期内最大化,信息J.计算。,22(2010年),第71–80页·Zbl 1243.62005年
[16] A.R.Conn、K.Scheinberg和L.N.Vicente,无导数优化中插值集的几何性质,数学。程序。,111(2008),第141-172页·Zbl 1163.90022号
[17] G.Deng和M.C.Ferris,UOBYQA算法对噪声函数的自适应,《2006年冬季模拟会议记录》,第312–319页。
[18] M.Denny和S.Gaines,生物学中的机遇:利用概率探索自然普林斯顿大学出版社,新泽西州普林斯顿,2002年·Zbl 1032.92001年
[19] C.Elster和A.Neumaier,噪声函数优化的信赖域方法《计算》,58(1997),第31-46页·Zbl 0879.90166号
[20] P.I.Frazier、W.B.Powell和S.Dayanik,用于顺序信息收集的知识粒度策略SIAM J.控制优化。,47(2008),第2410–2439页·兹比尔1274.62155
[21] P.I.Frazier、W.B.Powell和S.Dayanik,相关正常信念的知识粒度策略,信息J.计算。,21(2009),第599–613页·Zbl 1243.91014号
[22] 傅家俊,随机梯度估计,国际。序列号。操作。资源管理科学。216,施普林格,商会,2015年,第105-147页。
[23] 傅敏川、胡锦秋、陈春海、熊晓霞,在相关采样条件下确定最佳设计的模拟分配,INFORMS J.计算。,19(2007年),第101-111页·Zbl 1241.62006年
[24] A.加西亚,电气工程的概率、统计和随机过程,Addison-Wesley,Reading,马萨诸塞州,2008年。
[25] D.戈德曼,排名和选择方法实用指南《运营研究革命》,D.M.Aleman和A.C.Thiele主编,《信息》,马里兰州卡通斯维尔,2015年,第89–110页。
[26] S.S.Gupta和K.J.Miescke,贝叶斯前瞻一阶段抽样分配用于选择最佳总体,J.Statist。计划。推理,54(1996),第229-244页·Zbl 0854.62018号
[27] J.M.Harrison、N.B.Keskin、A.Zeevi、J.Michael Harrisson、N.Bora Keskin和A.Zeevi,贝叶斯动态定价策略:二元先验分布下的学习与收益,管理。科学。,58(2012),第570-586页。
[28] T.Hastie、R.Tibshirani和J.Friedman,统计学习的要素:数据挖掘、推理和预测,Springer-verlag,纽约,2009年·Zbl 1273.62005年
[29] D.He、S.E.Chick和C.H.Chen,固定数量备选系统顺序优化中的机会成本和OCBA选择程序,IEEE传输。Systems Man Cybernet。C、 37(2007),第951-961页。
[30] X.他和W.B.鲍威尔,非线性参数置信模型随机优化的最优学习、SIAM J.Optim.、。,28(2018),第2327–2359页·Zbl 1400.90233号
[31] L.Hong和B.L.Nelson,模拟优化简介,《2009年冬季模拟会议记录》,第75-85页。
[32] H.Jiang和U.V.Shanbhag,不完全信息条件下随机优化问题的求解,《2013年冬季模拟会议记录》,第821-832页。
[33] H.Jiang和U.V.Shanbhag,不完全信息状态下随机优化和变分问题的解、SIAM J.Optim.、。,26(2016),第2394–2429页·兹比尔1356.90097
[34] L.P.Kaelbling,嵌入式系统学习麻省理工学院出版社,马萨诸塞州剑桥,1993年。
[35] A.I.Khuri和S.Mukhopadhyay,响应面方法Wiley Interdiscip。版次计算。Stat.,2(2010),第128–149页。
[36] J.Kiefer和J.Wolfowitz,回归函数最大值的随机估计,安。数学。《统计》,23(1952),第462-466页·Zbl 0049.36601号
[37] S.-H.Kim和B.L.Nelson,选择最佳系统《运营研究和管理科学手册》第13卷,爱思唯尔出版社,纽约,2006年·Zbl 1170.90300号
[38] S.-H.Kim和B.L.Nelson,排名和选择的最新进展,《2007年冬季模拟会议记录》,第162-172页。
[39] H.Kushner和D.Clark,约束和非约束系统的随机逼近方法1978年,柏林,施普林格-弗拉格出版社·Zbl 0381.60004号
[40] L.Ljung和S.Gunnarsson,系统识别中的适应和跟踪——综述《自动化》,第26卷(1990年),第7-21页·Zbl 0714.93053号
[41] A.里昂,为什么正态分布是正态分布?英国J.Philos。科学。,65(2014年),第621-649页·Zbl 1319.62010号
[42] K.L.Moore,确定性系统的迭代学习控制1993年,纽约施普林格-弗拉格出版社·Zbl 0773.93002号
[43] J.Muíller、C.A.Shoemaker和R.Picheí,SO-MI:一种用于计算昂贵的非线性混合整数黑箱全局优化问题的代理模型算法,计算。操作。决议,40(2013),第1383-1400页·Zbl 1352.90067号
[44] D.M.Negoescu、P.I.Frazier和W.B.Powell,药物发现中测序实验的知识粒度算法,信息J.计算。,23(2011年),第346–363页·Zbl 1243.92023号
[45] 圣奥拉夫松,元启发式《模拟》,S.G.Henderson和B.L.Nelson编辑,《操作手册》。资源管理。科学。13,Elsevier,纽约,2006年,第633-654页·Zbl 1170.90300号
[46] 彭彦、陈春晖、傅敏川和胡锦琼,动态抽样分配和设计选择,信息J.计算。,28(2016),第195–208页·Zbl 1343.90056号
[47] M.J.D.鲍威尔,UOBYQA:基于二次近似的无约束优化,数学。程序。B、 92(2002),第555-582页·Zbl 1014.65050号
[48] W.B.鲍威尔,近似动态规划:解决维数问题第二版,John Wiley and Sons,纽约,2011年·Zbl 1242.90002号
[49] W.B.Powell和I.O.Ryzhov,最佳学习约翰·威利父子公司,纽约,2012年。
[50] N.V.Queipo、R.T.Haftka、W.Shyy、T.Goel、R.Vaidyanathan和P.K.Tucker,基于代理的分析和优化,程序。Aerosp.航空公司。科学。,41(2005),第1-28页。
[51] R.G.Regis和C.A.Shoemaker,基于径向基函数的昂贵黑箱函数约束全局优化、J.Global Optim.、。,31(2005),第153-171页·Zbl 1274.90511号
[52] R.Y.Rubinstein和A.Shapiro,用得分函数法优化静态仿真模型,数学。计算。《模拟》,32(1990),第373–392页。
[53] D.Russo和B.Van Roy,通过后验抽样学习优化,数学。操作。研究,39(2014),第1221–1243页·Zbl 1310.93091号
[54] W.Scott、P.Frazier和W.Powell,高斯过程回归连续参数仿真优化的相关知识梯度、SIAM J.Optim.、。,21(2011),第996–1026页·Zbl 1229.62018号
[55] S.Singh、T.Jaakkola、M.L.Littman、C.Szepes和A.S.Hu,单步策略增强学习算法的收敛结果,马赫。学习。,39(2000),第287–308页·Zbl 0954.68127号
[56] J.斯派尔,随机搜索与优化导论第1版,威利出版社,纽约,2003年·邮编1088.90002
[57] R.Sutton和A.Barto,强化学习:简介麻省理工学院出版社,马萨诸塞州剑桥,1998年。
[58] F.Szidarovszky和J.Krawczyk,动态寡头垄断中的稳定学习,纯数学。应用程序。(Pu.M.A.),15(2004),第453-468页·Zbl 1136.91525号
[59] W.R.Thompson,考虑到两个样本的证据,一个未知概率超过另一个的可能性,Biometrika,25(1933),第285–294页。
[60] M.W.Trosset,直接搜索法在随机优化中的应用,技术报告,莱斯大学,德克萨斯州休斯顿,2000年。
[61] S.M.Wild、R.G.Regis和C.A.Shoemaker,ORBIT:通过信任区域中的径向基函数插值进行优化,SIAM J.科学。计算。,30(2008年),第3197–3219页·Zbl 1178.65065号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。