×

高斯过程模型的基于交叉验证的自适应采样。 (英语) Zbl 1493.62473号

摘要:在许多现实世界的应用中,我们感兴趣的是用最小数量的函数评估尽可能准确地近似黑盒、昂贵的函数。复杂的计算机代码就是这样一个函数的例子。在这项工作中,使用高斯过程(GP)仿真器来近似复杂计算机代码的输出。我们考虑按顺序扩展初始实验(一组模型运行)以改进模拟器的问题。提出了一种基于leave-one-out(LOO)交叉验证的顺序抽样方法,该方法可以很容易地扩展到批处理模式。这是一个理想的特性,因为当并行计算可用时,它可以节省用户时间。将GP拟合到训练数据点后,在每个设计点计算预期的平方LOO(ES-LOO)误差。ES-LOO被用作识别重要数据点的措施。更准确地说,当该数量在某一点较大时,这意味着预测的质量在很大程度上取决于该点,并且在附近添加更多样本可以提高GP的准确性。因此,选择ES-LOO最大化的下一个样本是合理的。然而,ES-LOO仅在实验设计中已知,需要在未观察到的点进行估计。为此,将第二个GP拟合到ES-LOO误差中,并选择修改后的预期改进(EI)标准中出现最大值的地方作为下一个样本。EI是贝叶斯优化中一种流行的获取函数,用于在局部搜索和全局搜索之间进行权衡。然而,它有开发的趋势,这意味着它的最大值接近(当前)“最佳”样本。为了避免聚类,采用了一种被称为伪预期改进的EI修改版本,它比EI更具探索性,但允许我们发现未探索的区域。我们的结果表明,所提出的抽样方法是有前途的。

MSC公司:

62K99型 统计实验设计
62升05 顺序统计设计
62M20型 随机过程推断和预测
60G15年 高斯过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] S.Arlot和A.Celisse,模型选择交叉验证程序调查,统计调查。,4(2010年),第40-79页,https://doi.org/10.1214/09-SS054。 ·兹比尔1190.62080
[2] V.Aute、K.Saleh、O.Abdelaziz、S.Azarm和R.Radermacher,基于交叉验证的单响应自适应实验设计,用于确定性计算机模拟的克里格元建模,Struct。多磁盘。最佳。,48(2013),第581-605页,https://doi.org/10.1007/s00158-013-0918-5。
[3] F.Bachoc,模型错误高斯过程超参数的交叉验证和最大似然估计,计算。统计。数据分析。,66(2013),第55-69页·Zbl 1471.62021号
[4] G.A.Banyay、M.D.Shields和J.C.Brigham,《使用克里金替代物对核反应堆组件流致振动进行有效的全局敏感性分析》,核工程设计。,341(2019),第1-15页,https://doi.org/10.1016/j.nocengdes.2018.10.013。
[5] J.Beck和S.Guillas,《计算机实验的交互信息顺序设计(MICE):海啸模型的仿真》,SIAM/ASA J.Uncertain。数量。,4(2016),第739-766页,https://doi.org/10.1137/10989613。 ·Zbl 1349.62364号
[6] E.N.Ben-Ari和D.M.Steinberg,《计算机实验数据建模:克里金与火星和投影寻踪回归的经验比较》,Qual。Enrg,19(2007),第327-338页,https://doi.org/10.1080/08982110701580930。
[7] M.Ben Salem、O.Roustant、F.Gamboa和L.Tomaso,代理模型的通用预测分布,SIAM/ASA J.不确定性。数量。,5(2017),第1086-1109页,https://doi.org/10.1137/15M1053529。 ·Zbl 06861784号
[8] G.E.P.Box和J.S.Hunter,分数阶乘设计第二部分,技术计量学,3(1961),第449-458页·Zbl 0100.14406号
[9] P.-C.Buörkner、J.Gabry和A.Vehtari,贝叶斯时间序列模型的近似离职交叉验证,J.Stat.Compute。模拟。,90(2020年),第2499-2523页,https://doi.org/101080/00949655.2020.1783262。 ·Zbl 07480189号
[10] E.Brochu、V.M.Cora和N.de Freitas,《昂贵成本函数的贝叶斯优化教程及其在主动用户建模和分层强化学习中的应用》,预印本,arXiv:1012.2599[cs.LG],2010年。
[11] A.D.Bull,高效全局优化算法的收敛速度,J.Mach。学习。Res.,12(2011),第2879-2904页·Zbl 1280.90094号
[12] O.Dubrule,《独特邻域中克里金的交叉验证》,J.Int.Assoc.Math。地质。,15(1983年),第687-699页,https://doi.org/10.1007/BF01033232。
[13] D.Dupuy、C.Helbert和J.Franco、DiceDesign和DiceEval:计算机实验设计和分析的两个R包,J.Statist。《软件》,65(2015),第1-38页,https://doi.org/10.18637/jss.v065.i11。
[14] J.H.Friedman,多元自适应回归样条,《统计年鉴》。,19(1991),第1-67页·Zbl 0765.62064号
[15] S.S.Garud、I.A.Karimi和M.Kraft,《计算机实验设计:综述》,《计算机》。化学。工程,106(2017),第71-95页,https://doi.org/10.1016/j.com.pchemeng.2017.05.010。
[16] A.Gelman、J.Carlin、H.Stern、D.Dunson、A.Vehtari和D.Rubin,《贝叶斯数据分析》,第三版,查普曼和霍尔/CRC文本统计科学。序列号。,CRC出版社,佛罗里达州博卡拉顿,2013年·Zbl 1279.62004号
[17] D.Ginsbourger和C.Schaörer,高斯过程多重交叉验证残差及其协方差的快速计算,预印本,arXiv:2101.03108[stat.ME],2021,https://arxiv.org/abs/2101.03108。
[18] R.B.Gramacy和H.K.H.Lee,超级计算机实验的自适应设计和分析,《技术计量学》,51(2009),第130-145页,https://doi.org/10.1198/TECH.2009.0015。
[19] L.L.Gratiet和C.Cannamela,《使用多保真计算机代码快速交叉验证技术的基于协克里金的序列设计策略》,《技术计量学》,57(2015),第418-427页,https://doi.org/10.1080/00401706.2014.928233。
[20] B.Haaland和P.Z.G.Qian,《大型计算机实验的精确模拟器》,《统计年鉴》。,39(2011),第2974-3002页,https://doi.org/10.1214/11-AOS929。 ·Zbl 1246.65172号
[21] M.Jamil和X.S.Yang,《全局优化问题基准函数的文献综述》,国际数学杂志。模型。数字。最佳。,4(2013),第150-194页,https://doi.org/10.1504/IJMMNO.2013.055204。 ·Zbl 1280.65053号
[22] R.Jin、W.Chen和A.Sudjianto,《工程设计中全局元建模的顺序抽样》,载《会议记录:设计工程技术会议和工程中的计算机和信息》,第2卷,ASME,2002年,第539-548页。
[23] M.Johnson、L.Moore和D.Ylvisaker,Minimax和maximin距离设计,J.Statist。计划。推理,26(1990),第131-148页,https://doi.org/10.1016/0378-3758(90)90122-B。
[24] D.R.Jones,基于响应面的全局优化方法分类,J.global Optim。,21(2001),第345-383页,https://doi.org/10.1023/A:1012771025575。 ·Zbl 1172.90492号
[25] D.R.Jones、M.Schonlau和W.J.Welch,昂贵黑盒函数的高效全局优化,J.global Optim。,13(1998),第455-492页,https://doi.org/10.1023/A:1008306431147。 ·Zbl 0917.90270号
[26] V.R.Joseph,《计算机实验的空间填充设计:综述》,Qual。工程,28(2016),第28-35页,https://doi.org/10.1080/08822112.2015.1100447。
[27] C.Karel、D.Gorissen、D.Deschrijver和T.Dhaene,计算机实验全球替代建模的新型混合序列设计策略,SIAM J.Sci。计算。,33(2011),第1948-1974页,https://doi.org/10.1137/090761811。 ·Zbl 1227.62059号
[28] J.Koehler和A.Owen,计算机实验,实验设计和分析,统计手册。13,Elsevier,阿姆斯特丹,1996年,第261-308页,https://doi.org/10.1016/S0169-7161(96)13011-X·Zbl 0919.62089号
[29] A.Krause、A.Singh和C.Guestrin,《高斯过程中的近最优传感器布置:理论、高效算法和实证研究》,J.Mach。学习。Res.,9(2008),第235-284页·Zbl 1225.68192号
[30] C.Q.Lam,响应面模型拟合计算机实验中的顺序自适应设计,俄亥俄州立大学博士论文,俄亥俄州哥伦布,2008年。
[31] L.Le Gratiet和C.Cannamela,《使用多保真计算机代码快速交叉验证技术的基于协克里金的序列设计策略》,《技术计量学》,57(2015),第418-427页。
[32] G.Li、V.Aute和S.Azarm,离线元建模实验的基于累积误差的自适应设计,Struct。多磁盘。最佳。,40(2009),第137-157页,https://doi.org/10.1007/s00158-009-0395-z。
[33] H.Liang、M.Zhu和Z.Wu,《使用交叉验证设计克里格替代模型中的趋势函数》,美国农业协会期刊,52(2014),第2313-2327页,https://doi.org/10.2514/1.J052879。
[34] D.Liu、A.Litvinenko、C.Schillings和V.Schulz,翼型几何形状引起的气动不确定性量化方法比较,SIAM/ASA J.不确定性。数量。,5(2017),第334-352页,https://doi.org/10.1137/15M1050239。 ·Zbl 06736506号
[35] H.Liu、Y.-S.Ong和J.Cai,支持基于仿真的复杂工程设计的全局元建模自适应采样调查,Struct。多磁盘。最佳。,57(2018),第393-416页,https://doi.org/10.1007/s00158-017-1739-8。
[36] H.Liu、S.Xu、Y.Ma、X.Chen和X.Wang,全球元建模的自适应贝叶斯序贯抽样方法,J.Mech。设计。,138(2015)中,https://doi.org/10.1115/1.4031905。
[37] H.Maatouk、O.Roustant和Y.Richet,带不等式约束的高斯过程超参数的交叉验证估计,Procedia Environ。科学。,27(2015),第38-44页,https://doi.org/10.1016/j.proenv.2015.07.105。
[38] J.Martin和T.Simpson,《自适应元建模在设计优化中的应用》,载于2002年第九届AIAA/ISSMO多学科分析与优化研讨会论文集,第1-9页,https://doi.org/10.2514/6.2002-5631。
[39] L.Martino、V.Laparra和G.Camps-Valls,高斯过程回归的概率交叉验证估计量,《第25届欧洲信号处理会议论文集》,2017年,第823-827页,https://doi.org/10.23919/EUSIPCO.2017.8081322。
[40] M.D.McKay、R.J.Beckman和W.J.Conover,《计算机代码输出分析中选择输入变量值的三种方法的比较》,《技术计量学》,21(1979),第239-245页·Zbl 0415.62011号
[41] H.Mohammadi,《基于Kriging-Based Black-Box Global Optimization:Analysis and New Algorithms》,博士论文,法国圣埃蒂安国家煤矿,2016年。
[42] K.M.Mullen,D.Ardia,D.L.Gil,D.Windover和J.Cline,DEoptim:差分进化全局优化的R包,J.Statist。软件,40(2011),第1-26页,https://doi.org/10.18637/jss.v040.i06。
[43] R.M.Neal,《使用高斯过程先验的回归和分类》,载于《贝叶斯统计6》,牛津大学出版社,1998年,第475-501页·Zbl 0974.62072号
[44] A.B.Owen,计算机实验、集成和可视化的正交数组,统计师。Sinica,2(1992),第439-452页·Zbl 0822.62064号
[45] V.Picheny、D.Ginsbourger、O.Roustant、R.T.Haftka和N.H.Kim,精确逼近目标区域的自适应实验设计,J.Mech。设计。,132(2010年),第1-9页。
[46] W.Ponweiser、T.Wagner和M.Vincze,《集群多重广义期望改进:代理模型的新填充抽样准则》,载于《2008年IEEE进化计算大会论文集》(IEEE计算智能世界大会),2008年,第3515-3522页,https://doi.org/10.1109/CEC.2008.4631273。
[47] L.Pronzato和W.G.Muöller,《计算机实验设计:空间填充和超越》,统计学。计算。,22(2012),第681-701页,https://doi.org/10.1007/s11222-011-9242-3。 ·Zbl 1252.62080号
[48] C.E.Rasmussen和C.K.I.Williams,机器学习的高斯过程(自适应计算和机器学习),麻省理工学院出版社,马萨诸塞州剑桥,2005年。
[49] O.Roustant,D.Ginsbourger和Y.Deville,DiceKriging,DiceOptim:通过基于Kriging-based元建模和优化的计算机实验分析的两个R包,J.Statist。《软件》,51(2012),第1-55页,https://doi.org/10.18637/jss.v051.i01。
[50] I.Ryzhov,关于预期改进方法的收敛速度,Oper。第64号决议(2016年),https://doi.org/10.1287/opere.2016.1494。 ·Zbl 1359.62519号
[51] J.Sacks、W.J.Welch、T.J.Mitchell和H.P.Wynn,计算机实验的设计和分析,Statist。科学。,4(1989),第409-423页,https://doi.org/10.1214/ss/1177012420。 ·Zbl 0955.62619号
[52] T.J.Santner、B.J.Williams和W.I.Notz,《计算机实验的设计与分析》,Springer-Verlag,Cham,2003年·Zbl 1041.62068号
[53] M.Schonlau,计算机实验与全局优化,滑铁卢大学博士论文,1997年。
[54] R.Sheikholeslami和S.Razavi,渐进拉丁超立方体采样:基于稳健采样的环境模型分析的有效方法,环境。模型。《软件》,93(2017),第109-126页,https://doi.org/10.1016/j.envsoft.2017.03.010。
[55] M.C.Shewry和H.P.Wynn,最大熵抽样,J.Appl。《法律总汇》,第14页(1987年),第165-170页,https://doi.org/10.1080/02664768700000020。
[56] T.Simpson、J.Poplinski、P.N.Koch和J.Allen,基于计算机的工程设计元模型:调查和建议,工程计算。,17(2001),第129-150页,https://doi.org/10.1007/PL00007198。 ·Zbl 0985.68599号
[57] R.Storn和K.Price,差分进化——一种简单有效的启发式算法,用于连续空间上的全局优化,J.global Optim。,11(1997),第341-359页,https://doi.org/10.1023/A:1008202821328。 ·Zbl 0888.90135号
[58] E.Vazquez和J.Bect,具有固定均值和协方差函数的期望改进算法的收敛性,J.Statist。计划。推理,140(2010),第3088-3095页,https://doi.org/10.1016/j.jspi.2010.04.018。 ·Zbl 1419.62200号
[59] I.Vernon、J.Liu、M.Goldstein、J.Rowe、J.Topping和K.Lindsey,复杂系统生物模型的贝叶斯不确定性分析:仿真、全局参数搜索和基因功能评估,BMC系统。《生物学》,12(2018),第1页,https://doi.org/10.1186/s12918-017-0484-3。
[60] F.A.C.Viana、R.T.Haftka和V.Steffen,《多重代理:交叉验证错误如何帮助我们获得最佳预测因子Struct》。多磁盘。最佳。,39(2009),第439-457页,https://doi.org/10.1007/s00158-008-0338-0。
[61] V.Volodina和D.Williamson,使用内核混合的诊断驱动非平稳仿真器,SIAM/ASA J.不确定。数量。,8(2020年),第1-26页,https://doi.org/10.1137/19M124438X。 ·Zbl 1436.62365号
[62] D.Williamson,《使用扩展拉丁超立方体的环境模型探索性集成设计》,环境计量学,26(2015),第268-283页,https://doi.org/10.1002/env.2335。
[63] Y.Yun、H.-C.Kim、S.Y.Shin、J.Lee、A.D.Deshpande和C.Kim,用高斯过程回归预测步态运动学的统计方法,J.Biomech。,47(2014),第186-192页,https://doi.org/https://doi.org/10.1016/j.jbiomech.2013.09.032。
[64] D.Zhan,J.Qian,Y.Cheng,并行EGO算法的伪期望改进准则,J.Global Optim。,68(2017),第641-662页,https://doi.org/10.1007/s10898-016-0484-7。 ·Zbl 1377.90069号
[65] Y.Zhang和Y.Yang,选择模型选择程序的交叉验证,《计量经济学杂志》,187(2015),第95-112页,https://doi.org/10.1016/j.jeconom.2015.02.006。 ·Zbl 1337.62387号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。