×

计算机实验的聚类高斯过程模型。 (英语) Zbl 07763181号

摘要:高斯过程是模拟计算机模拟的最重要方法之一。然而,高斯过程仿真中常见的平稳性假设和大规模数据集的计算困难限制了实际的准确性和可行性。在本文中,我们提出了一个集群高斯过程模型同时将输入数据分割为多个簇,并在每个簇中拟合高斯过程模型。模型参数和簇是通过有效的随机期望最大化来学习的,这允许进行大规模计算机模拟的仿真。重要的是,该方法通过识别聚类提供了有价值的模型可解释性,这些聚类揭示了输入-输出关系中的隐藏模式。使用交叉验证有效地选择控制偏差-方差权衡的簇数,以确保准确预测。在我们的模拟和太阳辐射模拟的实际应用中,我们提出的方法与主要竞争对手相比,均方误差较小,计算时间较短,并且通过发现簇从数据中提供了有价值的见解。开放存储库中提供了建议方法的R包。

理学硕士:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ankenman,B.、Nelson,B.L.和Staum,J.(2010年)。模拟元模型的随机克里金法。运筹学58,371-382·Zbl 1342.62134号
[2] Ba,S.和Joseph,V.R.(2012)。用于模拟昂贵函数的复合高斯过程模型。应用统计学年鉴6,1838-1860·Zbl 1257.62089号
[3] Binois,M.、Gramacy,R.B.和Ludkovski,M.(2018年)。大型模拟实验的实际异方差高斯过程建模。计算与图形统计杂志27,808-821·Zbl 07498993号
[4] Bui-Thanh,T.、Ghattas,O.和Higdon,D.(2012年)。基于自适应Hessian的非平稳高斯过程响应面方法,用于概率密度近似,并应用于大规模反问题的贝叶斯解。SIAM科学计算杂志34,A2837-A2871·Zbl 1257.62035号
[5] Cappé,O.和Moulines,E.(2009年)。潜在数据模型的在线期望最大化算法。英国皇家统计学会杂志:B辑(统计方法)71,593-613·Zbl 1250.62015年
[6] Celeux,G.和Diebolt,J.(1985)。SEM算法:一种概率教师算法,源自EM算法,用于混合问题。《计算统计季刊》第2期,第73-82页。
[7] Chen,J.,Zhu,J.、Teh,Y.W.和Zhang,T.(2018)。方差减少的随机期望最大化。第32届神经信息处理系统国际会议论文集(S.Bengio、H.M.Wallach、H.Larochelle、K.Grauman和N.Cesa-Bianchi编辑),7978-7988。Curran Associas Inc.,Red Hook公司。
[8] Chipman,H.A.、George,E.I.和McCulloch,R.E.(1998)。贝叶斯CART模型搜索。《美国统计协会杂志》93,935-948。
[9] Chipman,H.A.、George,E.I.和McCulloch,R.E.(2002)。贝叶斯树模型。机器学习48,299-320·Zbl 0998.68072号
[10] Dancik,G.M.(2013)。mlegp:高斯过程的最大似然估计。R包3.1.4版。
[11] Efron,B.和Tibshirani,R.(1997年)。交叉验证的改进:632+引导方法。《美国统计协会杂志》92,548-560·Zbl 0887.62044号
[12] Fang,K.-T.,Li,R.和Sudjianto,A.(2005)。计算机实验设计与建模。CRC,纽约。
[13] Fraley,C.和Raftery,A.E.(2002年)。基于模型的聚类、判别分析和密度估计。美国统计协会期刊97611-631·Zbl 1073.62545号
[14] Furrer,R.、Genton,M.G.和Nychka,D.(2006年)。用于大型空间数据集插值的协方差锥化。计算与图形统计杂志15,502-523。
[15] Gneiting,T.和Raftery,A.E.(2007年)。严格正确的评分规则、预测和评估。《美国统计协会杂志》102,359-378·Zbl 1284.62093号
[16] Gramacy,R.B.(2015)。laGP:《统计软件杂志》72,1-46,通过局部近似高斯过程进行大尺度空间建模。
[17] Gramacy,R.B.(2020年)。替代品:应用科学的高斯过程建模、设计和优化。CRC,纽约。
[18] Gramacy,R.B.和Apley,D.W.(2015)。大型计算机实验的局部高斯过程近似。计算与图形统计杂志24,561-578。
[19] Gramacy,R.B.和Lee,H.K.H.(2008)。贝叶斯树高斯过程模型及其在计算机建模中的应用。《美国统计协会杂志》103,1119-1130·Zbl 1205.62218号
[20] Gramacy,R.B.和Lee,H.K.H.(2009年)。超级计算机实验的自适应设计和分析。技术计量51,130-145。
[21] Guha,S.、Rastogi,R.和Shim,K.(2001)。治愈:一种用于大型数据库的高效聚类算法。信息系统26、35-58·Zbl 1006.68661号
[22] Haaland,B.和Qian,P.Z.G.(2011)。用于大规模计算机实验的精确模拟器。《统计年鉴》39,2974-3002·Zbl 1246.65172号
[23] Harville,D.A.(1998年)。统计学家视角下的矩阵代数。纽约州施普林格。
[24] Higdon,D.(2002年)。使用过程卷积的空间和时空建模。《当前环境问题的定量方法》(C.W.Anderson、V.Barnett、P.C.Chatwin和A.H.El-Shaarawi编辑),第37-56页。斯普林格,伦敦·兹比尔1255.86016
[25] Higdon,D.、Swall,J.和Kern,J.(1999)。非静态空间建模。贝叶斯统计6,761-768·Zbl 0982.62079号
[26] Hwang,Y.、Lu,S.和Kim,J.-K.(2018年)。自下而上的估计和自上而下的预测:结合多个来源的信息进行太阳能预测。应用统计学年鉴12,2096-2120·Zbl 1411.62375号
[27] Joseph,V.R.和Mak,S.(2021)。监督大数据的压缩。统计分析和数据挖掘14,217-229。
[28] Kim,H.-C.和Lee,J.(2007)。基于高斯过程的聚类。神经计算19,3088-3107·Zbl 1143.68574号
[29] Kim,H.-M.、Mallick,B.K.和Holmes,C.C.(2005)。使用分段高斯过程分析非平稳空间数据。美国统计协会杂志100,653-668·Zbl 1117.62368号
[30] Kohavi,R.(1995)。精度估计和模型选择的交叉验证和引导研究。《国际人工智能联合会议论文集》,1137-1145。Morgan Kaufmann Publishers Inc.,旧金山。
[31] Montagna,S.和Tokdar,S.T.(2016)。非平稳高斯过程的计算机仿真。SIAM/ASA不确定性量化杂志4,26-47·Zbl 1387.62091号
[32] Morris,M.D.和Mitchell,T.J.(1995年)。计算实验的探索性设计。《统计规划与推断杂志》43,381-402·Zbl 0813.62065号
[33] Morris,M.D.、Mitchell,T.J.和Ylvisaker,D.(1993年)。计算机实验的贝叶斯设计和分析:导数在表面预测中的应用。技术计量35,243-255·Zbl 0785.62025号
[34] Nguyen-Tuong,D.和Peters,J.(2011)。机器人控制的模型学习:综述。认知处理12319-340。
[35] Nguyen-Tuong,D.、Peters,J.和Seeger,M.(2009年)。用于实时在线模型学习的局部高斯过程回归。《第21届神经信息处理系统国际会议论文集》(由D.Koller、D.Schuurmans、Y.Bengio和L.Bottou编辑),1193-1200。Curran Associates Inc.,Red Hook公司。
[36] Nielsen,S.F.(2000年)。随机EM算法:估计和渐近结果。Bern-oulli伯尔尼6,457-489·Zbl 0981.62022号
[37] Nychka,D.、Bandyopadhyay,S.、Hammerling,D.、Lindgren,F.和Sain,S.(2015)。用于分析大型空间数据集的多分辨率高斯过程模型。计算与图形统计杂志24,579-599。
[38] Paciorek,C.J.和Schervish,M.J.(2006年)。使用一类新的非平稳协方差函数进行空间建模。环境计量17,483-506。
[39] Park,C.和Apley,D.(2018年)。大规模高斯过程回归的拼接克里格法。机器学习研究杂志19,269-311·Zbl 1444.62088号
[40] Plagemann,C.、Kersting,K.和Burgard,W.(2008年)。使用局部平滑度的点估计进行非平稳高斯过程回归。在数据库中的机器学习和知识发现联合欧洲会议上(由M.Kamp、I.Koprinska、A.Bibal、T.Bouadi、B.Frenay、L.Galarraga等人编辑),204-219。查姆施普林格。
[41] Plumlee,M.(2014)。使用稀疏网格实验设计快速预测确定性函数。美国统计协会期刊109,1581-1591·Zbl 1368.65017号
[42] Plumlee,M.和Apley,D.W.(2017年)。提升了布朗-克里金模型。技术计量59,165-177。
[43] Quiñonero-Candela,J.和Rasmussen,C.E.(2005)。稀疏近似高斯过程回归的统一观点。机器学习研究杂志,1939-1959年·Zbl 1222.68282号
[44] R核心团队(2015)。R: 统计计算语言和环境。奥地利维也纳R统计计算基金会。
[45] Rasmussen,C.E.和Ghahramani,Z(2002)。无限混合高斯过程专家。《第14届神经信息处理系统国际会议论文集:天然和合成》(T.G.Dietterich、S.Becker和Z.Ghahramani编辑),881-888。麻省理工学院出版社,剑桥。
[46] Rasmussen,C.E.和Williams,C.K.(2006年)。机器学习的高斯过程。第1卷。麻省理工学院出版社,剑桥·Zbl 1177.68165号
[47] Revolution Analytics和Weston,S.(2015)。foreach:为R.R包版本1.4.3提供foreach循环构造。
[48] Rogers,E.、DiMego,G.、Black,T.、Ek,M.、Ferrier,B.、Gayno,G.等人(2009年)。NCEP北美中尺度模拟系统:近期变化和未来计划。在第23次天气分析和预测会议/第19次数值天气预测会议上,东北奥马哈。
[49] Sang,H.和Huang,J.Z.(2012)。大型空间数据集协方差函数的全尺度近似。英国皇家统计学会杂志:B辑(统计方法)74,111-132·兹比尔1411.62274
[50] Santner,T.J.、Williams,B.J.和Notz,W.I.(2018年)。计算机实验的设计与分析。第2版。纽约施普林格-弗拉格·Zbl 1405.62110号
[51] Snelson,E.和Ghahramani,Z(2006)。使用伪输入的稀疏高斯过程。神经信息处理系统进展,1257-1264。
[52] Stein,M.L.(2012)。空间数据插值:克里格的一些理论。Springer Science&Business Media,纽约。
[53] Sun,F.、Gramacy,R.B.、Haaland,B.、Lawrence,E.和Walker,A.(2019a)。通过大型模拟实验模拟卫星阻力。SIAM/ASA不确定性量化杂志7,720-759·Zbl 1430.62085号
[54] Sun,F.、Gramacy,R.B.、Haaland,B.、Lu,S.和Hwang,Y.(2019b)。综合太阳辐射的模拟和现场数据。统计分析和数据挖掘12,311-324·Zbl 07260639号
[55] Sung,C.-L.(2019)。MRFA:使用多分辨率泛函方差分析(MRFA)方法拟合和预测大规模非线性回归问题。R包版本0.4。
[56] Sung,C.-L.,Wang,W.,Plumlee,M.和Haaland,B.(2020年)。用于大规模、多输入计算机实验的多分辨率功能方差分析。美国统计协会杂志115,908-919·兹比尔1445.62189
[57] Titsias,M.(2009年)。稀疏高斯过程中诱导变量的变分学习。《人工智能与统计》,567-574。
[58] Tresp,V.(2001)。高斯过程的混合。神经信息处理系统进展,654-660。
[59] Xiong,Y.、Chen,W.、Apley,D.和Ding,X.(2007)。工程设计中元建模的一种基于非平稳协方差的krig-ing方法。国际工程数值方法杂志71,733-756·兹比尔1194.74553
[60] Zachariassen,J.、Zeller,K.F.、Nikolov,N.和McClelland,T.(2003)。林业服务远程自动气象站(Raws)网络综述。一般技术报告。编号RMRS-GTR-119。
[61] Zhang,Y.、Ghosh,S.、Asher,I.、Ling,Y.和Wang,L.(2019)。使用聚类和局部高斯过程回归学习不确定性。在AIAA 2019年科学技术论坛上,1730。Chih-Li Sung美国密歇根州48824-1312东兰辛红杉路619号统计与概率部门sungchih@msu.edu
[62] 本杰明·哈兰德人口健康科学部,美国犹他州盐湖城奇佩塔路295号,邮编84108。电子邮件:ben.haaland@hsc.utah.edu
[63] 黄扬德
[64] Paul H.Chook信息系统与统计部,地址:美国纽约州纽约市第24街列克星敦大道55号,邮编:10010。
[65] 电子邮件:Youngdeok.Hwang@baruch.cuny.edu
[66] Siyuan Lu IBM Thomas J.Watson Research Center,Yorktown Heights,New York 10598,USA美国纽约州约克镇高地,电子邮箱:lus@us.ibm.com(2020年4月收到;2021年8月接受)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。