×

并行交叉验证:高斯过程模型的可扩展拟合方法。 (英语) 兹比尔1510.62387

摘要:高斯过程(GP)模型广泛用于分析空间参考数据和预测无观测位置的值。它们基于一个统计框架,该框架能够量化模型结构和预测的不确定性。可能性评估和预测都涉及求解线性系统。因此,计算成本很高,并且限制了可以处理的数据量。虽然有许多近似策略可以降低GP模型的计算成本,但它们通常为(高性能)计算环境的并行计算能力提供次优支持。为了弥补这一差距,提出了一种并行化的参数估计和预测方法。其关键思想是将空间域划分为重叠的子集,并使用交叉验证(CV)并行估计协方差参数。虽然仿真表明,CV方法在参数估计方面不如最大似然方法有效,但它易于并行计算,并且能够处理大型数据集。利用屏幕效应进行空间预测有助于实现接近全局计算的空间分析,尽管在局部区域上执行并行计算。仿真研究评估参数估计和预测的准确性。该实现显示出良好的弱并行缩放特性和强并行缩放特性。为了举例说明,将指数协方差模型拟合到具有500万个观测值的科学相关冠层高度数据集。并行使用512个处理器内核将一个协方差参数配置的评估时间缩短到1.5分钟。

MSC公司:

62M40型 随机字段;图像分析
60G15年 高斯过程
62M20型 随机过程推断和预测
第62页第12页 统计在环境和相关主题中的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arlot,S。;Celisse,A.,模型选择交叉验证程序调查,统计师。调查。,4, 40-79 (2010) ·Zbl 1190.62080号
[2] Bachoc,F.,模型错误高斯过程超参数的交叉验证和最大似然估计,计算。统计师。数据分析。,66, 55-69 (2013) ·Zbl 1471.62021号
[3] Bachoc,F.,错误指定情况下高斯过程协方差参数估计的渐近分析,Bernoulli,24,2,1531-1575(2018)·兹比尔1429.60035
[4] 班纳吉,S。;卡林,B.P。;Gelfand,A.E.,《空间数据的层次建模与分析》,第二版(2014年),查普曼和霍尔/CRC
[5] Carnell,R.,Lhs:拉丁超立方体样本(2019),URL:https://CRAN.R-project.org/package=lhs。R包v.1.0.1
[6] 陈,W.C。;奥斯特鲁乔夫,G。;施密特,D。;帕特尔,P。;Yu,H.,PbdMPI:大数据编程——MPI接口(2012),网址:https://cran.r-project.org/package=pbdMPI。R包装,v.0.3-9
[7] 芬利,A.O。;Datta,A。;库克,B.D。;莫顿特区。;安徒生,H.E。;Banerjee,S.,《贝叶斯最近邻高斯过程的高效算法》,J.Compute。图表。统计,28,2,401-414(2019)·Zbl 07499062号
[8] Fuentes,M.,非平稳环境过程的高频克里金方法,环境计量学,12,5,469-483(2001)
[9] Gerber,F。;德容,R。;Schaepman,M.E。;Schaepman-Strub,G。;Furrer,R.,预测时空遥感数据中的缺失值,IEEE TGRS,56,5,2841-2853(2018)
[10] 希顿,M.J。;Datta,A。;芬利,A.O。;富勒,R。;吉尼斯,J。;Guhaniyogi,R。;Gerber,F。;Gramacy,R.B。;哈姆林,D。;Katzfuss,M。;林格伦,F。;Nychka,D.W。;Sun,F。;Zammit-Mangion,A.,大型空间数据分析方法之间的案例研究竞争,JABES(2018)
[11] 赫米米纳,G。;Dufríne,E。;彭塔勒,J.-Y。;北卡罗来纳州德尔皮埃尔。;奥比奈,M。;Caquet,B。;de Grandcourt,A。;伯班,B。;弗莱查德,C。;Granier,A。;毛重,P。;海涅施,B。;Longdoz,B。;穆勒,C。;Ourcival,J.-M。;兰巴尔,S。;安德烈,L.S。;Soudani,K.,《MODIS卫星数据预测不同生物群落植被物候的潜力评估:使用地面NDVI测量的调查》,遥感环境。,132, 145-158 (2013)
[12] Lefsky,M.A。;科恩,W.B。;帕克·G·G。;Harding,D.J.,Lidar遥感用于生态系统研究:Lidar是一种新兴的遥感技术,可直接测量植物冠层的三维分布,能够准确估计植被结构属性,应该引起森林、景观和全球生态学家的特别关注,BioScience,52,1,19-30(2002年)
[13] 刘,H。;Ong,Y.-S。;沈,X。;Cai,J.,《当高斯过程遇到大数据:可扩展GP的回顾》(2018),arXiv URL:https://arxiv.org/abs/1807.01065
[14] R、 H.,A Language and Environment for Statistical Computing,v.3.6(2019),R Core Team,R Foundation for Statistic Computing:R Core Team,R Foundation of Statistical Computing Vienna,Austria,网址:https://www.R-project.org
[15] 拉斯穆森,C.E。;Williams,C.K.I.,《机器学习的高斯过程》(2005),麻省理工学院出版社
[16] Ruder,S.,梯度下降优化算法概述(2016),网址:https://arxiv.org/abs/1609.04747
[17] Stein,M.L.,《估计随机过程参数的广义交叉验证和修正最大似然的比较》,Ann.Statist。,18, 3, 1139-1157 (1990) ·Zbl 0734.62091号
[18] Stein,M.L.,《空间数据插值》。克里金的一些理论,xviii+247(1999),纽约斯普林格出版社·兹比尔0924.62100
[19] Stein,M.L.,kriging中的筛选效应,Ann.Statist。,30, 1, 298-323 (2002) ·兹比尔1012.62102
[20] Sundararajan,S。;Keerthi,S.S.,高斯过程中选择超参数的预测方法,神经计算。,13, 5, 1103-1118 (2001) ·Zbl 1108.62327号
[21] 泰勒-罗德里格斯,D。;芬利,A。;Datta,A。;Babcock,C。;Andersen,H。;库克,B。;莫顿,D。;Banerjee,S.,《高维和大空间数据的空间因子模型:在森林变量制图中的应用》,Statist。Sinica,29,3,1155-1180(2019)·兹比尔1421.62161
[22] 韦斯,D.J。;阿特金森,P.M。;巴特,S。;Mappin,B。;海伊,S.I。;Gething,P.W.,《填隙大陆尺度遥感时间序列的有效方法》,ISPRS J.Photogram。遥感,98,106-118(2014)
[23] Wikle,C.K。;Zammit-Mangion,A。;Cressie,N.,《时空统计与R(2019)》,Chapman和Hall/CRC
[24] 张,H。;Wang,Y.,《海量空间数据的克里格和交叉验证》,环境计量学,21,3-4,290-304(2010)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。