跳到内容

mkln/网状

存储库文件导航

网格高斯过程回归

该软件包提供了使用潜在网格高斯过程(MGP)拟合大数据贝叶斯地质统计学模型的功能。特别是,允许以下任意组合:

  • 不规则空间位置的数据;
  • 时空数据;
  • 多元结果;
  • 多变量结果的空间错位;
  • 空间或时空因子模型;
  • 不同类型的结果。

所有这些使用卡都是通过有网格的功能。有关一些示例,请参见小插曲。该软件包还提供了通过rmeshedgp公司函数,它允许以最小的资源在数百万个空间或时空位置模拟平滑的相关数据。MGP引入Peruzzi等人(2020年),arXiv公司。此包实现了立方MGP(QMGP)。可通过MCMC-GriPS对所有未知数进行后验采样,详见Peruzzi等人(2021年)对于非高斯结果,QMGP通过Langevin-SiMPA拟合,详见佩鲁齐和邓森(2022).

从CRAN安装:install.packages(“网状”)

或者,开发工具::install_github(“mkln/meshed”)从GitHub安装。

最佳性能提示:

  • 网状的与OpenMP、OpenBLAS或“英特尔MKL”配合使用效果最佳。
  • Dirk Eddelbuettel有一本关于在Debian/Ubuntu系统上安装Intel MKL的很棒的指南。在这种情况下,必须添加MKL_THREADING_LAYER=GNU~/.Renviron公司.
  • 在带有AMD CPU的系统上,最好安装英特尔-mkl-2019.5-075然后再添加行MKL_DEBUG_CPU_TYPE=5~/.Renviron公司。我没有测试过“英特尔MKL”的最新版本。
  • 如果使用OpenBLAS,让OpenMP这样做可能很重要全部的运行时的并行化网状的。我认为可以用RhpcBLASctl公司包裹。基督教青年会。

渐晕

一些超级玩具示例只是为了了解如何啮合::spmeshed作品可用在CRAN页面上网状的.

海报

分区域上基于网格高斯过程的高可伸缩贝叶斯地质统计建模

M Peruzzi、S Banerjee、AO Finley(2020)。日本航空航天局,arXiv公司.

我们引入了一类可扩展的贝叶斯层次模型来分析海量地质统计数据集。其基本思想通过划分空间域和使用稀疏诱导有向无环图(DAG)对分区中的区域建模,结合了高维地质统计学的思想。我们将模型扩展到DAG上的一个定义明确的空间过程,我们称之为网格高斯过程(MGP)。一个主要贡献是在细分域上开发了MGP,并配有吉布斯采样器,以有效恢复空间随机效应。特别是,立方MGP(Q-MGP)可以通过在Gibbs采样器内并行执行所有大规模操作来利用高性能计算资源,与顺序更新方案相比,可以提高混合和计算时间。与一些现有的大型空间数据模型不同,Q-MGP有助于大规模缓存昂贵的矩阵操作,使其特别适合处理时空远程数据。我们将Q-MGP与大型合成和现实世界数据与最先进的方法进行比较。我们还使用塞伦盖蒂公园地区的归一化差异植被指数(NDVI)数据来恢复数百万个地点潜在的多变量时空随机效应。

一般贝叶斯多元模型的空间网格划分

M Peruzzi和DB Dunson(2022)。arXiv公司.

通过贝叶斯层次模型中的空间随机效应,可以量化不同类型的多元地理定位数据中的空间和/或时间关联,但当空间相关性编码为潜在高斯过程(GP)时,会出现严重的计算瓶颈在我们关注的越来越常见的大规模数据设置中。在非高斯模型中,情况变得更糟,因为分析可处理性的降低会给计算效率带来更多障碍。在本文中,我们介绍了空间参考数据的贝叶斯模型,其中的可能性或潜在过程(或两者)不是高斯的。首先,我们利用了通过有向无环图构建的空间过程的优势,在这种情况下,空间节点进入贝叶斯层次,并通过常规马尔可夫链蒙特卡罗(MCMC)方法进行后验采样。其次,由于在我们关注的多元环境中流行的基于梯度的采样方法可能效率低下,我们引入了简化的流形预处理自适应(SiMPA)算法,该算法使用目标的二阶信息,但避免了昂贵的矩阵运算。我们利用数十万个空间位置的大规模数据和多达数十个结果,证明了我们的方法相对于替代方法在广泛的合成和现实世界遥感和社区生态学应用中的性能和效率改进。

用于改进空间大数据分析中可缩放推断的网格参数分割(Grid-Parametrize-Split,GriPS)

M Peruzzi,S Banerjee,DB Dunson,AO Finley(2021)。arXiv公司.

包括地理信息系统(GIS)和遥感在内的空间技术的快速发展在各种科学应用中产生了大量空间参考数据。这些进步导致了大量且仍在不断扩大的关于面向空间的大数据建模和分析的文献。大规模可扩展的空间过程,特别是高斯过程(GP),正被广泛用于普遍的大数据环境。最近的发展包括由稀疏有向非循环图(DAG)构造的GP,它具有有限数量的邻居(父)来表征空间依赖性。DAG可用于设计潜在过程后验采样的快速算法,但这些算法在估计协方差参数时可能表现出病理行为。虽然通过考虑利用底层稀疏精度矩阵的边缘化采样器可以缓解这些问题,但这些算法速度较慢,灵活性较差,并且忽略了数据中的结构。本文介绍了网格参数分割(Grid-Parametrize-Split,GriPS)方法,该方法通过结合仔细的模型构建和算法设计,在面向空间的大数据环境中进行贝叶斯推理,从而显著提高MCMC效率。我们通过模拟实验证明了我们提出的方法的有效性,并随后对来自NASA戈达德激光雷达、高光谱和热成像仪(G-LiHT)的遥感变量进行了建模。