×

利用多元高斯过程逆预测从成分数据预测古气候。 (英语) Zbl 1435.62415号

摘要:多元成分计数数据在生态学、微生物学、遗传学和古气候等许多应用中都有应用。多元成分计数数据分析中的一个常见问题是,协变量的基本值是什么导致观察到的成分。学习协变量和成分计数之间的关系,可以在给定成分计数观察值的情况下,对未观察到的协变量进行反向预测。高斯过程为针对协变量的功能响应建模提供了一个灵活的框架,而无需假设函数形式。许多科学学科使用高斯过程近似来改进预测,并对潜在过程和参数进行推断。当需要对给定响应变量实现的未观测协变量进行预测时,这称为反向预测。由于反向预测通常在数学和计算上具有挑战性,因此预测未观测到的协变量通常需要拟合不同于假设生成模型的模型。我们提出了一种新的计算框架,该框架允许使用生成模型的高斯过程近似进行有效的反向预测。我们的框架使我们能够科学地了解潜在过程如何与协变量共存,同时提供缺失协变量的预测。该框架能够有效地探索反问题中出现的高维、多模态潜在空间。为了证明灵活性,我们在广义线性模型框架中应用我们的方法,预测给定多元计数数据的潜在气候状态。基于交叉验证,我们的模型具有与当前方法相竞争的预测技能,同时对之前不可用的生物系统的潜在群落动力学提供正式的统计推断。

MSC公司:

62页第12页 统计在环境和相关主题中的应用
62M20型 随机过程推断和预测
62甲12 多元分析中的估计
86A32型 地理统计学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Amesbury,M.、Barber,K.和Hughes,P.(2012年)。瑞典瓦尔姆兰Fágelmossen的精细分辨率、多代理古气候记录与气象数据的关系,以及对泥炭记录气候驱动因素辩论的影响。四分之一。国际268 77-86。
[2] Armagan,A.、Dunson,D.B.和Clyde,M.(2011年)。高斯广义贝塔混合。高级神经信息处理。系统。24 523-531.
[3] Banerjee,S.、Gelfand,A.E.、Finley,A.O.和Sang,H.(2008)。大型空间数据集的高斯预测过程模型。J.R.统计社会服务。B.统计方法。70 825-848. ·兹伯利05563371 ·文件编号:10.1111/j.1467-9868.2008.00663.x
[4] Barnard,J.、McCulloch,R.和Meng,X.-L.(2000)。根据标准偏差和相关性对协方差矩阵进行建模,并应用于收缩。统计师。Sinica 10 1281-1311·Zbl 0980.62045号
[5] Bhattacharya,S.(2006年)。基于生物的环境重建的贝叶斯半参数模型。环境计量17 763-776。
[6] Birks,H.J.B.和Simpson,G.L.(2013年)硅藻和pH值重建”(1990年)。J.古利蒙诺。49 363-371.
[7] Birks,H.J.B.、Line,J.M.、Juggins,S.、Stevenson,A.C.和ter Braak,C.J.F.(1990)。硅藻和pH值重建。菲洛斯。事务处理。R.Soc.伦敦。B、 生物。科学。327 263-278.
[8] Booth,R.K.(2008)。在北美以泥炭藓为主的泥炭地中,睾丸变形虫是年平均地下水位的代表。J.四分之一。科学。23 43-57.
[9] Booth,R.K.、Lamentowicz,M.和Charman,D.J.(2010年)。泥炭地古环境研究中种皮阿米巴的制备和分析。沼泽泥炭7 1-7。
[10] Brewer,S.、Jackson,S.T.和Williams,J.W.(2012年)。古生态信息学:将地史数据应用于生态问题。经济趋势。进化。27 104-112。
[11] Charman,D.J.(2007)。夏季水分亏缺变化对泥炭地地下水位变化的控制:对全新世古气候重建的影响。全新世17 217-227。
[12] Cressie,N.和Johannesson,G.(2008年)。固定秩kriging用于非常大的空间数据集。J.R.统计社会服务。B.统计方法。70 209-226. ·Zbl 05563351号 ·doi:10.1111/j.1467-9868.2007.00633.x
[13] Csató,L.(2002)。高斯过程:迭代稀疏近似。阿斯顿大学博士论文·Zbl 0987.62060号
[14] Datta,A.、Banerjee,S.、Finley,A.O.和Gelfand,A.E.(2016)。用于大型地质统计数据集的分层最近邻高斯过程模型。J.Amer。统计师。协会111 800-812。
[15] Dawson,A.、Paciorek,C.J.、McLachlan,J.S.、Goring,S.、Williams,J.W.和Jackson,S.T.(2016)。利用19世纪的森林组成和花粉数据,量化花粉-植被关系以重建古森林。四分之一。科学。版次137 156-175。
[16] Eddelbuettel,D.和Sanderson,C.(2014)。RcppArmadillo:使用高性能的(C++)线性代数加速R。计算。统计师。数据分析。71 1054-1063. ·Zbl 1471.62055号 ·doi:10.1016/j.csda.2013.02.005
[17] Finley,A.O.、Sang,H.、Banerjee,S.和Gelfand,A.E.(2009年)。提高大型数据集预测过程建模的性能。计算。统计师。数据分析。53 2873-2884. ·Zbl 1453.62090号 ·doi:10.1016/j.csda.2008.09.008
[18] Fuentes,M.(2007)。大型不规则间隔空间数据的近似可能性。J.艾默。统计师。协会102 321-331·Zbl 1284.62589号 ·doi:10.1198/016214500000852
[19] Gelfand,A.E.和Smith,A.F.M.(1990)。计算边缘密度的基于采样的方法。J.Amer。统计师。协会85 398-409·Zbl 0702.62020号 ·网址:10.1080/01621459.1990.10476213
[20] Gelman,A.(2006年)。层次模型中方差参数的先验分布(Browne和Draper的文章评论)。贝叶斯分析。1 515-533. ·Zbl 1331.62139号 ·doi:10.1214/06-BA117A
[21] Gelman,A.、Rubin,D.B.等人(1992年)。使用多序列的迭代模拟推断。统计师。科学。7 457-472. ·Zbl 1386.65060号 ·doi:10.1214/ss/117701136
[22] Gneiting,T.(2011)。做出并评估点预测。J.Amer。统计师。协会106 746-762·Zbl 1232.62028号 ·doi:10.1198/jasa.2011.r10138
[23] Gneiting,T.、Balabdaoui,F.和Raftery,A.E.(2007年)。概率预测、校准和清晰度。J.R.统计社会服务。B.统计方法。69 243-268. ·Zbl 1120.62074号 ·文件编号:10.1111/j.1467-9868.2007.00587.x
[24] Grantham,N.S.、Reich,B.J.、Pacifici,K.、Laber,E.B.、Menninger,H.L.、Henley,J.B.、BarberáN,A.、Leff,J.W.、Fierer,N.等人(2015)。真菌鉴定了灰尘样品的地理来源。公共图书馆·综合频道10 e0122605。
[25] Haslett,J.、Whiley,M.、Bhattacharya,S.、Salter-Townshend,M.,Wilson,S.P.、Allen,J.R.M.、Huntley,B.和Mitchell,F.J.G.(2006)。贝叶斯古气候重建。J.罗伊。统计师。Soc.序列号。A 169 395-438号。
[26] Hefley,T.J.、Broms,K.M.、Brost,B.M.、Buderman,F.E.、Kay,S.L.、Scharf,H.R.、Tipton,J.R.、Williams,P.J.和Hooten,M.B.(2017年)。生态数据自相关建模的基函数方法。生态学98 632-646。
[27] Higdon,D.(2002年)。使用过程卷积的空间和时空建模。当前环境问题的定量方法37-56。斯普林格,伦敦·Zbl 1255.86016号
[28] Jackson,S.T.和Williams,J.W.(2004)。第四纪古生态学中的现代类比:今天,昨天,明天?《地球年鉴》。科学。32 495-537.
[29] Juggins,S.(2015)。rioja:第四纪科学数据分析。R包版本0.9-9。
[30] Kammann,E.E.和Wand,M.P.(2003年)。地质叠加模型。J.罗伊。统计师。Soc.序列号。C 52 1-18·Zbl 1111.62346号 ·doi:10.1111/1467-9876.00385
[31] Lauber,C.L.、Hamady,M.、Knight,R.和Fierer,N.(2009年)。基于焦磷酸测序的土壤pH值评估,作为大陆尺度土壤细菌群落结构的预测因子。申请。环境。微生物。75 5111-5120.
[32] Lewandowski,D.、Kurowicka,D.和Joe,H.(2009)。基于藤蔓和扩展洋葱方法生成随机相关矩阵。《多元分析杂志》。100 1989-2001. ·Zbl 1170.62042号 ·doi:10.1016/j.jmva.2009.04.008
[33] Lindgren,F.、Rue,H.和Lindström,J.(2011)。高斯场和高斯-马尔可夫随机场之间的明确联系:随机偏微分方程方法。J.R.统计社会服务。B.统计方法。73 423-498. ·Zbl 1274.62360号 ·文件编号:10.1111/j.1467-9868.2011.00777.x
[34] Morales-Castilla,I.、Matias,M.G.、Gravel,D.和Araújo,M.B.(2015)。从代理推断生物相互作用。经济趋势。进化。30 347-356.
[35] Murray,I.、Adams,R.P.和MacKay,D.J.C.(2010年)。椭圆切片采样。在AISTATS 13 541-548中。
[36] Nolan,C.、Tipton,J.、Booth,R.K.、Hooten,M.B.和Jackson,S.T.(2019年)。比较和改进从有壳变形虫重建泥炭地地下水位的方法。全新世。
[37] Nychka,D.、Bandyopadhyay,S.、Hammerling,D.、Lindgren,F.和Sain,S.(2015)。用于分析大型空间数据集的多分辨率高斯过程模型。J.计算。图表。统计师。24 579-599.
[38] O'Malley,A.J.和Zaslavsky,A.M.(2008)。结构化无响应多层次调查数据的领域级协方差分析。J.Amer。统计师。协会103 1405-1418·兹比尔1286.62096 ·doi:10.1198/0162145000000724
[39] Overpeck,J.、Webb,T.和Prentice,I.(1985年)。化石花粉光谱的定量解释:异类系数和现代类比方法。四分之一。第23 87-108号决议。
[40] Overpeck,J.T.、Webb,R.S.和Webb III,T.(1992年)。绘制过去18ka北美东部植被变化图:无类比和未来。地质学20 1071-1074。
[41] Paciorek,C.J.(2007)。大数据集空间logistic回归的计算技术。计算。统计师。数据分析。51 3631-3653. ·Zbl 1161.62437号 ·doi:10.1016/j.csda.2006.11.008
[42] Paciorek,C.J.和McLachlan,J.S.(2009年)。绘制古代森林:使用化石花粉代理记录对森林组成的时空趋势进行贝叶斯推断。J.Amer。统计师。协会104 608-622·Zbl 1388.62347号 ·doi:10.1198/jasa.2009.0026
[43] Parnell,A.C.、Sweeney,J.、Doan,T.K.、Salter-Townshend,M.、Allen,J.R.M.、Huntley,B.和Haslett,J.(2015)。具有时间不确定性和随机波动性的古气候贝叶斯推断。J.R.统计社会服务。C.申请。统计数字64 115-138。
[44] Pourahmadi,M.(1999)。纵向数据应用的联合均值-方差模型:无约束参数化。生物特征86 677-690·Zbl 0949.62066号 ·doi:10.1093/biomet/86.3.677
[45] Pourahmadi,M.(2000年)。多元正态协方差矩阵广义线性模型的最大似然估计。Biometrika 87425-435·Zbl 0954.62091号 ·doi:10.1093/biomet/87.2.425
[46] 俄勒冈州州立大学PRISM气候小组。可在http://prism.oregonstate.edu。创建于2004年2月4日。
[47] R核心团队(2016)。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳。
[48] Roberts,G.O.和Rosenthal,J.S.(2009年)。自适应MCMC示例。J.计算。图表。统计师。18 349-367.
[49] Salter-Townshend,M.和Haslett,J.(2012)。多元花粉计数数据的灵活回归模型的快速反演。环境测量23 595-605。
[50] Saucedo-García,a.、Anaya,a.L.、Espinosa-García、F.J.和González,M.C.(2014)。墨西哥韦拉克鲁斯两个地区小粒咖啡不同农业生态系统中叶片内生真菌的多样性和群落。公共科学图书馆ONE 9 e98454。
[51] Schapire,R.E.(1990)。弱可学性的力量。机器。学习。5 197-227.
[52] Seeger,M.(2004)。Cholesky分解的低秩更新。技术报告编号:EPFL-Report-161468。
[53] Smith,M.和Kohn,R.(2002年)。纵向数据的简洁协方差矩阵估计。J.Amer。统计师。协会97 1141-1153·Zbl 1041.62044号 ·doi:10.1198/016214502388618942
[54] 斯坦发展团队(2016)。Stan建模语言用户指南和参考手册,2.10.0版,网址:http://mc-stan.org。
[55] Stein,M.L.(1999)。空间数据插值:克里格的一些理论。统计学中的斯普林格系列。纽约州施普林格·Zbl 0924.62100号
[56] Stein,M.L.(2014)。空间数据协方差矩阵低秩近似的限制。小争吵。统计8 1-19。
[57] ter Braak,C.J.F.和van Dam,H.(1989)。从硅藻推断pH值:新旧校准方法的比较。水生生物178 209-223。
[58] Tipton,J.R、Hooten,M.B、Nolan,C.、Booth,R.K和McLachlan,J.(2019年)。补充“使用多元高斯过程逆预测从成分数据预测古气候”。DOI:10.1214/19-AOAS1281SUPP·Zbl 1435.62415号
[59] Vasko,K.、Toivonen,H.T.和Korhola,A.(2000)。基于生物的环境重建的贝叶斯多项式高斯响应模型。J.古利蒙诺。24 243-250.
[60] Vecchia,A.V.(1988)。连续空间过程的估计和模型识别。J.罗伊。统计师。Soc.序列号。B 50 297-312。
[61] Wahl,E.R.、Diaz,H.F.和Ohlwein,C.(2012年)。基于花粉的北美中部夏季温度重建及其对中世纪环流模式的影响。手套。星球。更改84 66-74。
[62] Warton,D.I.、Blanchet,F.G.、O'Hara,R.B.、Ovaskainen,O.、Taskinen,S.、Walker,S.C.和Hui,F.K.C.(2015)。这么多变量:社区生态学中的联合建模。经济趋势。进化。30 766-779.
[63] Williams,J.和Shuman,B.(2008年)。从现代模拟技术和北美地表花粉数据集获得准确和精确的环境重建。四分之一。科学。版次:27 669-687。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。