×

将子采样合并到通用贝叶斯层次模型中的方法。 (英语) Zbl 07499925号

摘要:本文的目的是为贝叶斯统计学家提供一种方法,使他们能够在不施加额外限制性模型假设的情况下,将子抽样直接纳入他们选择的贝叶斯层次模型。我们的动机是,“大数据”的兴起给统计学家直接将其方法应用于大数据集带来了困难。我们将“数据子集模型”引入流行的“数据模型、过程模型和参数模型”框架,用于总结贝叶斯层次模型。数据子集模型的超参数是构造性地指定的,因为它们的选择使得子集的隐含大小满足预定义的计算约束。因此,这些超参数有效地将统计模型校准到计算机本身,以在预先指定的时间内获得预测/估计。提供了数据子集模型的几个属性,包括:适当性、部分充分性和半参数属性。模拟数据集将用于评估二次采样的结果,结果将在不同的计算机上显示,以显示计算机对统计分析的影响。此外,我们还提供了一个高维数据集(约10 GB)的联合分析,该数据集由美国人口普查局公共使用微样本(PUMS)的2018年5年期估计值组成。

理学硕士:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安德森,L.C。;Dean,N.,“贝叶斯疾病映射中的集群识别,生物统计学,15,457-469(2014)·doi:10.1093/生物统计学/kxu005
[2] 班纳吉,S。;卡林,B.P。;Gelfand,A.E.,《空间数据的层次建模与分析》(2015),英国伦敦:查普曼和霍尔出版社,英国伦敦·Zbl 1358.62009号
[3] 班纳吉,S。;Gelfand,A.E。;芬利,A.O。;Sang,H.,“大型空间数据集的高斯预测过程模型,皇家统计学会期刊,B辑,70825-848(2008)·兹伯利05563371 ·文件编号:10.1111/j.1467-9868.2008.00663.x
[4] Barbian,M.H。;Assuncao,R.M.,“大型地质统计数据的空间子集合估计,空间统计,22,68-88(2017)·doi:10.1016/j.spasta.2017.08.004
[5] Bardenet,R。;Doucet,A。;Holmes,C.,“高数据的马尔可夫链蒙特卡罗方法”,《机器学习研究杂志》,181515-1557(2017)·Zbl 1433.68394号
[6] Bardenet,R。;Doucet,A。;Holmes,C.H.,“逐步扩大马尔可夫链蒙特卡罗:一种自适应子抽样方法”,《第三十届机器学习国际会议论文集》(ICML’14),405-413(2014)
[7] Barry,D.,“非参数贝叶斯回归,统计年鉴,14934-953(1986)·Zbl 0608.62052号 ·doi:10.1214/aos/1176350043
[8] Basu,D.,“关于部分充分性:综述”,《统计规划与推断杂志》,第2期,第1-13页(1978年)·Zbl 0419.62007号 ·doi:10.1016/0378-3758(78)90017-4
[9] Berliner,L.M.,《分层贝叶斯时间序列模型》(1996),多德雷赫特:Kluwer学术出版社,多德雷赫特·Zbl 0886.62080号
[10] 贝萨格,J。;约克·J。;Mollié,A.,“贝叶斯图像恢复,在空间统计中的两个应用,统计数学研究所年鉴,43,1-20(1991)·Zbl 0760.62029号 ·doi:10.1007/BF00116466
[11] Besag,J.E.,“晶格系统的空间相互作用和统计分析(讨论)”,《皇家统计学会杂志》,B辑,36192-236(1974)·Zbl 0327.60067号
[12] Besag,J.E.,“关于肮脏图片的统计分析(讨论)”,《皇家统计学会杂志》,B辑,48,259-302(1986)·Zbl 0609.62150号
[13] Bien,J。;Tibshirani,R.J.,“协方差矩阵的稀疏估计,生物统计学,98,4,807-820(2011)·Zbl 1228.62063号 ·doi:10.1093/biomet/asr054
[14] 布拉德利,J。;霍兰,S。;Wikle,C.,“应用于纵向雇主-家庭动态的高维区域数据的多元时空模型,应用统计年鉴,91761-1791(2015)·兹比尔1397.62356 ·doi:10.1214/15-AOAS862
[15] 布拉德利,J.R。;北卡罗来纳州克雷西。;Shi,T.,“空间随机效应模型中秩和基函数的选择”,《2011年联合统计会议论文集》,3393-3406(2011),弗吉尼亚州亚历山大市:美国统计协会,弗吉尼亚州亚历山大市
[16] 布拉德利,J.R。;北卡罗来纳州克雷西。;Shi,T.,“使用当地标准比较和选择空间预测值,TEST,24,1-28(2015)·Zbl 1315.62075号
[17] 布拉德利,J.R。;Holan,S.H。;Wikle,C.K.,“自然指数族相依数据的共轭全条件分布贝叶斯层次模型,美国统计协会杂志,1152037-2052(2020)·兹比尔1453.62411 ·doi:10.1080/01621459.2019.1677471
[18] 布拉德利,J.R。;Wikle,C.K。;Holan,S.H.,“与潜在过程相关的错误空间数据的层次模型”,《统计》,第30期,第80-109页(2019年)·Zbl 1444.62066号 ·doi:10.5705/ss.202016.0230
[19] 布拉德利,J.R。;Wikle,C.K。;Holan,S.H.,“使用条件多元Logit-Beta分布的大多项式数据的时空模型,时间序列分析杂志,40,363-382(2019)·Zbl 1418.62303号
[20] 布罗德里克,T。;博伊德,N。;Wibisono,A。;A.C.威尔逊。;Jordan,M.I.,《神经信息处理系统的进展》,“流式变分贝叶斯”,1727-1735(2013)
[21] 坎贝尔,T。;Broderick,T.,“通过希尔伯特核集的自动可伸缩贝叶斯推断”,arXiv预印本arXiv:1710.05053(2017)·Zbl 1483.62062号
[22] Cornish,R。;瓦内蒂,P。;布沙尔德·科特,A。;Deligiannidis,G。;Doucet,A.,“利用大数据集进行精确贝叶斯推断的可扩展大都会-黑斯廷斯”,arXiv预印本:1901.09881(2019)
[23] 北卡罗来纳州克雷西。;Johannesson,G.,“海量数据集的空间预测”,澳大利亚科学院伊丽莎白和弗雷德里克·怀特会议,1-11(2006),堪培拉:澳大利亚科学院,堪培拉
[24] 北卡罗来纳州克雷西。;Johannesson,G.,“超大空间数据集的固定秩克里格法”,《皇家统计学会杂志》,B辑,70209-226(2008)·Zbl 05563351号
[25] 北卡罗来纳州克雷西。;Shi,T。;Kang,E.L.,“时空数据的固定秩滤波,计算与图形统计杂志,19724-745(2010)·doi:10.1198/jcgs.2010.09051
[26] 北卡罗来纳州克雷西。;Shi,T。;Kang,E.L.,“利用时间变异性改进卫星数据应用的空间制图,加拿大统计杂志,38,271-289(2010)·兹比尔1349.62568
[27] 北卡罗来纳州克雷西。;Wikle,C.K.,《时空数据统计》(2011),新泽西州霍博肯:新泽西州威利·Zbl 1273.62017年
[28] Dang,K.-D。;基罗兹,M。;科恩,R。;Tran,M.-N。;Villani,M.,“具有节能子采样的哈密尔顿蒙特卡罗,机器学习研究杂志,20,100,1-31(2019)·Zbl 1441.62927号
[29] 芬利,A.O。;Sang,H。;班纳吉,S。;Gelfand,A.E.,“提高大型数据集预测过程建模的性能,计算统计和数据分析,532873-2884(2009)·Zbl 1453.62090号 ·doi:10.1016/j.csda.2008.09.008
[30] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,“用图形拉索进行稀疏逆协方差估计,生物统计学,9,3,432-441(2008)·Zbl 1143.62076号 ·doi:10.1093/生物统计学/kxm045
[31] 富勒,R。;Genton,M.G。;Nychka,D.,“大型空间数据集插值的协方差锥化,计算与图形统计杂志,15,3,502-523(2006)·doi:10.1198/106186006X132178
[32] 高,H。;Bradley,J.R.,“使用随机边缘混合效应模型对未知相邻区域的区域数据进行贝叶斯分析,空间统计,31,100357(2019)·doi:10.1016/j.spasta.2019.100357
[33] Gelfand,A.E。;Smith,A.F.,“基于抽样的边缘密度计算方法”,《美国统计协会杂志》,85,398-409(1990)·Zbl 0702.62020号 ·网址:10.1080/01621459.1990.10476213
[34] Geman,S。;Geman,D.,“随机松弛、吉布斯分布和图像的贝叶斯恢复,IEEE模式分析和机器智能汇刊,6721-741(1984)·Zbl 0573.62030号 ·doi:10.1109/tpami.1984.4767596
[35] Griffith,D.,“空间自相关问题的线性回归解决方案,地理系统杂志,2141-156(2000)·doi:10.1007/PL00011451
[36] Griffith,D.,“自动泊松模型、统计和概率字母的空间滤波规范,58,245-251(2002)·Zbl 1045.62050号
[37] 格里菲斯,D。;Tiefelsdorf,M.,“空间自相关的半参数滤波:特征向量方法,环境与规划A,39,1193-1221(2007)·doi:10.1068/a37378
[38] 吉尼斯,J.,“锐化高斯过程近似的排列和分组方法,技术计量学,60,4,415-429(2018)·doi:10.1080/00401706.2018.1437476
[39] Gunawan,D。;Tran,M.-N。;Kohn,R.,“使用变分贝叶斯快速推断难以解决的可能性问题”,arXiv预印本:1705.06679(2017)
[40] 希顿,M.J。;克里斯滕森,W.F。;Terres,M.A.,“使用有限差分空间层次聚类的非平稳高斯过程模型,技术计量学,59,93-101(2017)·doi:10.1080/00401706.2015.1102763
[41] 希顿,M.J。;Datta,A。;芬利,A.O。;富勒,R。;吉尼斯,J。;Guhaniyogi,R。;Gerber,F。;Gramacy,R.B。;哈姆林,D。;Katzfuss,M。;Lindgren,F.,“大型空间数据分析方法之间的案例研究竞争”,《农业、生物和环境统计杂志》,24398-425(2019)·Zbl 1426.62345号 ·doi:10.1007/s13253-018-00348-w
[42] 哈金斯,J。;坎贝尔,T。;Broderick,T.,“可扩展贝叶斯逻辑回归的核心集”,《神经信息处理系统的进展》,29,4080-4088(2016)
[43] Ivan,K。;Holobác,I.H。;Benedek,J。;Török,I.,“VIIS用于地方收入估算的夜间光照数据,遥感,122950(2020)·doi:10.3390/rs12182950
[44] Jolliffe,I.T.,“在主成分分析中丢弃变量。II:真实数据,皇家统计学会期刊,C辑,22,21-31(1973)·doi:10.2307/2346300
[45] Kang,E.L。;Cressie,N.,“空间随机效应模型的贝叶斯推断”,《美国统计协会杂志》,106,972-983(2011)·Zbl 1229.62008号 ·doi:10.1198/jasa.2011.tm09680
[46] Katzfuss,M。;Cressie,N.,“海量遥感数据集的时空平滑和EM估计,时间序列分析杂志,32,430-446(2011)·Zbl 1294.62119号 ·doi:10.1111/j.1467-9892.2011-00732.x
[47] Katzfuss,M。;Cressie,N.,“超大数据集的贝叶斯层次时空平滑,环境计量,23,94-107(2012)
[48] Katzfuss,M。;吉尼斯,J.,“高斯过程Vecchia近似的一般框架”,arXiv预印本:1708.06302(2017)·Zbl 07368223号
[49] Kim,H.M。;马利克,B.K。;Holmes,C.,“使用分段高斯过程分析非平稳空间数据,美国统计协会杂志,100653-668(2005)·Zbl 1117.62368号 ·doi:10.1198/0162145000002014年
[50] 克莱纳。;Talwalkar,A。;Sarkar,P。;Jordan,M.I.,“大数据引导”,arXiv预印本:1206.6415(2012)
[51] Knorr-Held,L。;Rasser,G.,“疾病图中聚类和不连续性的贝叶斯检测,生物计量学,56,13-21(2000)·Zbl 1060.62629号 ·doi:10.1111/j.0006-341x.2000.00013.x
[52] Kohavi,R.,“提高Naive-Bayes分类器的准确性:决策树混合”,《第二届知识发现和数据挖掘国际会议论文集,202-207年》(1996)
[53] Konomi,文学学士。;Sang,H。;Mallick,B.K.,“使用协方差近似对大型空间数据集进行自适应贝叶斯非平稳建模,计算与图形统计杂志,23,802-829(2014)·doi:10.1080/10618600.2013.812872
[54] 科拉提卡拉,A。;陈,Y。;Welling,M.,“MCMC土地的紧缩:削减大都会-黑斯廷斯预算”,机器学习国际会议,181-189(2014)
[55] Lee,E。;Forthofer,R.,《复杂调查数据分析》(2004),加利福尼亚州千橡树:Sage Publications,加利福尼亚州千橡
[56] 梁,F。;Cheng,Y。;宋,Q。;帕克,J。;Yang,P.,“用于分析大型地质统计数据的基于重采样的随机近似方法”,《美国统计协会杂志》,108,325-339(2013)·Zbl 06158346号 ·doi:10.1080/01621459.2012.746061
[57] Lohr,S.,《抽样设计与分析》(1999),加利福尼亚州太平洋格罗夫:布鲁克斯/科尔出版公司,加利福尼亚州大西洋格罗夫·Zbl 0967.62005年
[58] 麦克劳林(D.Maclaurin)。;Adams,R.P.,“萤火虫蒙特卡罗:具有数据子集的精确MCMC”,arXiv:1403.5693(2014)
[59] Moran,P.A.P.,“关于连续随机现象的注释,生物特征,37,17-23(1950)·Zbl 0041.45702号 ·doi:10.1093/biomet/37.1-2.17
[60] Neelon,B。;Gelfand,A.E。;Miranda,M.L.,“区域数据的多元空间混合模型:检验标准化测试分数的区域差异”,《皇家统计学会杂志》,C辑,63,737-761(2014)·doi:10.1111/rssc.12061
[61] 内斯旺格,W。;王,C。;Xing,E.,“渐近精确,令人尴尬的并行MCMC”,arXiv预印本:1311.4780(2013)
[62] 基罗兹,M。;科恩,R。;维拉尼,M。;Tran,M.-N.,“通过有效数据子抽样加速MCMC,美国统计协会期刊,114,526,831-843(2019)·Zbl 1420.62121号 ·doi:10.1080/01621459.2018.1448827
[63] Quiroz先生。;Tran,M.N。;维拉尼,M。;科恩,R。;Dang,K.D.,“最优调谐精确子采样MCMC的块-泊松估计”,arXiv预印本:1603.08232(2016)
[64] 赖斯,C。;图马诺夫,A。;Ganger,G.R。;Katz,R.H。;Kozuch,M.A.,“大规模云的异质性和动态性:谷歌跟踪分析”,第三届美国计算机学会云计算研讨会论文集,7(2012),纽约:美国计算机学会,纽约·数字对象标识代码:10.1145/2391229.2391236
[65] Rothman,A.J。;莱维纳,E。;Zhu,J.,“具有协方差估计的稀疏多元回归,计算与图形统计杂志,19947-962(2010)·doi:10.1198/jcgs.2010.09188
[66] H街。;Held,L.,《高斯马尔可夫随机场:理论与应用》(2005),佛罗里达州博卡拉顿:CRC出版社,佛罗里达州博卡拉顿·邮编1093.60003
[67] Sang,H。;Huang,J.,“大型空间数据集协方差函数的全尺度近似,皇家统计学会期刊,B辑,74111-132(2012)·Zbl 1411.62274号 ·文件编号:10.1111/j.1467-9868.2011.01007.x
[68] Sengupta,A。;北卡罗来纳州克雷西。;弗雷,R。;Kahn,B.,“使用空间随机效应模型对MODIS云数据进行统计建模”,联合统计会议论文集,3111-3123(2012),弗吉尼亚州亚历山大市:美国统计协会,弗吉尼亚州亚历山德里亚
[69] Sethuraman,J.,“Dirichlet Priors的构造性定义,统计,4639-650(1994)·Zbl 0823.62007号
[70] Shi,T。;Cressie,N.,“MISR气溶胶数据的全球统计分析:来自NASA Terra卫星的海量数据产品,环境计量学,18665-680(2007)·doi:10.1002/env.864
[71] Srivastava,S。;李,C。;Dunson,D.B.,“通过Wasserstein空间中的重心可缩放贝叶斯”,《机器学习研究杂志》,19,312-346(2018)·Zbl 1444.62037号
[72] Stein,M.,“空间数据协方差矩阵低秩近似的局限性,空间统计,8,1-19(2014)·doi:10.1016/j.spasta.2013.06.003
[73] 斯坦因,M.L。;Chi,Z。;Welty,L.J.,“大型空间数据集的近似可能性”,《皇家统计学会杂志》,B辑,66,275-296(2004)·Zbl 1062.62094号 ·doi:10.1046/j.1369-7412.003.05512.x
[74] Theil,H.,《全球计量经济学研究》(1996),荷兰多德雷赫特:Kluwer学术出版社,荷兰多德雷赫特
[75] Torrieri,N.,“美国正在改变,人口普查也是如此:美国社区调查,美国统计学家,61,16-21(2007)·doi:10.1198/000313007X169037
[76] Vecchia,A.V.,“连续空间过程的估计和模型识别”,《皇家统计学会杂志》,B辑,50297-312(1988)·doi:10.1111/j.2517-6161.1988.tb01729.x
[77] Wahba,G.,观测数据的样条模型(1990),宾夕法尼亚州费城:工业和应用数学学会,宾夕法尼亚州,费城·Zbl 0813.62001号
[78] Wikle,C.K。;盖尔芬德,A.E。;Diggle,P.J。;Fuentes,M。;Guttorp,P.,《空间统计手册,空间过程的低秩表示》,107-118(2010),佛罗里达州博卡拉顿:查普曼和霍尔/CRC出版社,佛罗里达州波卡拉顿·Zbl 1188.62284号
[79] Wikle,C.K。;Cressie,N.,“时空卡尔曼滤波的降维方法,生物特征,86815-829(1999)·Zbl 0942.62114号 ·doi:10.1093/生物技术/86.4815
[80] Zhao,Y。;阿梅米亚,Y。;Hung,Y.,“使用基于实验设计的Subaggin的高效高斯过程建模,统计中国,281459-1479(2018)·Zbl 1394.62108号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。