×

海量数据的非参数贝叶斯聚集。 (英语) Zbl 1441.62086号

摘要:我们为一类非参数回归模型开发了一套可扩展的贝叶斯推理程序。具体地说,非参数贝叶斯推理分别对从海量数据集中随机分割出来的每个子集进行,然后将获得的局部结果聚合为全局结果。此聚合步骤是显式的,不涉及任何额外的计算成本。通过仔细的划分,我们表明,我们的聚合推理结果在某种意义上获得了一个预言规则,即它们与直接从整个数据中获得的规则等价(这在计算上是禁止的)。例如,一个聚合可信球在拥有与预言球相同的半径的同时,达到了理想的可信度水平和频率覆盖率。

MSC公司:

62G05型 非参数估计
62G15年 非参数容差和置信区间
62兰特 大数据和数据科学的统计方面
60G15年 高斯过程
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 乔治·德·伯霍夫(George D Birkhoff)。常线性微分方程的边值问题和展开问题。美国数学学会学报,9(4):373-3951908。
[2] Willem van den Boom、Galen Reeves和David B Dunson。变量选择中边际后验的可缩放近似。arXiv预印本arXiv:1506.066292015。
[3] 罗伯特·H·卡梅隆和威廉·T·马丁。韦纳积分在平移下的变换。《数学年鉴》,第386-3961944页·Zbl 0063.00696号
[4] 曹燕帅和大卫·J·舰队。高斯过程预测自动原则融合专家的广义产品。arXiv预印本arXiv:1410.78272014。
[5] Isma¨el Castillo,Richard Nickl,等,高斯白噪声中的非参数bernstein-von-mises定理。《统计年鉴》,41(4):1999-2028,2013年·Zbl 1285.62052号
[6] Isma¨el Castillo、Richard Nickl等,关于非参数贝叶斯过程的bernstein-von-mises现象。《统计年鉴》,42(5):1941-19692014·Zbl 1305.62190号
[7] 袁世洲和亨利·泰彻。概率论:独立性,互换性,鞅。施普林格科学与商业媒体,2012年·Zbl 0652.60001号
[8] 彼得·德容。广义二次型的中心极限定理。概率论和相关领域,75(2):261-2771987·Zbl 0596.60022号
[9] Subhashis Ghosal、Jayanta K Ghosh、Aad W Van Der Vaart等。后验分布的收敛速度。《统计年鉴》,28(2):500-5312000·Zbl 1105.62315号
[10] Jorgen Hoffmann-Jorgensen、Lawrence A Shepp和Richard M Dudley。高斯半范数的下尾。《概率年鉴》,第319-342页,1979年·兹比尔0424.60041
[11] 黄再京和安德鲁·盖尔曼。大数据集贝叶斯计算的抽样。可从SSRN 10101072005获取。
[12] 布莱恩·亨特(Brian R Hunt)、蒂姆·索尔(Tim Sauer)和詹姆斯·约克(James A Yorke)。流行:在无限维空间上几乎每一个都是平移不变的。美国数学学会公报,27(2):217-2381992·Zbl 0763.28009号
[13] Ariel Kleiner、Amee Talwalkar、Purnamrita Sarkar和Michael I Jordan。引导大数据。神经信息处理系统进展,研讨会:大型学习:大规模学习的算法、系统和工具,2011年·Zbl 07555464号
[14] 迈克尔·科索罗克。介绍经验过程和半参数推断。施普林格,2008年·Zbl 1180.62137号
[15] 詹姆斯·库尔布斯(James Kuelbs)、文博五世·李(Wenbo V Li)和沃纳·林德(Werner Linde)。移动球的高斯度量。概率论及相关领域,98(2):143-1621994·Zbl 0792.60004号
[16] Cheng Li、Sanvesh Srivastava和David B Dunson。简单、可扩展且准确的后验区间估计。Biometrika,104(3):665-6802017年·Zbl 07072234号
[17] 李文波等。高斯相关不等式及其在小球概率中的应用。《概率电子通信》,4:111-1181999·Zbl 0937.60026号
[18] 瑞安·麦克唐纳(Ryan McDonald)、基思·霍尔(Keith Hall)和吉迪恩·曼(Gideon Mann)。结构化感知器的分布式训练策略。《人类语言技术:计算语言学协会北美分会2010年年度会议》,第456-464页。计算语言学协会,2010年。
[19] Stanislav Minsker、Sanvesh Srivastava、Lizhen Lin和David B Dunson。通过子集后验测度的中值实现稳健和可扩展的贝叶斯。机器学习研究杂志,18(1):4488-45272017·Zbl 1442.62056号
[20] Carl N Morris等人。具有二次方差函数的自然指数族:统计理论。《统计年鉴》,11(2):515-5291983年·Zbl 0521.62014号
[21] 威利·内斯旺格(Willie Neiswanger)、王冲(Chong Wang)和埃里克·星(Eric Xing)。渐近精确,令人尴尬的平行mcmc.arXiv预印本arXiv:1311.47802013。
[22] Iosif-Pinelis等人,banach空间中鞅分布的最优界。概率年鉴,22(4):1679-17061994·Zbl 0836.60015号
[23] 文森特·里沃拉德(Vincent Rivoirard)、朱迪思·卢梭(Judith Rousseau)等。密度线性泛函的伯恩斯坦-冯·米塞斯定理。《统计年鉴》,40(3):1489-15232012年·Zbl 1257.62036号
[24] 沃尔特·鲁丁等人,《数学分析原理》,第3卷。麦克劳希尔,纽约,1964年·Zbl 0052.05301号
[25] 史蒂文·斯科特(Steven L Scott)、亚历山大·布洛克(Alexander W Blocker)、费尔南多·博纳西(Fernando V Bonassi)、休·A·奇普曼(Hugh A Chipman)、爱德华一世·乔治(Edward I George)和罗伯特·E·麦卡洛奇(Robert。贝叶斯和大数据:共识蒙特卡罗算法。国际管理科学与工程管理杂志,11(2):78-882016。
[26] 郝伯韬商、左凤和广诚。“海量数据的非参数贝叶斯聚集”的补充文件·Zbl 1441.62086号
[27] 左凤尚和广诚。一般非参数后验分布的高斯近似。信息和推断:IMA杂志,7(3):509-5292017·Zbl 1475.62157号
[28] 尚左凤,广成,等。光滑样条模型中的局部和全局渐近推断。《统计年鉴》,41(5):2608-2638,2013年·Zbl 1293.62107号
[29] Sanvesh Srivastava、Cheng Li和David B Dunson。在wasserstein空间中通过重心的可伸缩贝叶斯。机器学习研究杂志,19(1):312-3462018·Zbl 1444.62037号
[30] 博顿·萨博(Botond Szabo)和哈里·范赞滕(Harry van Zanten)。通信约束下的自适应分布式方法。arXiv预打印arXiv:1804.008642018·Zbl 1455.62097号
[31] 博顿·萨博(Botond Szab'o)和哈里·范赞滕(Harry van Zanten)。分布非参数方法的渐近分析。机器学习研究杂志,20(87):1-302019·Zbl 1434.68457号
[32] 萨拉·范德格尔和SA·范德格尔。M估计中的经验过程。剑桥大学出版社,2006年·Zbl 1179.62073号
[33] Aad W van der Vaart,J Harry van Zanten等人,再现高斯先验的核hilbert空间。《突破当代统计学的极限:纪念Jayanta K.Ghosh的贡献》,第200-222页。数学统计研究所,2008a·Zbl 1159.62004号
[34] Aad W van der Vaart,J Harry van Zanten等人。基于高斯过程先验的后验分布收缩率。《统计年鉴》,36(3):1435-14632008b·Zbl 1141.60018号
[35] 格雷斯·瓦赫巴(Grace Wahba)。观测数据的样条模型,第59卷。暹罗,1990年·Zbl 0813.62001号
[36] 王祥宇和大卫·B·邓森。通过weierstrass采样器并行mcmc。arXiv预打印arXiv:1312.46052013。
[37] 王祥宇、彭培超和大卫·B·邓森。用于并行推理的中值选择子集聚合。《神经信息处理系统进展》,第2195-2203页,2014年。
[38] 王祥宇、郭方建、凯瑟琳·A·海勒和大卫·B·邓森。用随机分区树并行mcmc。《神经信息处理系统进展》,第451-459页,2015年。
[39] 张宇晨、约翰·杜奇和马丁·温赖特。分治核岭回归:一种具有极大极小最优速率的分布式算法。机器学习研究杂志,16(1):3299-3340,2015a·Zbl 1351.62142号
[40] 张宇晨、马丁·温赖特和迈克尔·乔丹。广义矩阵秩的分布式估计:有效算法和下限。国际机器学习会议,第457-465页,2015b。
[41] 赵田琦、光诚和刘汉三人。海量异构数据的部分线性框架。《统计年鉴》,44(4):14002016年·Zbl 1358.62050号
[42] 第8.1条。引理2和3的证明
[43] 证明[引理2的证明]我们只显示了自
[44] 第二个类似。设ην=τνvν。那个么ην是一个等标准法线序列。请注意
[45] LetUn=(n‖Wn‖22-ζ1,n)/2ζ2,n,则我们得到Un=√1∑∞n(η2ν−1)
[46] 通过简单的计算和对数(1−x)的泰勒展开,可以看出
[47] 不等logE{exp(tUn)}=t2/2+O(t3ζ2−,n3/2ζ3,n)的矩母函数的对数。(第1条)
[48] β) ,a/(2m+β)
[49] ζ2,n≍nα1和ζ3,nᚕnα1,因此(S.1)中的余项为o(n−α1/2)=o(1)。所以
[50] limn→∞E{exp(tUn)}=exp(t1/2)。证明已完成。
[51] 证明[引理3的证明]该证明遵循矩母函数方法和
[52] 直接计算。
[53] 第8.2条。第4.5和4.6节中的证明
[54] 本节包含第4.5节和第4.6节中的证明。39
[55] 第4.5节中的证明
[56] 证明[定理5的证明]回忆一下在定理4的证明中,我们证明了速率条件
[57] (R′)满足。很容易看出这一点
[58] 矿石1的max1≤j≤s1-α−P0j(RFj,n(α))=oPf(1)。Sinces=o(N8m(2m+β)(logN)−32),0
[59] 可以检验N L2N=o(1)。连同条件−r≲Nθ21,N和事实
[60] θk、N≤θk,N,可以验证h−r≲Nθ12、N≤Nθ12,N=o(L−N2θ12,N)。所以我们在(35)和
[61] 定理2:maxF(∆j)=OPf(h−r/2LN)=OPf(θ
[62] 结合(S.2),我们得出P0j(Rj,nF(α))=P
[63] 上述参数导致Φ(rF,j,n(α)/θ1,n)=1-α/2+oPf(1)对于1≤j≤s,0一致
[64] 这进一步导致了以下maxбrF,j,n(α)/θ1,n−zα/2б=oPf(1)。(第3章)
[65] (13) 速率条件N‖T1‖2=OPf(N a2n)=oP(1)。同时,它是0f0
[66] 然后是条件(S′),N−1≍h2m+β和λ=h2m,直接检查∞
[67] 和∞
[68] 通过(11)和N s2L2N=o(1),我们得到了‖f˘N,λ−̃fN,∧‖=oPf(N−1/2)。因此,‖f˘N,λ−f0−T3‖≤0
[69] ‖f˘N,λ−õfN,λ‖+‖T1+T2+T4‖=oPf(N−1/2)。如果从(35)中得出以下结论,则F(F˘N,λ−f0)−F(T3)=0
[70] oPf(h−r/2N−1/2)。0
[71] 3.我们将导出F(T3)的渐近分布。Lets2N=V arf0(∑Ni=1iF(RXi))。它是
[72] 很容易证明∞
[73] 很明显,通过νν和F(ν)的一致有界性,我们得到了∞
[74] 其中“≲”不受x∈I的约束,并且∞
[75] 然后,对于任何δ>0,条件Ef0{4ŞX}≤M4a.s.,1N
[76] 其中最后一个(1)项后面是h≍h*和2−r<2m+β。按Lindeberg的中心极限
[77] 定理,asN→∞,F(T3)
[78] 由(S.3)可知
[79] 导致rF,N(α)
[80] 可以证明θ12,N∑∞F(νν)2
[81] 结合(S.5),我们得出Pf0(F(f0)−F(F˘N,λ)≤rF,N(α))
[82] 注意,当0<∑∞ν=1F(νν)2<∞,θ12,N→1时,导致(S.7)Nθ2中的概率
[83] 接近1-α。0NI):
[84] F(F)−F(F˘N,λ)≤rF,N(α)
[85] ‖fN、λ或−fN,λ‖=OPf(aN+aN),并且(35)我们有0
[86] 其中最后一(1)项后接条件Nθ21,N≳h−rand速率条件(R′)。发件人
[87] (S.6)我们得到P0(RFN(α))=P(Wor∈RNF(α)D)
[88] 因此,从(14)可以得出P(RFN(α)D)=1-α+oPf(1)。证明已完成。0
[89] 第4.6节中的证明
[90] 证明[定理6的证明]从(20)可以得出rN(α)−rN†(α)=oPf(N−1h−1/2),0
[91] 这与(19)一起导致limn→∞Pf0(f0∈R†N(α))=1。它来自引理
[92] 2,(14)和定理3的证明,即P(R†N(α)D)=1−α+oPf(1)。0
[93] RN†ω(α)直接遵循定理4的证明。42
[94] CIN†F(α)源自(S.7)和(S.8)。
[95] 第8.3条。命题1和相关结果的证明
[96] 本节的目的是证明命题1和相关结果。在证明之前,我们
[97] 准确描述从技术上讲可能会出现的似然函数的Fr′echet导数
[98] 非常有用。假设(Y,X)遵循基于onf的模型(14)。Letg,gk∈Sm(I)fork=1,2。
[99] Forj=1,2,s、 'jn的Fr′echet导数可以确定为D'jn(g)g1=1∑(Yi−g(Xi))⟨KX,g
[100] 定义Sλ(g)=E{Sj,n(g)}。我们还使用DSλ和D2Sλ表示第二个-和
[101] Sλ的三阶Fr′echet导数。注意,Sj,n(õfj,n)=0,并且Sj,n(f)可以表示
[102] 作为Sj,n(f)=1∑(Yi−f(Xi))KX−P
[103] Fr′echet导数Sj,nis表示DSj,n(g)g1g2。这些导数可以明确表示为
[104] 写为D2'jn(g)g1g2∶=DSj,n(g,
[105] Sm(I)∶J(f)≤b2
[106] 分布设置中的平滑样条估计。
[107] 引理4Ifb,r,h,Mare正满足以下速率条件(h):1.h1/2r≤1,2.c2KM1/2rh−1/2B(h)≤1/2,其中B(h,
[108] 然后,对于任意1≤j≤s,以下两个结果成立:1.supf∈Hm(b)Pf(‖̂fj,n−f‖≥δn)≤2 exp(−M nhr2),其中δn=bhm+2cK(C+M)r与
[109] 引理5对于任何固定常数M>1和b>0,设r=(nh/log 2s)−1/2,δn=bhm+2cK(C+M)r,(S.10)
[110] 则asn→∞,Pf0(max‖̂fj,n−f0‖≥δn)≤6sN−M→0,
[111] Pf0(最大‖̂fj,n−f0−Sj,n(f0)‖>an)≤8sN−M→0。
[112] 证明[引理5的证明]结果是引理4的一个直接结果。
[113] 引理6它认为max‖̂fj,n−f0−Sj,n(f0)‖=OPf(an)。(S.12)1≤j≤s0
[114] 证明[引理6的证明]引理5的证明,以及B(h)≲h−2m4m−1的简单事实。
[115] 引理7在条件(S)下,我们得到max1≤j≤S‖̂fj,n−f0‖=OPf(̃rn)。0
[116] 证明[引理7的证明]回忆一下Sj,n(f0)=−1∑(Yi−f0(Xi))KX−P
[117] Shang et al.(2013)表明,Pλν=1λб+λ⁄νбνν。Sincef0满足条件(S),ν
[118] 其中,最后一个方程后面是λ=h2m、supx≥0x11−+β2x−m1<∞和条件(S)。
[119] 另一方面,根据(S.22)的证明,⎝max1≤j≤S‖∑i∈Ij(Yi−f0(Xi))KXi‖≥L(M)n(nh/log 2s)−1/2⎠
[120] 其中L(M)∶=cK(C+M)。这意味着最大‖∑(Yi−f0(Xi))KXi‖=OPf(n(nh/log 2s)−1/2),
[121] 因此,最大‖Sj,n(f0)‖=OPf((nh/log 2s)−1/2+hm+β−21)=OPf
[122] 结合引理6的(S.12)和速率条件an≲rn,我们得到max1≤j≤S‖fj,n−
[123] f0‖=OPf(̃rn)。0
[124] 考虑函数类G={G∈Sm(I)∶‖G‖∞≤1,J(G,G)≤c−K2h−2m+1}。(第13条)
[125] 引理8对于任何固定常数M>1,asn→∞,√
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。