×

通过惩罚分位数平滑样条从海量数据中计算置信区间。 (英语) Zbl 1504.62064号

摘要:提出了一种新的方法,用于使用鲁棒灵活的分位数回归样条从一个或两个协变量中的大量响应数据集计算逐点置信区间。该方法的新方面包括用于选择惩罚系数的新交叉验证过程和基于加权数据表示的分位数平滑问题的重新计算。这些创新允许通过分布式“小引导包”在超大数据集中进行不确定性量化和快速参数选择。用合成数据进行的实验表明,计算出的置信区间的经验覆盖率通常在名义覆盖率的2%以内。该方法广泛适用于一维或二维大数据集的分析。Netflix进行的旨在优化流媒体视频质量的对比(或“A/B”)实验最初推动了这项工作,但所提出的方法具有普遍适用性。使用一个开源应用程序对该方法进行了说明:比较NASA地球交换的地理空间气候模型场景。

MSC公司:

62G15年 非参数容差和置信区域
62G08号 非参数回归和分位数回归
62兰特 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Akaike,H.,《信息论与最大似然原理的扩展》,(Hirotugu Akaike1973年的论文选集,Springer),199-213·Zbl 0283.62006号
[2] 比克尔,P.J。;Sakov,A.,《关于m in the m of n bootstrap和极值置信界的选择》,Statist。Sinica,967-985(2008)·Zbl 05361940号
[3] 博世,R.J。;叶,Y。;Woodworth,G.G.,用平滑样条曲线进行分位数回归的收敛算法,计算。统计师。数据分析。,19, 6, 613-630 (1995) ·Zbl 0875.62148号
[4] Cox,D.D.,M型光滑样条的渐近性,Ann.Statist。,530-551 (1983) ·Zbl 0519.62034号
[5] Dikta,G.,最近邻回归函数估计的Bootstrap近似,J.多元分析。,32, 2, 213-229 (1990) ·兹比尔0723.62028
[6] Gent,P.R。;Danabasoglu,G。;唐纳,L.J。;霍兰德,M.M。;Hunke,E.C。;Jayne,S.R。;劳伦斯,医学博士。;Neale,R.B。;Rasch,P.J。;Vertenstein,M.,《社区气候系统模型第4版》,J.Clim。,24, 19, 4973-4991 (2011)
[7] Govind,N.,《利用数据科学优化Netflix流媒体体验》(2014年),Netflix技术博客,6月11日
[8] Govind,N.,A/B测试及其他:通过实验和数据科学改善Netflix流媒体体验(2017年),Netflix技术博客6月13日
[9] Hall,P.,The Bootstrap and Edgeworth Expansion(2013),Springer Science&Business Media公司
[10] Hansen,M。;科珀伯格,C。;Sardy,S.,Triogram models,J.Amer。统计师。协会,93,441,101-119(1998)·Zbl 0902.62045号
[11] Härdle,W。;Marron,J.,非参数回归的Bootstrap同步误差条,Ann.Statist。,778-796 (1991) ·Zbl 0725.62037号
[12] 政策制定者摘要,(Stocker,T.;Qin,D.;Plattner,G.-K.;Tignor,M.;Allen,S.;Boschung,J.;Nauels,A.;Xia,Y.;Bex,V.;Midgley,P.,《2013年气候变化:物理科学基础》,第一工作组对政府间气候变化专门委员会第五次评估报告的贡献(2013年),剑桥大学出版社:剑桥大学出版社英国剑桥和美国纽约),130
[13] 克莱纳。;Talwalkar,A。;Sarkar,P。;Jordan,M.I.,《海量数据的可扩展引导》,J.R.Stat.Soc.Ser。B统计方法。,76, 4, 795-816 (2014) ·兹伯利07555464
[14] Koenker,R.,《分位数回归》,第38卷(2005),剑桥大学出版社·Zbl 1111.62037号
[15] Koenker,R.,Quantreg:分位数回归。r包版本4.10(2007)
[16] Koenker,R。;Bassett Jr,G.,回归分位数,计量经济学,33-50(1978)·Zbl 0373.62038号
[17] Koenker,R。;Mizera,I.,《惩罚三元图:二元平滑的总变差正则化》,J.R.Stat.Soc.Ser。B统计方法。,66, 1, 145-163 (2004) ·Zbl 1064.62038号
[18] Koenker,R。;Ng,P.,稀疏分位数回归的弗里斯-牛顿算法,数学学报。申请。罪。(英语版),21,2,225-236(2005)·Zbl 1097.62028号
[19] Koenker,R。;Ng,P.,不平等约束分位数回归,Sankhyá,418-440(2005)·Zbl 1193.62023号
[20] Koenker,R。;Ng、P。;Portnoy,S.,Quantile平滑样条曲线,Biometrika,81,4673-680(1994)·Zbl 0810.62040
[21] Kua,J。;Armitage,G。;Branch,P.,http上动态自适应流传输的速率自适应技术调查,IEEE Commun。Surv公司。导师。,19, 3, 1842-1866 (2017)
[22] 尼奇卡,D。;格雷,G。;Haaland,P。;马丁·D·。;O'connell,M.,《注射器质量改进分级的非参数回归方法》,J.Amer。统计师。协会,90,432,1171-1178(1995)·Zbl 0864.62066号
[23] 哦,H.S。;尼奇卡,D。;Brown,T。;Charbonneau,P.,《通过稳健平滑对可变恒星进行周期分析》,J.R.Stat.Soc.Ser。C.申请。《统计》,53,1,15-30(2004)·Zbl 1111.85302号
[24] J.O.拉姆齐。;Silverman,B.W.,《应用功能数据分析:方法和案例研究》(2007),施普林格出版社·Zbl 1011.62002号
[25] Reich,B.J。;邦德尔·H·D。;Wang,H.J.,独立和聚集数据的灵活贝叶斯分位数回归,生物统计学,11,2,337-352(2010)·Zbl 1437.62589号
[26] 莱斯,P.T。;黄,L.,惩罚分位数回归样条的平滑度选择,国际生物统计杂志。,8, 1 (2012)
[27] Renka,R.J.,《算法751:tripack:约束二维delaunay三角剖分包》,ACM Trans。数学。柔和。(TOMS),22,1,1-8(1996)·Zbl 0884.65144号
[28] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 2, 461-464 (1978) ·Zbl 0379.62005年
[29] Serrin,J.,《关于某些变分积分的定义和性质》,Trans。阿默尔。数学。Soc.,101,1139-167(1961年)·Zbl 0102.04601号
[30] 尚,Z。;Cheng,G.,平滑样条曲线分布式算法的计算极限,J.Mach。学习。决议,18,1,3809-3845(2017)·Zbl 1442.90055号
[31] Sommerfeld,M。;Sain,S。;Schwartzman,A.,重复随机现场观测的空间偏移集的置信区域,以及气候应用,J.Amer。统计师。协会,113,523,1327-1340(2018)·兹比尔1402.62101
[32] Sun,J。;Loader,C.R.,线性回归和平滑的同时置信带,Ann.Statist。,22, 3, 1328-1345 (1994) ·Zbl 0817.62057号
[33] Thrasher,B。;Maurer,E.P。;McKellar,C。;Duffy,P.,偏误校正气候模型用分位数映射模拟了每日极端温度,Hydrol。地球系统。科学。,16, 9, 3309 (2012)
[34] Van Vuuren,D.P。;埃德蒙兹,J。;Kainuma,M。;Riahi,K。;A.汤姆森。;希伯德,K。;赫特,G.C。;Kram,T。;Krey,V。;Lamarque,J.-F.,《典型浓度途径:概述》,Clim。变更,109,1-2,5(2011年)
[35] Wahba,G.,观测数据的样条模型,第59卷(1990年),暹罗·Zbl 0813.62001号
[36] Yang,Y。;He,X.,分位数回归的贝叶斯经验似然,Ann.Statist。,40, 2, 1102-1131 (2012) ·Zbl 1274.62458号
[37] Yuan,M.,分位数平滑样条的Gacv,计算。统计数据分析。,50, 3, 813-829 (2006) ·Zbl 1432.62090号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。