×

海量数据大样本分位数回归的最优子抽样。 (英语。法语摘要) Zbl 07759539号

摘要:为了平衡数据量的爆炸性增长和有限的计算资源预算,一种流行的方法是通过对继承完整数据相关属性的子数据集进行二次采样来缩小数据量。作为平均回归模型的替代,当数据独立且数据规模中等时,分位数回归模型已被广泛研究。本文主要讨论具有大量数据的分位数回归,其中样本大小(通常大于10 ^6)非常大,但维数(通常小于20)很小。我们首先给出了一般的子抽样过程,并建立了所得估计量的渐近性质。然后,借助于实验设计中的最优性准则,我们导出了两个在最小渐近均方误差意义下最优的子抽样概率。由于最优子抽样概率依赖于全数据估计量,我们提出了一种两步最优子抽样算法,并研究了所得估计量的一致性和渐近正态性。用合成数据集和实际数据集评估了最优子采样算法的经验性能。
{©2022加拿大统计学会}

MSC公司:

62至XX 统计
62D10号 缺少数据
62G05型 非参数估计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ai,M.,Wang,F.,Yu,J.,&Zhang,H.(2021)。大规模分位数回归的最优子抽样。复杂性杂志,62101512·Zbl 1460.62049号
[2] Ai,M.,Yu,J.,Zhang,H.,&Wang,H.(2021)。大数据回归的最优子抽样算法。中国统计局,31749-772·Zbl 1469.62422号
[3] Angrist,J.、Chernozhukov,V.和Fernández-Val,I.(2006年)。错误指定下的分位数回归,并应用于美国工资结构。《计量经济学》,74(2),539-563·兹比尔1145.62399
[4] Basiri,S.、Ollila,E.和Koivunen,V.(2015)。用于分析大规模数据的健壮、可扩展和快速引导方法。IEEE信号处理汇刊,64(4),1007-1017·Zbl 1412.94017号
[5] Bickel,P.J.&Freedman,D.A.(1981年)。引导的一些渐近理论。《统计年鉴》,9(6),1196-1217·兹比尔0449.62034
[6] Bickel,P.J.&Sakov,A.(2008)。关于m中m的选择和极值的置信界。中国统计,18(3),967-985·Zbl 05361940号
[7] Chen,L.和Zhou,Y.(2020)。大数据中的分位数回归:基于分而治之的策略。计算统计与数据分析,144106892·Zbl 1504.62048号
[8] Chen,X.、Liu,W.、Mao,X.和Yang,Z.(2020)。分位数损失函数下的分布式高维回归。机器学习研究杂志,21(182),1-43·Zbl 07306878号
[9] Chen,X.、Liu,W.和Zhang,Y.(2019)。记忆约束下的分位数回归。《统计年鉴》,47(6),3244-3273·Zbl 1436.62134号
[10] Chen,X.、Liu,W.和Zhang,Y.(2021)。分布式估计和推理的一阶牛顿型估计。美国统计协会杂志。doi:10.1080/01621459.2021.1891925·Zbl 1515.62051号
[11] Chen,X.、Wan,A.T.和Zhou,Y.(2015)。具有缺失观测值的有效分位数回归分析。《美国统计协会杂志》,110(510),723-741·Zbl 1373.62153号
[12] Chernozhukov,V.和Fernández‐Val,I.(2005)。分位数回归过程的子抽样推理。桑赫拉:《印度统计杂志》,67(2),253-276·Zbl 1192.62128号
[13] 克拉克森,K.L.(2005年)。(l_1)回归的次梯度和抽样算法。第16届ACM‐SIAM离散算法年会论文集,ACM,纽约,257-266·Zbl 1297.90094号
[14] Clarkson,K.L.和Woodruff,D.P.(2013)。输入稀疏时间的低秩逼近和回归。第45届美国计算机学会计算机理论年会论文集,美国计算机学会,纽约,81-90·Zbl 1293.65069号
[15] Drineas,P.、Mahoney,M.、Muthkrishnan,S.和Sarlos,T.(2011年)。更快的最小二乘近似。数字数学,117(2),219-249·Zbl 1218.65037号
[16] Drineas,P.、Mahoney,M.W.和Muthukrishnan,S.(2006年)。(l_2)回归的抽样算法及其应用。第17届ACM‐SIAM离散算法年会论文集,ACM,纽约,1127-1136·Zbl 1194.62010年
[17] Efron,B.(1979年)。引导方法:再看一下折刀。《统计年鉴》,7(1),1-26·Zbl 0406.62024号
[18] Fithian,W.&Hastie,T.(2014)。本地案例控制采样:在不平衡数据集中进行有效的子采样。《统计年鉴》,42(5),1693-1724·Zbl 1305.6206号
[19] Gonzalo,J.和Wolf,M.(2005)。门限自回归模型中的子抽样推断。《计量经济学杂志》,127(2),201-224·Zbl 1335.62134号
[20] 何晓霞和朱丽霞(2003)。分位数回归的缺乏拟合检验。《美国统计协会杂志》,98(464),1013-1022·Zbl 1043.62039号
[21] Hinich,M.J.和Talwar,P.P.(1975年)。稳健回归的简单方法。《美国统计协会杂志》,70(349),113-119·兹比尔0309.62045
[22] Horowitz,J.L.(2019)。计量经济学中的自举方法。《经济学年度评论》,1193-224。
[23] Kaya,H.和Tufekci,P.(2012年)。用于预测燃气轮机和蒸汽轮机组合功率的本地和全局学习方法。《计算机和电子工程新兴趋势国际会议论文集》,迪拜,13-18。
[24] Kleiner,A.、Talwalkar,A.,Sarkar,P.和Jordan,M.I.(2014)。大规模数据的可扩展引导。英国皇家统计学会杂志:B辑:统计方法,76(4),795-816·Zbl 07555464号
[25] Koenker,R.(2005年)。分位数回归,剑桥大学出版社,英国剑桥·Zbl 1111.62037号
[26] Koenker,R.和Bassett,G.(1978年)。回归分位数。《计量经济学》,46(1),33-50·Zbl 0373.62038号
[27] Koenker,R.和Bassett,G.(1982年)。基于回归分位数的异方差稳健检验。《计量经济学》,50(1),43-61·Zbl 0482.62023号
[28] Koenker,R.&Hallock,K.F.(2001)。分位数回归。《经济展望杂志》,15(4),1430-1156。
[29] Ma,P.、Mahoney,M.和Yu,B.(2014)。算法利用的统计观点。第31届国际机器学习会议(ICML-14)论文集,北京,91-99。
[30] Ma,P.&Sun,X.(2015)。利用大数据回归。威利跨学科评论:计算统计学,7(1),70-76。
[31] Meng,X.和Mahoney,M.W.(2013)。输入稀疏时间中的低失真子空间嵌入及其在稳健线性回归中的应用。第45届美国计算机学会计算机理论年会论文集,美国计算机学会,纽约,91-100·Zbl 1293.68150号
[32] Politis,D.N.和Romano,J.P.(1994年)。基于最小假设下的子样本的大样本置信区域。《统计年鉴》,22(4),2031-2050年·兹比尔0828.62044
[33] Politis,D.N.、Romano,J.P.和Wolf,M.(1999)。Subsampling,Springer Science&Business Media,纽约州纽约市·兹比尔0931.62035
[34] Portnoy,S.(2003)。删失回归分位数。《美国统计协会杂志》,98(464),1001-1012·Zbl 1045.62099号
[35] Portnoy,S.&Koenker,R.(1997)。高斯兔和拉普拉斯乌龟:平方误差与绝对误差估值器的可计算性。统计科学,12(4),279-300·兹比尔0955.62608
[36] 鲍威尔,J.L.(1986)。删失回归分位数。《计量经济学杂志》,32(1),143-155·Zbl 0605.62139号
[37] Pukelsheim,F.(2006)。实验优化设计,工业和应用数学学会,宾夕法尼亚州费城·Zbl 1101.62063号
[38] Romano,J.P.和Shaikh,A.M.(2012年)。关于子抽样和bootstrap的一致渐近有效性。《统计年鉴》,40(6),2798-2822·Zbl 1373.62185号
[39] Sengupta,S.、Volgushev,S.和Shao,X.(2016)。海量数据的子采样双引导。《美国统计协会杂志》,111(515),1222-1232。
[40] Shao,J.和Wu,C.J.(1989)。折刀方差估计的一般理论。《统计年鉴》,17(3),1176-197·Zbl 0684.62034号
[41] Shi,X.(1991)。压缩样本分位数的一些渐近结果。《统计年鉴》,19(1),496-503·Zbl 0724.62049号
[42] Sohler,C.&Woodruff,D.P.(2011)。应用中的(l_1)范数的子空间嵌入。第43届美国计算机学会计算理论年会论文集,美国计算机学会,纽约,755-764·Zbl 1288.68276号
[43] Ting,D.和Brochu,E.(2018)。具有影响函数的最优子采样。《第32届神经信息处理系统会议记录》(NeurIPS 2018),加拿大蒙特利尔。
[44] Volgushev,S.、Chao,S.K.和Cheng,G.(2019)。分位数回归过程的分布式推理。《统计年鉴》,47(3),1634-1662·Zbl 1418.62174号
[45] Wang,H.和Ma,Y.(2021)。大数据分位数回归的最优子抽样。《生物特征》,108(1),99-112·Zbl 1462.62248号
[46] Wang,H.、Yang,M.和Stufken,J.(2019)。大数据线性回归的基于信息的最优子数据选择。《美国统计协会杂志》,114(525),393-405·Zbl 1478.62196号
[47] Wang,H.,Zhu,R.,&Ma,P.(2018)。大样本logistic回归的最优子抽样。《美国统计协会杂志》,113(522),829-844·Zbl 1398.62196号
[48] Zeng,D.和Lin,D.Y.(2008)。非光滑估计函数的有效重采样方法。生物统计学,9(2),355-363·Zbl 1143.62025号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。