×

兹马思-数学第一资源

大规模分位数回归的最优子抽样。(英语) Zbl 1460.62049
摘要:对于海量数据集,子抽样是一种有效的方法,可以显著降低模型参数估计的计算成本。本文利用Poisson抽样框架,提出了一种有效的大规模分位数回归子抽样方法,解决了大数据带来的记忆约束问题。在一些温和的条件下,建立了包含弱相合性和强相合性的估计量的大样本性质和渐近正态性。此外,根据A-最优性准则,导出了最优次抽样概率。结果表明,基于最优子抽样的估计器渐近地获得比均匀随机子抽样更小的方差。通过对模拟数据集和实际数据集的数值分析,对该方法进行了说明和评价。
理学硕士:
62G08型 非参数回归与分位数回归
6205年 抽样理论,抽样调查
6207年 大数据统计与数据科学
62-08年 统计问题的计算方法
第62页 统计学在生物学和医学科学中的应用;荟萃分析
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 伯杰,Y.G。;Torres,O.D.L.R.,复杂抽样设计的经验似然置信区间,J.R.Stat.Soc。爵士。B Stat.Methodol.,78,2,319-341(2016年)·Zbl 1414.62046
[2] 布切伦,S。;卢戈西,G。;Massart,P.,《集中不平等:一种非交感独立理论》(2013),牛津大学出版社·Zbl 1279.60005
[3] 陈,C.,分位数回归的有限光滑算法,J.Comput。图表。统计师,16,1136-164(2007年)
[4] 周永康。;《概率论:独立性,互换性,鞅》(1997),斯普林格科学与商业媒体·Zbl 0891.60002
[5] 迪鲁,D。;Taniskidou,E.K.,UCI机器学习知识库(2017),网址:http://archive.ics.uci.edu/ml
[6] P、 Drineas,M.W.Mahoney,S.Muthukrishnan,《回归和应用的抽样算法》,载:第十七届ACM-SIAM离散算法年会论文集,2006年,第1127-1136页·Zbl 1194.62010
[7] 菲提安,W。;局部病例对照抽样:不平衡数据集的有效子抽样,人工神经网络。Statist.,42,51693-1724(2014年)·Zbl 1305.62096
[8] C、 J.Geyer,关于凸随机优化的渐近性,未发表手稿371996。
[9] Hájek,J.,《有限总体中具有变化概率的拒绝抽样的渐近理论》,Ann。数学。Stat.,35,4,1491-1523(1964年)·Zbl 0138.13303
[10] 韩,L。;Tan,K.M。;杨,T。;多变量不确定性的局部不确定性抽样。统计,48,31770-1788(2020年)·Zbl 1452.62163
[11] 奈特,K.,《一般条件下(L∗1)回归估计量的极限分布》,人工神经网络。统计,262755-770(1998)·Zbl 0929.62021
[12] K、 奈特,分布中的Epi收敛与随机等半连续性,未发表手稿,1999年,第1-22页。
[13] 《分位数回归》(2005),剑桥大学出版社·Zbl 1111.62037
[14] Koenker,R.,quantreg:分位数回归(2019年),网址:https://CRAN.R-project.org/package=quantreg
[15] 克恩克,R。;巴塞特,G.,回归分位数,计量经济学,46,1,33-50(1978)·Zbl 0373.62038
[16] 克恩克,R.W。;d'Orey,V.,算法AS 229:计算回归分位数,J.R.Stat.Soc。爵士。C、 申请。Stat.,36,3383-393(1987年)
[17] 克恩克,R。;D'Orey,V.,Remark AS R92:A Remark on algorithm AS 229:Computing dual regression quantiles and regression rank scores,J.R.Stat.Soc.评论,AS R92:A Remark on algorithm AS 229:Computing dual Returnation Qua。爵士。C、 申请。Stat.,43,2410-414(1994年)
[18] 硕士,P。;马奥尼,M.W。;于,B.,《算法杠杆的统计观点》,J.Mach。学习。第161861-919号决议(2015年)·Zbl 1337.62164
[19] 硕士,P。;Sun,X.,利用大数据回归,Wiley Interdiscip。版次。计算机。Stat.,7,1,70-76(2015年)
[20] 纽伊,W.K。;McFadden,D.,《大样本估计和假设检验》,《计量经济学手册》,第4卷(1994年),爱思唯尔出版社,2111-2245
[21] 五、 彼得罗夫,概率论极限定理:独立随机变量序列,牛津,纽约,1995·Zbl 0826.60001
[22] 普费尔曼,D。;Sverchkov,M.,《信息抽样下的推断》,《统计手册》,第29卷(2009年),Elsevier,455-487
[23] 波特诺伊。;克恩克,R。;提斯特德,R.A。;奥斯本,医学博士。;波特诺伊。;Koenker,R.,《高斯兔子和拉普拉斯乌龟:平方误差与绝对误差估计的可计算性》,统计学家。科学,12,4,279-300(1997)·Zbl 0955.62608
[24] Pukelsheim,F.,实验优化设计(2006),工业与应用数学学会:费城工业与应用数学学会·Zbl 1101.62063
[25] 钱,G。;吴勇,二项响应广义线性回归模型选择的强极限定理,统计学家。《中国日报》,16,4,1335-1365(2006)·Zbl 1109.62063
[26] 拉玛穆尔蒂,K.N。;阿拉夫金,A.Y。;Thiagarajan,J.J.,分位数参数的自动推断(2015),arXiv预印本arXiv:1511.03990
[27] 舍伍德,B。;王,L。;Zhou,X.,加权分位数回归分析带有缺失协变量的医疗成本数据,统计医学,32,28,4967-4979(2013)
[28] 丁丁。;Brochu,E.,带影响函数的最优子抽样,(神经信息处理系统进展(2018)),3650-3659
[29] Tsybakov,A.B.,非参数估计导论(2008),Springer
[30] 范德法特,A.,渐近统计(1998),剑桥大学出版社:剑桥大学出版社伦敦·Zbl 0910.62001
[31] 王,H.最优子样本logistic回归的更有效估计,J.Mach。学习。第20、132、1-59页(2019年)·Zbl 1441.62194
[32] 王,H。;Ma,Y.,大数据分位数回归的最优子抽样(2020),arXiv预印本arXiv:2001.10168
[33] 王,H。;杨,M。;Stufken,J.,大数据线性回归的基于信息的最优子数据选择,J.Amer。统计学家。协会,114525393-405(2019年)·Zbl 07095885号
[34] 王,H。;朱,R。;马,P.,大样本logistic回归的最优子抽样,J.Amer。统计学家。协会,113522829-844(2018年)·Zbl 1398.62196
[35] 吴,Y。;Zen,M.基于M-估计的线性模型选择的强一致信息准则,Probab。理论相关领域,1134599-625(1999)·Zbl 0973.62050
[36] 十一,右。;李,S。;夏,Y。;金,T.M。;Park,P.J.,使用BIC-seq2对全基因组数据的拷贝数分析及其在癌症易感性变体检测中的应用,核酸研究,44,13,6274-6286(2016)
[37] 熊,S。;关于条件统计量的一些结果。可能吧。Lett.,78,18,3249-3253(2008年)·Zbl 05380111
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。