×

函数分位数回归的最优子抽样。 (英语) 兹比尔1534.62056

摘要:子采样是处理海量数据的一种有效方法。本文研究了协变量为函数时线性分位数回归的最优子抽样问题。首先导出了子抽样估计量的渐近分布。然后,我们基于A-最优性准则获得了最优子采样概率。此外,还提出了在不估计给定协变量的响应变量密度的情况下修正的子抽样概率,这在实践中更容易实现。对合成数据和实际数据的数值实验表明,所提方法始终优于均匀采样方法,并且能够以较少的计算量很好地逼近基于全数据的结果。

MSC公司:

62G08号 非参数回归和分位数回归
62K05美元 最佳统计设计
62兰特 功能数据分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 艾,M。;Wang,F。;Yu,J。;Zhang,H.,大规模分位数回归的最优子抽样,J Complex,6210512(2021)·Zbl 1460.62049号 ·doi:10.1016/j.jco.2020.1015年12月
[2] Ai M,Yu J,Zhang H,Wang H(2021)大数据回归的最优子抽样算法。中国统计局31(2):749-772·Zbl 1469.62422号
[3] 阿特金森,A。;阿肯色州多涅夫;Tobias,RD,《优化实验设计》,与SAS合著(2007),纽约:牛津大学出版社,纽约·Zbl 1183.62129号 ·doi:10.1093/oso/9780199296590.0001
[4] Cardot,H。;费拉蒂,F。;Sarda,P.,函数线性模型的样条估计,Stat-Sin,13,571-591(2003)·Zbl 1050.62041号
[5] Cardot,H。;克兰贝斯,C。;Sarda,P.,当协变量为函数时的分位数回归,《非参数统计杂志》,17,7,841-856(2005)·Zbl 1077.62026号 ·doi:10.1080/10485250500303015
[6] Cardot H,Crambes C,Sarda P(2004)具有函数协变量的条件分位数:在臭氧污染预测中的应用。收录:Compstat 2004年会议记录,第769-776页
[7] Chen,K。;Müller,H.,协变量为函数时的条件分位数分析,应用于增长数据,J R Stat Soc B,74,2,67-89(2012)·Zbl 1411.62095号 ·文件编号:10.1111/j.1467-9868.2011.01008.x
[8] Chen,K。;Breitner,S。;Wolf,K.,《环境一氧化碳与每日死亡率:337个城市的全球时间序列研究》,《柳叶刀星球健康》,第5、4期,e191-e199(2021)·doi:10.1016/S2542-5196(21)00026-7
[9] Claeskens,G。;Krivobokova,T。;Opsomer,JD,惩罚样条估计量的渐近性质,Biometrika,96,3,529-544(2009)·Zbl 1170.62031号 ·doi:10.1093/biomet/asp035
[10] de Boor,C.,《样条曲线实用指南》(2001),柏林:施普林格出版社,柏林·Zbl 0987.65015号
[11] Dobriban E,Liu S(2019)《最小二乘回归中草图绘制的渐近性》。In:《神经信息处理系统的进展》32,第3675-3685页
[12] 德里尼亚斯,P。;Magdon-Ismail,M。;马奥尼,MW;伍德拉夫,DP,矩阵一致性和统计杠杆的快速近似,J Mach Learn Res,13,1,3441-3472(2012)·Zbl 1437.65030号
[13] Drineas P、Mahoney MW、Muthukrishnan S(2006)《(l_2)回归的采样算法和应用》。摘自:第十七届ACM-SIAM离散算法年会论文集,第1127-1136页·Zbl 1194.62010年
[14] 范,Y。;刘,Y。;Zhu,L.,线性分位数回归模型的最优子抽样,Can J Stat,49,4,1039-1057(2021)·Zbl 1492.62073号 ·doi:10.1002/cjs.11590
[15] He,S。;Yan,X.,用于大规模函数数据分析的函数主子空间采样,Electron J Stat,16,1,2621-2682(2022)·Zbl 1493.62642号 ·doi:10.1214/22-EJS2010
[16] Hjort NL,Pollard D(2011)凸过程极小值的渐近性。arXiv预打印arXiv:1107.3806
[17] Homrighausen,D。;McDonald,DJ,压缩和惩罚线性回归,J Comput Graph Stat,29,309-322(2019)·Zbl 07499258号 ·doi:10.1080/10618600.2019.1660179
[18] Kato,K.,《函数线性分位数回归中的估计》,Ann Stat,40,6,3108-3136(2012)·Zbl 1296.62104号 ·doi:10.1214/12-AOS1066
[19] Kinoshita,H。;蒂尔坎,H。;Vucinic,S.,一氧化碳中毒,毒物报告,7169-173(2020)·doi:10.1016/j.toxrep.2020.01.005
[20] Koenker,R.,分位数回归(2005),剑桥:剑桥大学出版社,剑桥·Zbl 1111.62037号 ·doi:10.1017/CBO9780511754098
[21] Koenker,R。;Bassett,G.,回归分位数,计量经济学,46,1,33-50(1978)·Zbl 0373.62038号 ·doi:10.2307/1913643
[22] 刘,C。;尹,P。;Chen,R.,《环境一氧化碳与心血管死亡率:中国272个城市的全国时间序列分析》,《柳叶刀星球健康》,2,1,e12-e18(2018)·doi:10.1016/S2542-5196(17)30181-X
[23] Liu H,You J,Cao J(2021)海量数据的泛函L-最优子抽样。arXiv预打印arXiv:2104.03446
[24] 马,P。;马奥尼,MW;Yu,B.,《算法利用的统计观点》,J Mach Learn Res,16,27,861-911(2015)·Zbl 1337.62164号
[25] Mahoney,MW,矩阵和数据的随机算法,《发现趋势——马赫学习》,3123-224(2011)·Zbl 1232.68173号
[26] Ma P,Zhang X,Xing X,Ma J,Mahoney MW(2020)随机数值线性代数算法抽样估计量的渐近分析。摘自:《第二十三届国际人工智能与统计会议论文集》,第1026-1035页
[27] Moazami,S。;努里,R。;Amiri,BJ,使用开发的支持向量机对一氧化碳进行可靠预测,Atmos Pollut Res,7,3,412-418(2016)·doi:10.1016/j.apr.2015.10.022
[28] Raskutti,G。;Mahoney,MW,《普通最小二乘法随机素描的统计观点》,J Mach Learn Res,17,213,1-31(2016)·Zbl 1436.62331号
[29] 赖斯,P。;Huang,L.,惩罚分位数回归样条的平滑度选择,国际生物统计杂志(2012)·doi:10.1515/1557-4679.1381
[30] Ruppert,D.,《为缺陷样条选择节点数》,《计算图形统计杂志》,11,4,735-757(2002)·doi:10.1198/106186002853
[31] 桑·P。;Cao,J.,功能性单指数分位数回归模型,统计计算,30,4,771-781(2020)·Zbl 1447.62138号 ·doi:10.1007/s11222-019-09917-6
[32] 沙姆斯,R。;贾哈尼,A。;Moeinaddini,M。;Khorasani,N.,《使用人工神经网络与多元回归进行空气一氧化碳预测》,《地球系统环境模型》,第6期,1467-1475页(2020年)·doi:10.1007/s40808-020-00762-5
[33] Shao,Y。;Wang,L.,海量数据中复合分位数回归模型的最优子抽样,Stat Pap,63,1139-1161(2021)·Zbl 07574179号 ·doi:10.1007/s00362-021-01271-y
[34] 邵,L。;Song,S。;周瑜,大样本分位数回归的最优子抽样,Can J Stat(2022)·Zbl 07759539号 ·doi:10.1002/js.11697文件
[35] Stone,CJ,加性回归和其他非参数模型,Ann Stat,13,2,689-705(1985)·Zbl 0605.62065号 ·doi:10.1214/aos/1176349548
[36] Wang,H.,用最优子样本对logistic回归进行更有效的估计,J Mach Learn Res,20,132,1-59(2019)·兹比尔1441.62194
[37] Wang,H。;Ma,Y.,大数据分位数回归的最优子抽样,Biometrika,108,1,99-112(2021)·Zbl 1462.62248号 ·doi:10.1093/biomet/asaa043
[38] Wang,H。;朱,R。;Ma,P.,大样本logistic回归的最优子抽样,美国统计协会杂志,113,522,829-844(2018)·Zbl 1398.62196号 ·doi:10.1080/01621459.2017.1292914
[39] 王,S。;Gittens,A。;Mahoney,MW,《略图岭回归:优化视角、统计视角和模型平均》,J Mach Learn Res,18,218,1-50(2018)·Zbl 1473.62253号
[40] 姚,Y。;Wang,H.,softmax回归的最优子抽样,Stat Pap,60,2,585-599(2019)·Zbl 1421.62013年 ·doi:10.1007/s00362-018-01068-6
[41] Yoshida,T.,分位数回归中惩罚样条估计的渐近性,Commun Stat Theory M(2013)·Zbl 07710569号 ·doi:10.1080/03610926.2013.765477
[42] Yu,J。;Wang,H。;艾,M。;Zhang,H.,海量数据下最大拟似然估计量的最优分布子抽样,美国统计协会,117,537,265-276(2020)·Zbl 1506.62235号 ·doi:10.1080/01621459.2020.1773832
[43] Yuan,M.,分位数平滑样条的GACV,《计算统计数据年鉴》,50,3,813-829(2006)·Zbl 1432.62090号 ·doi:10.1016/j.csda.2004.10.008
[44] 袁,X。;李毅。;Dong,X。;Liu,T.,大数据中复合分位数回归的最优子抽样,Stat Pap,63,1649-1676(2022)·Zbl 07612357号 ·doi:10.1007/s00362-022-01292-1
[45] 周,S。;沈,X。;Wolfe,D.,回归样条曲线和置信区的局部渐近性,Ann Stat,26,25,1760-1782(1998)·Zbl 0929.62052号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。