×

分布式系统的最小二乘近似。 (英语) Zbl 07499933号

摘要:在这项工作中,我们开发了一种分布式最小二乘近似(DLSA)方法,该方法能够在分布式系统上解决一大类回归问题(例如,线性回归、逻辑回归和Cox模型)。通过使用局部二次型逼近局部目标函数,我们能够通过取局部估计量的加权平均值来获得组合估计量。所得到的估计器被证明在统计上与全局估计器一样有效。此外,它只需要一轮沟通。我们进一步使用自适应拉索方法基于DLSA估计进行收缩估计。在主节点上使用LARS算法可以很容易地得到解。理论上表明,使用新设计的分布式贝叶斯信息准则,得到的估计量具有预言性,并且是选择一致的。通过广泛的数值研究和航空数据集进一步说明了有限样本性能和计算效率。航空公司数据集的大小为52 GB。整个方法已经在Python中为不实际的标准火花系统。在Spark系统上,所提出的DLSA算法需要26分钟才能获得一个逻辑回归估计量,这比传统方法更有效且内存友好。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Apache软件基金会,Apache Hadoop(2.7.2版)(2019年)
[2] Apache软件基金会,Apache Spark(版本2.3.1)(2019年),北卡罗来纳州威明顿
[3] Battey,H。;范,J。;刘,H。;卢,J。;Zhu,“具有统计保证的分布式估计和推断”,arXiv预印本:arXiv:1509.05457(2015)
[4] 伯克,R。;布朗,L。;布贾,A。;张凯。;Zhao,L.,“有效的选举后推断,统计年鉴,41,802-837(2013)·Zbl 1267.62080号 ·doi:10.1214/12-AOS1077
[5] 卡梅隆。;Trivedi,P.K.,《计数数据的回归分析》,53(2013),剑桥大学出版社·Zbl 1301.62003号
[6] Chang,X。;林,S.-B。;王毅,“分治局部平均回归”,《电子统计杂志》,第11期,第1326-1350页(2017年)·兹比尔1362.62085 ·doi:10.1214/17-EJS1265
[7] Chang,X。;林,S.-B。;Zhou,D.-X.,“带核岭回归的分布式半监督学习,机器学习研究杂志,18,1493-1514(2017)·Zbl 1431.68106号
[8] 陈,J。;Chen,Z.,“大模型空间模型选择的扩展贝叶斯信息标准,生物特征,95759-771(2008)·Zbl 1437.62415号 ·doi:10.1093/biomet/asn034
[9] Chen,T。;Guestrin,C.,“Xgboost:一个可扩展的树推进系统”,第22届ACM SIGKDD国际知识发现和数据挖掘会议记录,785-794(2016)·doi:10.1145/2939672.29339785
[10] 陈,X。;刘伟。;Zhang,Y.,“记忆约束下的分位数回归”,arXiv预印本:1810.08264(2018)
[11] 陈,X。;谢明庚,“超大数据分析的分裂与融合方法”,《中国统计》,1655-1684(2014)·Zbl 1480.62258号
[12] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.,“最小角度回归”,《统计年鉴》,第32期,第407-499页(2004年)·Zbl 1091.62054号
[13] 范,J。;Li,R.,“通过非关联惩罚可能性及其Oracle属性进行变量选择”,《美国统计协会杂志》,96,1348-1360(2001)·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[14] 范,J。;Lv,J.,“超高维特征空间的绝对独立性筛选”(含讨论),《皇家统计学会杂志》,B辑,70849-911(2008)·Zbl 1411.62187号 ·doi:10.1111/j.1467-9868.2008.00674.x
[15] 范,J。;王,D。;王凯。;Zhu,“主特征空间的分布式估计”,arXiv预印本:1702.06488(2017)
[16] 海因策,C。;McWilliams,B。;Meinshausen,N.,“双位置:使用随机投影分布统计估计”,《第19届国际人工智能与统计会议论文集》,PMLR,51,875-883(2016)
[17] Hosmer Jr,D.W。;莱梅肖,S。;Sturdivant,R.X.,《应用逻辑回归》,398(2013),John Wiley&Sons:John Wiley&Sons,新泽西州·Zbl 1276.62050号
[18] M.I.乔丹。;Lee,J.D。;Yang,Y.,“通信高效分布式统计推断”,《美国统计协会杂志》,114668-681(2019)·Zbl 1420.62097号 ·doi:10.1080/01621459.2018.1429274
[19] Lee,J.D。;Sun,D.L。;孙,Y。;Taylor,J.E.,“精确的选择后推断,应用于拉索,统计年鉴,44907-927(2016)·兹比尔1341.62061
[20] Lee,J.D。;孙,Y。;刘,Q。;Taylor,J.E.,“通信高效稀疏回归:一步法”,arXiv预印本:1503.04337(2015)
[21] Lee,J.D。;Taylor,J.E.,“边际筛选的精确后模型选择推断”,arXiv预印本:1402.5596(2014)
[22] Lehmann,E.L。;Casella,G.,点估计理论(2006),Springer科学与商业媒体:Springer科技与商业媒体,纽约
[23] 李·G。;彭,H。;张,J。;Zhu,L.,“基于稳健秩相关的筛选,统计年鉴,401846-1877(2012)·Zbl 1257.62067号 ·doi:10.1214/12-AOS1024
[24] 李,R。;钟伟。;Zhu,L.,“通过距离相关学习进行特征筛选,美国统计协会杂志,1071129-1139(2012)·Zbl 1443.62184号 ·doi:10.1080/01621459.2012.695654
[25] 李,X。;李,R。;夏,Z。;Xu,C.,“通过组件式借记进行分布式特征筛选”,arXiv预印本:1903.03810(2019)·Zbl 1498.68286号
[26] 李,X。;李,R。;夏,Z。;Xu,C.,“通过分量去噪进行分布式特征筛选”,《机器学习研究杂志》,21,1-32(2020)·Zbl 1498.68286号
[27] 刘,Q。;Ihler,A.T.,《神经信息处理系统的进展》,“分布式估计、信息损失和指数族”,1098-1106(2014)
[28] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,“Scikit-learn:Python中的机器学习”,《机器学习研究杂志》,第12期,第2825-2830页(2011年)·Zbl 1280.68189号
[29] O.沙米尔。;斯雷布罗,N。;Zhang,T.,“使用近似牛顿型方法的通信高效分布式优化”,机器学习国际会议,1000-1008(2014)
[30] Shao,J.,“线性模型选择的渐近理论”,《统计学》,221-242(1997)
[31] V·史密斯。;福特,S。;马,C。;塔卡奇,M。;M.I.乔丹。;Jaggi,M.,“CoCoA:通信效率分布式优化的一般框架,机器学习研究杂志,18,1-49(2018)·Zbl 1473.68167号
[32] 泰勒,J。;Tibshirani,R.J.,“统计学习和选择性推理,美国国家科学院院刊,1127629-7634(2015)·Zbl 1359.62228号 ·doi:10.1073/pnas.1507583112
[33] Tibshirani,R.,“通过拉索的回归收缩和选择”,英国皇家统计学会期刊,B辑,267-288(1996)·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[34] Wang,H。;Leng,C.,“通过最小二乘近似法进行统一LASSO估计,美国统计协会杂志,1021039-1048(2007)·Zbl 1306.62167号 ·doi:10.1198/0162145000000509
[35] Wang,H。;李,R。;Tsai,C.-L.,“平滑剪裁绝对偏差方法的调整参数选择器,生物特征,94553-568(2007)·兹比尔1135.62058 ·doi:10.1093/biomet/asm053
[36] Wang,H。;朱,R。;Ma,P.,“大样本Logistic回归的最优子抽样,美国统计协会杂志,113829-844(2018)·兹比尔1398.62196 ·doi:10.1080/01621459.2017.1292914
[37] Wang,J。;科拉尔,M。;斯雷布罗,N。;Zhang,T.,“稀疏性下的高效分布式学习”,第34届机器学习国际会议论文集,70,3636-3645(2017)
[38] Wang,J。;Wang,W。;斯雷布罗,N。;Kale,S。;Shamir,O.,“使用小批量Prox的记忆和通信高效分布式随机优化”,《2017年学习理论会议论文集》,《机器学习研究论文集》第65卷,1882-1919(2017),荷兰阿姆斯特丹:PMLR,阿姆斯特丹
[39] 王,L。;Kim,Y。;Li,R.,“超高维非凸惩罚回归的校准”,《统计年鉴》,412505(2013)·Zbl 1281.62106号
[40] Yang,J.等人。;马奥尼,M.W。;桑德斯,M。;Sun,Y.,《神经信息处理系统的进展》,“特征分布稀疏回归:筛选和清洁方法”,2712-2720(2016)
[41] Zaharia,M。;乔杜里,M。;Das,T。;Dave,A。;马,J。;McCauley,M。;富兰克林,M.J。;申克,S。;Stoica,I.,“弹性分布式数据集:内存集群计算的容错抽象”,《第九届网络系统设计与实现USENIX会议论文集》,2-2(2012),加利福尼亚州伯克利:美国ENIX协会,加利福尼亚州柏克莱
[42] Zhang,C.-H.,“最小凹板惩罚下的几乎无偏变量选择,统计年鉴,38894-942(2010)·Zbl 1183.62120号
[43] Zhang,H.H。;Lu,W.,“Cox比例危险模型的自适应套索,生物特征,94691-703(2007)·Zbl 1135.62083号 ·doi:10.1093/biomet/asm037
[44] Zhang,T.,“使用随机梯度下降算法解决大规模线性预测问题”,第二十届机器学习国际会议论文集,116(2004),纽约州纽约市:ACM,纽约州
[45] Zhang,Y。;杜奇,J.C。;Wainwright,M.J.,“统计优化的高效通信算法”,《机器学习研究杂志》,1433321-3363(2013)·Zbl 1318.62016号
[46] Zou,H.,“适应性套索及其甲骨文属性”,《美国统计协会杂志》,第101期,第1418-1429页(2006年)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[47] 邹,H。;Li,R.,“非凹惩罚似然模型中的一步稀疏估计”,《统计年鉴》,361509-1533(2008)·Zbl 1142.62027号
[48] 朱丽萍。;李,L。;李,R。;Zhu,L.-X.,“超高维数据的无模型特征筛选,美国统计协会杂志,1061464-1475(2011)·Zbl 1233.62195号 ·doi:10.1198/jasa.2011.tm10563
[49] 邹,H。;张海华,“关于参数个数不同的自适应弹性网”,《统计年鉴》,第37期,第1733-1751页(2009年)·Zbl 1168.62064号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。