×

大数据岭回归的精确方法。 (英语) Zbl 1417.62204号

摘要:当解释变量高度相关时,岭回归是线性回归中的一种重要方法。虽然在观测数据标准化后,通过矩阵运算成功地获得了岭回归参数估计量的表达式,但由于不可能将整个数据集加载到单个计算机的内存中,而且很难对原始观测数据进行标准化,因此不能用于大数据。为了克服这些困难,本文提出了新的方法和算法。基本思想是按行计算一个足够统计的矩阵。矩阵一旦导出,就不需要再次使用原始数据。由于整个数据集只扫描一次,因此所提出的方法和算法在计算岭回归参数估计值时非常有效。预计本文中获得的基本知识将对大数据的统计方法产生重大影响。

MSC公司:

2007年6月62日 岭回归;收缩估计器(拉索)
62J05型 线性回归;混合模型
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alwal J、Herquet M、Maltoni F、Mattelaer O、Stelzer T(2011)《MadGraph 5:超越》。J高能物理1106,第128条·兹比尔1298.81362
[2] Baldi P、Sadowski P、Whiteson D(2014),通过深度学习在高能物理学中寻找奇异粒子。Nat Commun 5,第4308条
[3] Chen Y,Dong G(2006)《无损压缩和聚集回归立方体》。IEEE Trans Knowl数据工程18:1585-1599·Zbl 1170.65315号 ·doi:10.1109/TKDE.2006.196
[4] Dean J,Ghamawat S(2004)MapRedue:大型集群的简化数据处理。附:OSDI程序,第137-150页
[5] Deng Z,Choi K,Jiang Y,Wang S(2014)广义隐映射岭回归,神经网络的知识杠杆归纳迁移学习,模糊系统和核方法。IEEE Trans Cybern电气与电子工程师协会44:2585-2599·doi:10.1109/TCYB.2014.2311014
[6] Efron B,Hastie T,Johnstone I,Tibshirani R(2004)最小角度回归,与讨论。安统计32:407-499·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[7] Emerson JW,Kane MJ(2012)不要沉溺于数据。意义9:38-39·文件编号:10.1111/j.1740-9713.2012.00592.x
[8] Enea M(2009)用大数据集拟合线性模型和广义线性模型。In:R.大型数据集分析的统计方法:短篇论文集,第411-414页
[9] Fan J,Han F,Liu H(2014)大数据分析的挑战。Natl Sci版本1:293-314·doi:10.1093/nsr/nwt032
[10] Fernández A,del Río S,López V,Bawakid A,del Jesus M,Bent́ez JM,Herrera F,(2014)云计算大数据:对计算环境、MapReduce和编程框架的深入了解。WIRE数据最小知识发现。doi:10.1002/widm.1134
[11] Guha S,Hafen R,Rounds J,Xia J,Li J,Xi B,Cleveland WS(2012)大型复杂数据:用Rhipe进行拆分和重组(D&R)。统计数字1:53-67·doi:10.1002/sta4.7
[12] Hoerl AE,Kennard RW(1970)岭回归:非正交问题的有偏估计。技术计量2:109-135·Zbl 0202.17205号
[13] Hogg RV、McKean JW、Craig AT(2005)《数理统计导论》,第6版。皮尔森·普伦蒂斯·霍尔(Pearson Prentice Hall),上鞍河(Upper Saddle River)
[14] Howarth J,Shawei-Toylor J,Cheng T,Wang J(2014)城市出行时间预测的局部在线核岭回归。Trans Res第C部分能源技术46:151-178·doi:10.1016/j.trc.2014.05.015
[15] Karloff H,Suri S,Vassilvitskii S(2010)MapReduce的计算模型。摘自:第二十一届ACM-SIAM离散算法年度研讨会SODA’10会议记录,第938-948页·Zbl 1288.68247号
[16] Lin N,Xi R(2011)综合估计方程估计。统计接口4:73-83·Zbl 1245.62026号 ·doi:10.4310/SII.2011.v4.n1.a8
[17] Ma P,Sun X(2015)《利用投标数据回归》。电线计算统计7:70-76·doi:10.1002/wics.1324
[18] Marquardt DW(1970)广义逆、岭回归、有偏线性估计和非线性估计。技术计量12:591-612·Zbl 0205.46102号 ·doi:10.2307/1267205
[19] Meeker WQ,Hong Y(2014)《可靠性与大数据:机遇与挑战》。质量工程师26:102-116·doi:10.1080/08982112.2014.846119
[20] Miner D,Shook A(2012)MapReduce设计模式:为hadoop和其他系统构建有效的算法和分析。塞巴斯特普尔O'Reilly Media Inc
[21] Moreno E,Girón J,Casella G(2010)随着模型维度的增长,客观贝叶斯因子的一致性。安统计38:1937-1952·Zbl 1323.62024号 ·doi:10.1214/09-AOS754
[22] Moreno E,Girón J,Casella G(2015)随着模型维度的增长,变量选择的后验模型一致性。统计科学30:228-241·Zbl 1332.62100号 ·doi:10.1214/14-STS508
[23] Ovyn S、Rouby X、Lemaitre V(2009)DELPHES,通用对撞机实验快速模拟框架。arXiv预打印:0903.2225·Zbl 1168.62064号
[24] Popo J、Carrera D、Becerra Y、Steinder M、Whalley I(2010)MapReduce环境的性能驱动任务联合调度。包含:NOMS,第374-380页
[25] Shen X,Alam M,Fikse F,Rönnegard L(2013)数量遗传学的新型广义岭回归方法。遗传学193:1255-1268·doi:10.1534/genetics.112.146720号文件
[26] Sjöstrand T,Mrenna S,Skands P(2006)PYTHIA 6.4物理和手册。《高能物理杂志》0605,第026条·Zbl 1368.81015号
[27] Tibshirani R(1996)通过LASSO回归收缩和选择。J R Stat Soc B期刊58:267-288·Zbl 0850.62538号
[28] Vitter JS(2008)外部存储器的算法和数据结构。现在出版公司,汉诺威·Zbl 1244.68007号
[29] Wang M,Sun X(2014)具有越来越多参数的嵌套线性模型的贝叶斯因子一致性。《统计计划推断》147:95-105·Zbl 1432.62216号 ·doi:10.1016/j.jspi.2013.11.001
[30] Xue H,Zhu Y,Chen S(2009)人脸识别的局部岭回归。神经计算72:1342-1346·doi:10.1016/j.neucom.2008.09.007
[31] Zhan H,Xu S(2012)罕见变异检测的自适应岭回归。《公共科学图书馆·综合》第7卷第8条·Zbl 1432.62216号
[32] Zou H,Zhang HH(2009)关于参数发散的自适应弹性网。安统计37:1733-1751·Zbl 1168.62064号 ·doi:10.1214/08-AOS625
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。