×

兹马思-数学第一资源

大数据岭回归的精确方法。(英语) Zbl公司 1417.62204
摘要:岭回归是解释变量高度相关时线性回归的一种重要方法。虽然岭回归参数估计量的表达式是在观测数据标准化后,通过矩阵运算得到的,但由于不可能将整个数据集加载到一台计算机的内存中,也很难对原始观测数据进行标准化,因此不能用于大数据。为了克服这些困难,本文提出了新的方法和算法。其基本思想是按行计算一个充分统计的矩阵。矩阵一旦导出,就不必再使用原始数据。由于整个数据集只扫描一次,因此所提出的方法和算法可以非常有效地计算岭回归参数的估计值。预计本文所获得的基础知识将对大数据的统计方法产生重大影响。

理学硕士:
6207年 岭回归;收缩估计(套索)
6205年 线性回归;混合模型
65立方英尺 统计计算问题(MSC2010)
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] Alwal J、Herquet M、Maltoni F、Mattelaer O、Stelzer T(2011)MadGraph 5:超越。J高能物理1106,第128条·Zbl公司 1298.81362
[2] Baldi P,Sadowski P,Whiteson D(2014),通过深入学习在高能phusics中寻找外来粒子。国家公社5,第4308条
[3] 陈,Y;Dong,G,带无损压缩和聚合的回归立方体,IEEE Trans Knowl数据工程,18,1585-1599,(2006)·Zbl公司 1170.65315
[4] Dean J,Ghamawat S(2004)MapRedue:大型集群的简化数据处理。In:OSDI进展,第137-150页
[5] 邓,Z;崔,K;江,Y;王,S,广义隐映射岭回归,神经网络的知识杠杆归纳传递学习,模糊系统与核方法,IEEE Trans-Cybern,442585-2599,(2014)
[6] 埃夫隆,B;黑斯蒂,T;约翰斯顿,我;Tibshirani,R,最小角度回归,讨论,Ann Stat,32407-499,(2004)·Zbl公司 1091.62054
[7] 爱默生,JW;凯恩,乔丹,不要淹没在数据中,重要性,9,38-39,(2012)
[8] Enea M(2009)用大数据集拟合线性模型和广义线性模型。在:R。大数据集分析的统计方法:短文集,第411-414页
[9] 风扇,J;汉,F;Liu,H.大数据分析的挑战,自然科学版,1293-314,(2014)
[10] 蕨类植物ández A,德尔Rí噢,我ó佩兹五世,巴瓦基德A,德尔耶稣M,本特́ez JM,Herrera F,(2014)《大数据与云计算:对计算环境、MapReduce和编程框架的洞察》。电线数据最小知道迪斯科。数字标识码:10.1002/widm.1134
[11] 古哈,S;哈芬,R;子弹,J;夏杰;李,J;十一、乙;克利夫兰,WS,大型复杂数据:用rhipe进行分割和重组(D&R),统计,1,53-67,(2012)
[12] 赫尔,AE;《岭回归:非正交问题的有偏估计》,技术计量学,2109-135,(1970)·Zbl公司 202.17205
[13] Hogg RV,McKean JW,Craig AT(2005)《数理统计导论》,第6版。皮尔逊普伦蒂斯大厅,上鞍河
[14] 豪沃思,J;沙威·托洛尔,J;程,T;Wang,J,用于城市出行时间预测的本地在线核岭回归,交通研究第C部分能源技术,46151-178,(2014)
[15] Karloff H,Suri S,Vassilvitskii S(2010),MapReduce计算模型。在:SODA的第21届年度ACM-SIAM离散算法研讨会论文集,第938-948页·Zbl公司 1288.68247
[16] 林,N;Xi,R,聚合估计方程估计,统计接口,4,73-83,(2011)·Zbl公司 1245.62026
[17] 硕士,P;Sun,X,利用投标数据回归,WIREs Comput Stat,第7期,第70-76页,(2015年)
[18] 马夸德,DW,广义逆,岭回归,有偏线性估计和非线性估计,技术计量学,12591-612,(1970)·Zbl公司 205.46102
[19] 米克尔,WQ;Hong,Y,《可靠性满足大数据:机遇与挑战》,Qual Eng,26102-116,(2014)
[20] Miner D,Shaked A(2012)MapReduce设计模式:为hadoop和其他系统构建有效的算法和分析。O'Reilly媒体公司,Sebastpool
[21] 莫雷诺,E;吉尔ón、 J;Casella,G.随着模型维数的增长,客观贝叶斯因子的一致性,Ann Stat,381937-1952,(2010)·Zbl公司 1323.62024
[22] 莫雷诺,E;吉尔ón、 J;Casella,G.随着模型维数的增长,变量选择中的后验模型一致性,Stat Sci,30,228-241,(2015)·Zbl公司 1332.62100
[23] Ovyn S,Rouby X,Lemaitre V(2009)DELPHES,通用对撞机实验快速模拟框架。arXiv预印本:0903.2225·Zbl公司 1168.62064
[24] Popo J、Carrera D、Becerra Y、Steinder M、Whalley I(2010)《MapReduce环境中性能驱动的任务协同调度》。英寸:名称,第374-380页
[25] 沈,X;阿拉姆,M;Fiksf,Fiksf公司;Rönnegard,L.,《数量遗传学新的广义岭回归方法》,遗传学,1931255-1268,(2013)
[26] Sj公司östrand T,Mrenna S,Skands P(2006)PYTHIA 6.4物理和手册。高能物理杂志0605,第026条·Zbl公司 1368.81015
[27] Tibshirani,R.通过套索进行回归收缩和选择,J R Stat Soc B,58267-288,(1996)·Zbl公司 850.62538
[28] Vitter JS(2008)外部存储器的算法和数据结构。汉诺威出版公司·Zbl公司 1244.68007
[29] 王,M;Sun,X,Bayes因子一致性在参数不断增加的嵌套线性模型中的应用,J Stat Plan推断,147,95-105,(2014)·Zbl公司 1432.62216
[30] 薛,H;朱,Y;陈,S,人脸识别的局部岭回归,Nerocomputing,721342-1346,(2009)
[31] Zhan H,Xu S(2012)稀有变异检测的自适应岭回归。《公共科学图书馆》第七卷第八条·Zbl公司 1432.62216
[32] 邹,H;张海华,关于参数发散的自适应弹性网络,安统计,371733-1751,(2009)·Zbl公司 1168.62064
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。