×

大样本logistic回归的最优子抽样。 (英语) 兹比尔1398.62196

摘要:对于海量数据,子采样算法家族很受欢迎,可以缩小数据量并减少计算负担。现有的研究侧重于线性回归中普通最小二乘估计的近似,其中统计杠杆得分通常用于定义子抽样概率。在本文中,我们提出了快速子抽样算法,以有效地逼近逻辑回归中的最大似然估计。我们首先从一般的子抽样算法中建立估计量的一致性和渐近正态性,然后导出使估计量的渐近均方误差最小的最优子抽样概率。为了进一步降低计算成本,还提出了另一种最小化准则。最优子采样概率取决于全数据估计,因此我们开发了一种两步算法来近似最优子采样过程。与全数据方法相比,该算法计算效率高,计算时间大大缩短。还建立了两步算法估计量的相合性和渐近正态性。使用合成数据集和真实数据集来评估所提出方法的实际性能。

MSC公司:

62J12型 广义线性模型(逻辑模型)
2012年12月62日 参数估计量的渐近性质
62K05美元 最佳统计设计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿特金森,A。;Donev,A。;托拜厄斯,R。,用SAS优化实验设计,34,(2007),牛津大学出版社,牛津·Zbl 1183.62129号
[2] 巴尔迪,P。;萨多夫斯基,P。;怀特森,D.,通过深入学习在高能物理中寻找奇异粒子,, (2014)
[3] Buldygin,V。;Kozachenko,Y.V.,亚高斯随机变量,乌克兰数学杂志, 32, 483-489, (1980) ·Zbl 0479.60012号
[4] 克拉克森,K.L。;Woodruff,D.P.,输入稀疏时间中的低秩近似和回归,第四十五届ACM计算理论年会论文集, 81-90, (2013) ·Zbl 1293.65069号
[5] Dhillon,P。;卢,Y。;福斯特博士。;Ungar,L.,快速最小二乘回归的新子采样算法,神经信息处理系统研究进展, 360-368, (2013)
[6] Dines,L.L.,关于某些线性等式和不等式关联系统的注释,数学年刊, 28, 41-42, (1926) ·JFM 52.0088.02号
[7] 德里尼亚斯,P。;Magdon-Ismail,M。;马奥尼,M。;Woodruff,D.,矩阵一致性和统计杠杆的快速近似,机器学习研究杂志, 13, 3475-3506, (2012) ·Zbl 1437.65030号
[8] 德里尼亚斯,P。;马奥尼,M。;Muthukrishnan,S。;Sarlos,T.,快速最小二乘近似,数值数学, 117, 219-249, (2011) ·兹比尔1218.65037
[9] 德里尼亚斯,P。;马奥尼,M.W。;Muthukrishnan,S.,{\textit的采样算法_{2} }回归和应用,第十七届ACM-SIAM离散算法年会论文集, 1127-1136, (2006) ·Zbl 1194.62010年
[10] Efron,B.,Bootstrap方法:再看一下折刀,统计年鉴,7,1-26,(1979年)·Zbl 0406.62024号
[11] 埃夫隆,B。;Tibshirani,R.J。,引导程序简介,(1994),CRC出版社,佛罗里达州博卡拉顿
[12] Fithian,W。;Hastie,T.,局部病例对照抽样:不平衡数据集中的有效子抽样,统计年刊, 42, 1693-1724, (2014) ·Zbl 1305.6206号
[13] Gelman,A。;Carlin,J.B。;斯特恩,H.S。;邓森,D.B。;Vehtari,A。;D.B.鲁宾。,贝叶斯数据分析(2014),查普曼和霍尔/CRC,佛罗里达州博卡拉顿·Zbl 1279.62004号
[14] Hosmer Jr,D.W。;莱梅肖,S。;斯特迪万特,R.X。,应用Logistic回归(2013),纽约威利·Zbl 1276.62050号
[15] Kiefer,J.,《最佳实验设计》,英国皇家统计学会杂志, 21, 272-319, (1959) ·Zbl 0108.15303号
[16] 金·G。;Zeng,L.,罕见事件数据的Logistic回归,政治分析, 9, 137-163, (2001)
[17] Kohavi,R.,《提高天真贝叶斯分类器的准确性:决策树混合,第二届知识发现和数据挖掘国际会议论文集, 202-207, (1996)
[18] M.利奇曼。,UCI机器学习库,(2013),加州大学欧文分校
[19] 马,P。;马奥尼,M。;Yu,B.,算法杠杆的统计观点,第31届机器学习国际会议(ICML-14)会议记录, 91-99, (2014)
[20] 算法利用的统计观点,机器学习研究杂志, 16, 861-911, (2015) ·Zbl 1337.62164号
[21] 马,P。;Sun,X.,利用大数据回归,威利跨学科评论:计算统计学, 7, 70-76, (2015)
[22] 马奥尼,M.W。;Drineas,P.,用于改进数据分析的CUR矩阵分解,美国国家科学院院刊, 106, 697-702, (2009) ·兹比尔1202.68480
[23] McWilliams,B。;Krummenacher,G。;Lucic,M。;Buhmann,J.M.,破坏线性模型中的快速鲁棒最小二乘估计,神经信息处理系统研究进展, 415-423, (2014)
[24] Owen,A.B.,无限不平衡逻辑回归,机器学习研究杂志, 8, 761-773, (2007) ·Zbl 1222.62094号
[25] R: 统计计算语言与环境,(2015),R统计计算基金会,奥地利维也纳
[26] Rokhlin,V.公司。;Tygert,M.,超定线性最小二乘回归的快速随机算法,美国国家科学院院刊, 105, 13212-13217, (2008) ·Zbl 1513.62144号
[27] 斯科特,A.J。;Wild,C.J.,在病例对照或基于选择的抽样下拟合逻辑模型,英国皇家统计学会杂志, 48, 170-182, (1986) ·Zbl 0608.62084号
[28] Silvapulle,M.,关于二项响应模型最大似然估计的存在性,英国皇家统计学会杂志, 310-313, (1981) ·Zbl 0475.62053号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。