×

使用流动收缩因子在线评估个人层面的影响。 (英语) Zbl 1507.62082号

摘要:长期以来,从个人那里收集数据变得越来越容易。例如,用于通过GPS跟踪移动的智能手机应用程序、跟踪个人浏览行为的网络长数据,以及对许多个人进行长期监控的纵向(队列)研究。所有这些数据集都覆盖了大量的个体,并重复收集同一个体的数据,导致数据中存在嵌套结构。此外,随着新数据不断涌入,数据收集永远不会“完成”。众所周知,使用个人数据的预测,其个人层面的影响是与所有其他个人的数据相结合预测的,就平方误差而言,比仅使用个人平均数的预测要好。然而,如果数据是嵌套的和流式的,并且结果变量是二进制的,那么计算这些单个级别的预测可能具有计算挑战性。开发并评估了五种计算效率高的估算方法,这些方法不修改“旧”数据,但考虑了嵌套数据结构。这些方法基于现有的收缩系数。收缩因子用于通过权衡各个平均值和所有数据点的平均值来预测个体层面的影响(即,得分为1的概率)。在模拟研究中比较了现有和新开发的收缩因子的性能。虽然现有方法的预测精度不同,但新收缩因子和现有方法之间的精度差异非常小。然而,新方法在计算上更具吸引力。

MSC公司:

62-08 统计学相关问题的计算方法
62J07型 岭回归;收缩估计器(拉索)
62J12型 广义线性模型(逻辑模型)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.,《数据流:模型和算法》,(Aggarwal,C.C.《数据流》,第31卷(2007),Springer),9-38,arXiv:1310.8004v1·Zbl 1126.68033号
[2] 阿格雷斯蒂,A。;Booth,J.G。;霍伯特,J.P。;Caffo,B.,分类反应数据的随机效应建模,社会学。卫理公会。,30,1,27-80(2000年),arXiv:101011.1669v3
[3] 贝茨,D。;Mächler,M。;Bolker,B。;Walker,S.,使用lme4拟合线性混合效应模型,J.Stat.Softw。第67、1、1-48条(2015年)
[4] 博克·R·D。;Aitkin,M.,边缘似然方程的EM解,《心理测量学》,46,4,443-459(1981)
[5] Bottou,L.,在线学习和随机近似,(神经网络在线学习(1998)),1-34
[6] Bottou,L.,随机梯度下降的大尺度机器学习,第19届国际计算统计会议论文集(COMPSTAT’2010),177-187(2010)·Zbl 1436.68293号
[7] Bottou,L.,《随机梯度下降技巧》(Neural Networks:tricks of the Trade,2012),施普林格出版社,421-436
[8] 东北部布雷斯洛。;Clayton,D.G.,广义线性混合模型中的近似推断,J.Amer。统计师。协会,88,421,9-25(1993)·Zbl 0775.62195号
[9] Brown,L.D.,《击球率的季内预测:经验贝叶斯和贝叶斯方法的现场测试》,Ann.Appl。统计,2,1,113-152(2008)·Zbl 1137.62419号
[10] 布热津斯基,D。;Stefanowski,J.,《应对不同类型的概念漂移:精度更新的集成算法》,IEEE Trans。神经网络。学习。系统。,25, 1, 81-94 (2014)
[11] Cappé,O.,隐马尔可夫模型的在线EM算法,J.Compute。图表。统计人员。,20、3、1-20(2011),arXiv:0908.2359
[12] Cheng,H。;Cantú-Paz,E.,《赞助搜索中的个性化点击预测》(第三届ACM网络搜索和数据挖掘国际会议论文集。第三届美国计算机学会网络搜索与数据挖掘国际大会论文集,WSDM’10(2010),美国计算机学会:美国纽约州纽约市ACM),351-360
[13] 科廷,R。;辛格,E。;Presser,S.,《随机数字拨号电话调查中的激励:复制和扩展》,J.Off.Stat.,23,1,91-105(2007)
[14] Efraimdis,P.S。;Spirakis,P.G.,水库加权随机抽样,Inform。过程。莱特。,97, 5, 181-185 (2006) ·Zbl 1184.68620号
[15] 埃夫隆,B。;Morris,C.,Stein的统计悖论(《科学美国人》,第236卷(1977)),119-127
[16] 风扇,W。;Yan,Z.,《影响网络调查回复率的因素:系统综述》,计算。嗯,行为。,26, 2, 132-139 (2010)
[17] Goldstein,H.,使用迭代广义最小二乘法的多级混合线性模型分析,生物统计学,73,1,43-56(1986)·Zbl 0587.62143号
[18] J.古德曼。;Blum,T.,《评估纵向研究中受试者损耗的非随机抽样效应》,J.Manag。,22, 4, 627-652 (1996)
[19] Groves,R.M。;西亚尔迪尼,R.B。;Couper,M.P.,了解参与调查的决定,Amer。联合公共运营。研究,56,4,475-495(1992)
[20] Hand,D.J。;Till,R.J.,多类别分类问题roc曲线下面积的简单概括,马赫。学习。,45, 2, 171-186 (2001) ·Zbl 1007.68180号
[21] Hoff,P.D.,贝叶斯统计方法第一课程(2009年),纽约斯普林格·Zbl 1213.62044号
[22] 伊佩尔,L。;卡普斯坦,M。;Vermunt,J.,《处理数据流:在线逐行评估教程》,《方法论》,12,4,124-138(2016)
[23] 伊佩尔,L。;卡普斯坦,M.C。;Vermunt,J.K.,估算数据流上的随机概念模型,计算。统计师。数据分析。,104, 169-182 (2016) ·Zbl 1466.62108号
[24] 詹姆斯·W·。;Stein,C.,带二次损失的估计,(Neyman,J.,《第四届伯克利数理统计与概率研讨会论文集》,第1卷:对统计理论的贡献,第1期(1961年),加利福尼亚大学出版社:加利福尼亚大学伯克利分校),361-379·Zbl 1281.62026号
[25] Kaptein,M.C.,(RStorm):开发和测试流算法
[26] Leeuw,E.D.D.,《在调查中混合或不混合数据收集模式》,J.Off.Stat.,21,2,233-255(2005)
[27] Linares,B。;吉扎尔,J.M。;北卡罗来纳州阿马多。;加西亚,A。;米兰达,V。;佩雷斯,J.R。;Chapela,R.,《空气污染对儿童肺功能和呼吸道症状的影响》。纵向重复测量研究,BMC Pulmonary Med.,10,1,62(2010)
[28] 麦克唐纳,I.L。;Zucchini,W.,离散值时间序列的隐马尔可夫和其他模型(1997),Chapman&Hall/CRC:查普曼和霍尔/CRC。伦敦·Zbl 0868.60036号
[29] Manzo,A.N。;Burke,J.M.,《提高网络/互联网调查的响应率》,(Gideon,L.,《社会科学调查方法手册》(2012),纽约州施普林格市:纽约州施普利格市),327-343
[30] 莫尔贝克,M。;Van Breukelen,G。;Berger,M.,《多层逻辑模型估计方法的比较》,计算。《法律总汇》,18,19-37(2003)·兹比尔1037.62063
[31] 莫里斯,C。;Lysy,M.,多层正态模型中的收缩估计,统计学。科学。,27, 1, 115-134 (2012) ·Zbl 1330.62290号
[32] Murnaghan,D.A。;Sihvonen,M。;Leatherdale,S.T。;Kekki,P.,《爱德华王子岛12年级学生基于学校的吸烟政策与吸烟行为预防计划之间的关系:多层次分析》,《预防医学》,44,4,317-322(2007)
[33] 尼尔·R。;Hinton,G.E.,《证明增量、稀疏和其他变量合理性的em算法视图》,学习。图表。型号,355-368(1998)·Zbl 0916.62019号
[34] 雀巢公司。;蒂尔施,M。;瓦西列夫,E。;回来,医学博士,他们会留下还是会走?一项在线研究中辍学的人格预测因素,国际互联网科学杂志。,10, 1, 37-48 (2015)
[37] Rabe-Hesketh,S。;Skrondal,A。;Pickles,A.,使用自适应求积对广义线性混合模型的可靠估计,Stata J.,2,1,1-21(2002)
[38] Schaul,T。;张,S。;LeCun,Y.,《没有更多的佩斯基学习率》,J.Mach。学习。Res.,28,2433-351(2013),arXiv:1206.1106v2
[39] Schifano,E.D。;吴杰。;王,C。;严,J。;Chen,M.-H.,大数据环境下统计推断的在线更新,Technometrics,58,3,393-403(2016),PMID:28018007
[40] Skrondal,A。;Rabe-Hesketh,S.,《广义潜在变量模型:多级、纵向和结构方程模型》,(医学研究中的统计方法,第17卷(2004)),119-120·Zbl 1097.62001
[41] Steele,F.,纵向数据的多级模型,J.R.Stat.Soc.:Ser。A、 171、1、5-19(2007)
[42] Stein,C.,多元正态分布平均值常用估计的不可接受性,Proc。伯克利第三交响乐团。数学方面。统计师。和Prob,第1卷,197-206(1956)·Zbl 0073.35602号
[43] 塔克·H。;Morris,C.N.,贝叶斯β二项式logit模型的数据依赖后验适当性,贝叶斯分析。,12333-55(2017年)·Zbl 1384.62272号
[44] Wang,L.-Y。;帕克,C。;Yeon,K。;Choi,H.,使用约束惩罚回归组合器跟踪概念漂移,计算。统计数据分析。,108, 52-69 (2017) ·Zbl 1466.62210号
[45] Xu,W.,2011年。基于平均随机梯度下降的最优单程大规模学习,CoRR,abs/1107.2490。;Xu,W.,2011年。走向平均随机梯度下降的最优单程大规模学习,CoRR,abs/1107.2490。
[46] Young Xu,Y。;Chan,K.A.,汇集过度分散的二项式数据以估计事件率,BMC医学研究方法。,8, 58 (2008)
[47] 朱利奥贝特,I。;Pechenizkiy,M。;Gama,J.,《概念漂移应用概述》(Japkowicz,N.;Stefanowski,J.),《大数据分析:新社会的新算法》(2016),Springer International Publishing:Springer国际出版社Cham),第91-114页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。