×

广义线性模型大数据分析的得分匹配代表法。 (英语) Zbl 1493.62449号

摘要:我们提出了一种快速有效的策略,称为代表性方法,用于使用广义线性模型进行大数据分析,特别是对于具有本地化要求或有限网络带宽的分布式数据。该方法利用给定的海量数据集分区,为每个数据块构造一个代表性数据点,并使用代表性数据集拟合目标模型。就时间复杂性而言,它与文献中的子采样方法一样快。就效率而言,它在给定均匀分区的情况下估计参数的准确性与分治法相当。在全面的仿真研究和理论证明的支持下,我们得出结论,平均代表(MR)对于线性模型或具有平坦反向链接函数和中等连续预测系数的广义线性模型很有效。对于一般情况,我们建议使用建议的评分匹配代表(SMR),它可以通过匹配评分函数值来显著提高估计值的准确性。作为航空公司准点绩效数据的一个示例性应用,我们表明,当可用时,MR和SMR估计值与完整数据估计值一样好。

MSC公司:

62J12型 广义线性模型(逻辑模型)
62兰特 大数据和数据科学的统计方面

软件:

杜布森
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Battey,H.、Fan,J.、Liu,H.,Lu,J.和Zhu,Z.(2018年)。稀疏高维模型下的分布式测试和估计。统计年鉴46 1352- 1382. ·Zbl 1392.62060号
[2] 鲍曼,C.(2017年1月6日)。数据本地化法律:一种新兴的全球趋势。法学家. https://www.jurist.org/compressiment/2017/01/Courtney-Bowman-data-localization/。
[3] Chen,X.、Liu,W.和Zhang,Y.(2019)。记忆约束下的分位数回归。统计年刊47 3244-3273. ·Zbl 1436.62134号
[4] Chen,X.和Xie,M.G.(2014)。用于分析超大数据的分而治之的方法。中国统计局24 1655-1684. ·Zbl 1480.62258号
[5] Dobson,A.J.和Barnett,A.G.(2018年)。广义线性模型简介第4版,查普曼和霍尔/CRC·Zbl 1412.62001号
[6] Fahad,A.、Alshatri,N.、Tari,Z.、Alamri,A.、Khalil,I.、Zomaya,A.Y.、Foufou,S.和Bouras,A.(2014)。大数据聚类算法综述:分类学和实证分析。IEEE计算新兴主题汇刊2 267-279.
[7] Fang,K.T.和Wang,Y.(1994)。数理统计方法查普曼和霍尔·Zbl 0925.65263号
[8] Fefer,R.F.(2020年3月26日)。数据流、在线隐私和贸易政策(CRS报告编号RL45584)。美国国会研究局. https://crsreports.congress.gov/product/pdf/R/R45584。2020年10月11日访问。
[9] Flury,B.A.(1990年)。主要要点。生物特征77 33-41. ·Zbl 0691.62053号
[10] He,L.,Bian,A.和Jaggi,M.(2018)。COLA:分散线性学习。NIPS’18型4541-4551. Curran Associates Inc.,美国纽约州Red Hook。
[11] Huggins,J.H.、Adams,R.P.和Broderick,T.(2017年)。PASS-GLM:可伸缩贝叶斯GLM推理的多项式近似充分统计。神经信息处理系统研究进展3611-3621.
[12] Kane,M.J.、Emerson,J.和Weston,S.(2013)。使用海量数据进行计算的可扩展策略。统计软件杂志55 1-19.
[13] Kanniappan,P.和Sastry,S.M.A.(1983年)。凸优化问题的一致收敛性。数学分析与应用杂志96.1 1-12.
[14] Keeley,S.、Zoltowski,D.、Yu,Y.、Smith,S.和Pillow,J.(2020)。使用多项式近似的尖峰计数数据的高效非共轭高斯过程因子模型。机器学习国际会议5177-5186. PMLR公司。
[15] Kotsiantis,S.和Kanellopoulos,D.(2006年)。离散化技术:最近的一项调查。GESTS国际计算机科学与工程汇刊32(1) 47-58.
[16] Lee,J.D.、Liu,Q.、Sun,Y.和Taylor,J.E.(2017)。通信效率高的稀疏回归。机器学习研究杂志18 115-144. ·Zbl 1434.62157号
[17] Lin,J.和Rosasco,L.(2017)。多通道随机梯度法的最优速率。机器学习研究杂志18 1-47. ·Zbl 1435.68272号
[18] Lin,N.和Xi,R.(2011年)。聚合估计方程估计。统计及其接口4 73-83. ·Zbl 1245.62026号
[19] Ma,P.和Sun,X.(2014)。利用大数据回归。WIRE计算统计7 70-76.
[20] Mak,S.和Joseph,V.R.(2017)。投影支持点:一种新的高维数据缩减方法。arXiv预打印arXiv:1708.06897.
[21] Mak,S.和Joseph,V.R.(2018年)。支持点。统计年刊46 2562-2592. ·兹比尔1408.62030
[22] McCullagh,P.和Nelder,J.(1989)。广义线性模型第2版,查普曼和霍尔/CRC·Zbl 0744.62098号
[23] Özsu,M.T.和Valduriez,P.(2011)。分布式数据库系统原理《施普林格科学与商业媒体》第3版。
[24] Pakhira,M.K.(2014)。使用簇移位的线性时间复杂度k均值算法。2014年第六届国际计算智能与通信网络会议1047-1051.
[25] Raykov,Y.P.、Boukouvalas,A.、Baig,F.和Little,M.A.(2016年)。K-Means聚类失败时该怎么办:一个简单但原则性的替代算法。公共科学图书馆11 e0162259。
[26] Resnick,S.I.(1999)。概率路径Birkhäuser,马萨诸塞州波士顿·Zbl 0944.60002号
[27] Schechner,S.和Glazer,E.(2020年9月9日)。爱尔兰下令Facebook停止向美国发送用户数据。《华尔街日报》. https://www.wsj.com/articles/ireland-to-order-facebook-to-stop-sending-user-data-to-u-s-11599671980。
[28] Schifano,E.D.、Wu,J.、Wang,C.、Yan,J.和Chen,M.H.(2016)。大数据环境中统计推断的在线更新。技术计量学58 393-403.
[29] Shi,C.,Lu,W.和Song,R.(2018)。立方速率M-估计量的海量数据框架。美国统计协会杂志113 1698-1709. ·Zbl 1409.62105号
[30] Shin,S.J.、Wu,Y.、Zhang,H.H.和Liu,Y..(2014)。概率增强的二进制分类的充分降维。生物特征70 546-555. ·Zbl 1299.62132号
[31] Shin,S.J.、Wu,Y.、Zhang,H.H.和Liu,Y..(2017)。用于二进制分类中充分降维的主加权支持向量机。生物特征104, 1 67-81. ·Zbl 1506.62332号
[32] Singh,K.,Xie,M.G.和Strawderman,W.(2005)。通过置信度分布组合来自独立来源的信息。统计年刊33 159-183. ·Zbl 1064.62003年
[33] Smith,V.、Forte,S.、Chenxin,M.、Takáč,M.,Jordan,M.和Jaggi,M.(2018年)。CoCoA:通信效率分布式优化的通用框架。机器学习研究杂志18 1-49. ·兹比尔1473.68167
[34] Tran,D.、Toulis,P.和Airoldi,E.(2015)。大数据集估计的随机梯度下降方法。arXiv预打印arXiv:1509.06459.
[35] Vogel,P.S.(2014年2月10日)。数据本地化会扼杀互联网吗?电子商务时代. https://www.ecommercetimes.com/story/79946.html。
[36] Wang,H.、Yang,M.和Stufken,J.(2019年)。基于信息的大数据线性回归最优子数据选择。美国统计协会杂志114:525 393-405. ·Zbl 1478.62196号
[37] Wang,H.,Zhu,R.和Ma,P.(2018)。大样本logistic回归的最优子抽样。美国统计协会杂志113 829-844. ·Zbl 1398.62196号
[38] Wang,C.,Chen,M.H.,Schifano,E.,Wu,J.和Yan,J.(2016)。大数据的统计方法和计算。统计及其接口9 399-414. ·Zbl 1405.62004号
[39] Xie,M.、Singh,K.和Strawderman,W.(2011)。置信分布和元分析的统一框架。美国统计协会杂志106 320-333. ·Zbl 1396.62051号
[40] Zhao,T.、Cheng,G.和Liu,H.(2016)。海量异构数据的部分线性框架。统计年刊44 1400-1437. ·Zbl 1358.62050号
[41] Zoltowski,D.和Pillow,J.W.(2018年)。通过多项式近似将泊松GLM缩放为大规模神经数据集。神经信息处理系统研究进展3517-3527.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。