×

在线更新方法,以纠正大数据流中的测量误差。 (英文) Zbl 1510.62055号

摘要:当大量数据以流的形式到达时,在线更新是缓解计算和数据存储问题的重要方法。在经典线性测量误差模型的背景下,扩展了先前在线更新研究的范围。如果某些协变量在数据流开始时以错误的方式进行了未知测量,但在数据流的特定点之后进行了无错误的测量,则忽略测量错误的更新估值器会对真实参数产生偏差。在首次观测到无误差的协变量后,提出了一种校正估计量偏差及其方差估计量偏差的方法;修正后,传统的在线更新方法可以照常进行。进一步,建立了修正估计量和更新估计量的渐近分布。通过对航空公司实时数据集的仿真研究和实际数据分析,验证了该方法的性能。

MSC公司:

62-08 统计问题的计算方法
62J05型 线性回归;混合模型
62兰特 大数据和数据科学的统计方面
62页第10页 统计学在生物学和医学中的应用;元分析

软件:

PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Carroll,R.J.,《广义线性测量误差模型中的协方差分析》,《Stat.Med.》,8,9,1075-1093(1989)
[2] 卡罗尔·R·J。;盖尔,M.H。;Lubin,J.H.,协变量错误的病例对照研究,J.Amer。统计师。协会,88,421,185-199(1993)·Zbl 0771.62075号
[3] 卡罗尔·R·J。;Li,K.C.,《未知环节的测量误差回归:降维和数据可视化》,J.Amer。统计师。协会,87,420,1040-1050(1992)·Zbl 0765.62002号
[4] 卡罗尔·R。;Ruppert,D.,《线性误差-变量模型中正交回归的使用和误用》,Amer。统计人员。,50, 1, 1-6 (1996)
[5] 卡罗尔·R·J。;Ruppert,D。;克雷尼切努,C.M。;Stefanski,L.A.,《非线性模型中的测量误差:现代观点》(2006),Chapman和Hall/CRC·Zbl 1119.62063号
[6] 陈,X。;Xie,M.g.,《分析超大数据的分而治之方法》,Statist。Sinica,1655-1684(2014)·Zbl 1480.62258号
[7] 菲尔德,A。;迈尔斯,J。;Field,Z.,《使用R发现统计数据》(2012年),Sage出版物
[8] Fuller,W.A.,《测量误差模型》,第305卷(2009年),John Wiley&Sons
[9] 克莱纳。;Talwalkar,A。;Sarkar,P。;Jordan,M.I.,《海量数据的可扩展引导》,J.R.Stat.Soc.Ser。B统计方法。,76, 4, 795-816 (2014) ·Zbl 07555464号
[10] Liang,H。;Ren,H.,广义部分线性测量误差模型,J.Compute。图表。统计人员。,14, 1, 237-250 (2005)
[11] Liang,H。;瑟斯顿,S.W。;Ruppert,D。;阿帕纳索维奇,T。;Hauser,R.,带测量误差的加性部分线性模型,Biometrika,95,3,667-678(2008)·Zbl 1437.62526号
[12] Lin,N。;Xi,R.,聚合估计方程估计,统计界面,4,1,73-83(2011)·Zbl 1245.62026号
[13] 马,P。;马奥尼,M.W。;Yu,B.,《算法杠杆的统计观点》,J.Mach。学习。第16、1861-911号决议(2015年)·Zbl 1337.62164号
[14] 萨普波,F。;布科洛,M。;Intaglietta,M。;P.C.约翰逊。;福图纳,L。;Arena,P.,一种用于实时测量微血管血流速度的改进仪器,IEEE Trans。仪器。测量。,56, 6, 2663-2671 (2007)
[15] Schifano,E.D。;吴杰。;王,C。;严,J。;Chen,M.H.,大数据环境下统计推断的在线更新,技术计量学,58,3,393-403(2016)
[16] 宋,Q。;Liang,F.,超高维回归的分离合并贝叶斯变量选择方法,J.R.Stat.Soc.Ser。B统计方法。,77, 5, 947-972 (2015) ·Zbl 1414.62322号
[17] 斯蒂芬斯基,洛杉矶。;Carroll,R.J.,广义线性测量误差模型的条件分数和最佳分数,Biometrika,74,4,703-716(1987)·Zbl 0632.62052号
[18] 斯蒂芬斯基,洛杉矶。;Carroll,R.J.,逻辑回归中的协方差测量误差,Ann.Statist。,13, 4, 1335-1351 (1985) ·Zbl 0582.62061号
[19] Wang,L.,非线性Berkson型测量误差模型的估计,统计学家。Sinica,1201-1210(2003)·兹比尔1034.62055
[20] Wang,H.Y。;陈,X。;Flournoy,N.,变系数部分线性测量误差模型的聚焦信息准则,Statist。论文,57,1,99-113(2016)·Zbl 1371.62038号
[21] 王,C。;Chen,M.H。;Schifano,E。;吴杰。;Yan,J.,《大数据统计方法与计算》,《统计接口》,2016年第9期,第4期,第399页·Zbl 1405.62004号
[22] 王,C。;Chen,M.H。;吴杰。;严,J。;Zhang,Y。;Schifano,E.,《大数据流新变量在线更新方法》,加拿大。J.统计。,46, 1, 123-146 (2018) ·Zbl 1466.62458号
[23] Wang,H。;杨,M。;Stufken,J.,《基于信息的大数据线性回归最优子数据选择》,J.Amer。统计师。协会,393-405(2019)·Zbl 1478.62196号
[24] Wang,H。;朱,R。;马,P.,大样本logistic回归的最优子抽样,J.Amer。统计师。协会,113,522,829-844(2018)·Zbl 1398.62196号
[25] Wang,H。;邹,G。;Wan,A.T.,变系数部分线性测量误差模型的自适应LASSO,J.Statist。计划。推理,143,1,40-54(2013)·Zbl 1251.62014年
[26] Wang,H。;邹,G。;Wan,A.T.,变系数部分线性测量误差模型的模型平均,电子。J.Stat.,61017-1039(2012)·Zbl 1281.62054号
[27] 王,L.,带Berkson测量误差的非线性模型估计,Ann.Statist。,32, 6, 2559-2579 (2004) ·兹比尔1068.62072
[28] 吴杰。;Chen,M.H。;Schifano,E.D。;Yan,J.,在线更新生存分析技术报告(2018),康涅狄格大学统计系
[29] 薛,Y。;Wang,H。;严,J。;Schifano,E.D.,《利用大生存数据流测试比例风险假设的在线更新方法》,《生物计量学》,76,1,171-182(2020)·Zbl 1451.62149号
[30] 张伟。;马,H。;Yang,S.,《一种适用于挑战性环境的廉价、稳定和准确的相对湿度测量方法》,《传感器》,16,3,398(2016)
[31] 张,X。;Wang,H。;马云(Ma,Y.)。;Carroll,R.J.,《协变量包含误差时的线性模型选择》,J.Amer。统计师。协会,1125201553-1561(2017)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。