×

混合类型数据的Missing值调整。 (英语) Zbl 1229.62039号

摘要:我们提出了一种新的方法,对记录的多个字段中的未报告、不正确、不可信或排除的值进行单一插补、重建和估计。特别是,我们将关注涉及数字、序数、二进制和分类变量的混合数据集。我们的技术是流行的最近邻热卡插补(NNHDI)的一种变体,其中“最近”是根据全局距离定义的,全局距离是为各种类型的变量计算的距离矩阵的凸组合。我们解决了部分距离矩阵的适当加权问题,以反映其重要性、可靠性和统计充分性。将几种加权方案在各种设置下的性能与适用于捐赠者值的Box-Cox变换的最小幂平均值插补相协调进行比较。通过对模拟数据集和实际数据集的分析,我们将表明这种方法是合适的。我们的主要贡献是证明,混合数据可以最佳组合,以便准确重建目标变量中的缺失值,即使记录的其他字段中没有某些数据。

MSC公司:

62G05型 非参数估计
65C60个 统计中的计算问题(MSC2010)
62小时99 多元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] R.J.A.Little和D.B.Rubin,《缺失数据的统计分析》,《概率统计中的Wiley系列》,John Wiley&Sons,美国纽约州纽约市,第二版,2002年·Zbl 1011.62004号
[2] G.Kalton和D.Kasprzyk,“对缺失的调查回复进行估算”,载于《调查研究方法》,第22-31页,1982年。
[3] M.Bankier、J.M.Fillion、M.Luc和C.Nadeau,“同时计算数值和定性变量”,载于《调查研究方法》一节的论文集,第242-247页,美国统计协会,1994年。
[4] M.Bankier、M.Luc、C.Nadeau和P.Newcombe,“关于同时输入数值和定性变量的更多细节”,载于《调查研究方法》一节的论文集,第287-292页,美国统计协会,1995年。
[5] E.J.Welniak和J.F.Coder,“三月份CPS收入插补系统中的偏差测量和简单偏差调整程序的结果”,技术代表,美国人口普查局,1980年。
[6] I.G.Sande,“调查中的插补:应对现实”,《美国统计学家》,第36卷,第145-152页,1982年·doi:10.2307/2683165
[7] D.Wettschereck和T.G.Dietterich,“最近邻和最近超矩形算法的实验比较”,机器学习,第19卷,第1期,第5-27页,1995年·doi:10.1007/BF00994658
[8] C.Abbate,“La completezza delle informazioni e l’imputazione da donatore con distanza mista minima”,《意大利国家科学院学报》,第4卷,第68-102页,1997年。
[9] W.E.Deming,《商业研究中的样本设计》,《应用统计学中的威利出版物》,John Wiley&Sons,纽约,1960年·Zbl 0705.62019
[10] A.K.Ghosh,“利用K的自适应选择进行最近邻分类”,《计算与图形统计杂志》,第16卷,第2期,第482-502页,2007年·doi:10.1198/106186007X208380
[11] J.H.Friedman、J.L.Bentley和R.A.Finkel,“在对数预期时间内寻找最佳匹配的算法”,数学软件计算机器交易协会,第3卷,第209-226页,1977年·Zbl 0364.68037号 ·数字对象标识代码:10.1145/355744.355745
[12] R.J.Hyndman,“斯特格斯构建直方图规则的问题”,《商业》,1995年7月1日至2日。
[13] D.R.Wilson和T.R.Martinez,“基于实例的学习算法的简化技术”,《机器学习》,第38卷,第3期,第257-286页,2000年·兹比尔0954.68126 ·doi:10.1023/A:1007626913721
[14] J.Kaiser,“小样本热甲板程序的有效性”,载于《美国统计协会年度会议论文集》,堪萨斯大学Kalton G.,《调查数据缺失的补偿》。密歇根州安阿伯:密歇根大学调查研究中心,1983年。
[15] S.J.Schieber,“在对低收入老年人和残疾人的调查中,分配未报告社会保障收入的三种替代技术的比较”,载于美国统计协会调查研究方法部分会议记录,1978年·doi:10.2307/2683165
[16] M.J.Colledge、J.H.Johnson、R.Pare和I.J.Sande,“调查数据的大规模插补”,载于《调查研究方法》,第431-436页,美国统计协会,1978年。
[17] P.Giles,“调查数据的广义编辑和插补模型”,《加拿大统计杂志》,第16卷,第57-73页,1988年·Zbl 0663.62019号 ·doi:10.2307/3315216
[18] A.M.Mineo和M.Ruggieri,“指数幂分布的软件工具:normalp包”,《统计软件杂志》,第12卷,第1-24页,2005年。
[19] P.Jönsson和C.Wohlin,“同质Likert数据的k近邻插补基准”,《实证软件工程》,第11卷,第3期,第463-489页,2006年·doi:10.1007/s10664-006-9001-9
[20] J.M.G.Taylor,“对称的幂变换”,Biometrika,第72卷,第1期,第145-1521985页·Zbl 0563.62044号 ·doi:10.1093/biomet/72.1.145
[21] M.R.Anderberg,《应用聚类分析》,学术出版社,美国纽约州纽约市,1973年·Zbl 0299.62029号
[22] I.E.Franck和R.Todeschini,《数据分析手册》,荷兰阿姆斯特丹爱思唯尔出版社,1994年。
[23] J.C.Gower,“一般相似系数及其一些特性”,《生物统计学》,第27卷,第623-637页,1971年。
[24] L.Kaufman和P.J.Rousseeuw,《在数据中发现群体》,《概率和数理统计中的Wiley系列:应用概率和统计》,John Wiley&Sons,纽约州纽约市,美国,1990年·Zbl 1345.62009号 ·doi:10.1002/9780470316801
[25] A.Di Ciaccio,“缺少观测的定性和定量同时聚类”,《应用统计》,第4卷,第599-609页,1992年。
[26] M.N.Murthy、E.Chacko、R.Penny和M.Hossain,“多元最近邻插补”,《转型期统计杂志》,第6卷,第55-66页,2003年。
[27] G.A.F.Seber,《多元观测》,《概率和数学统计中的威利级数:概率和数学统计学》,John Wiley&Sons,美国纽约州纽约市,2004年·Zbl 0627.62052号 ·数字对象标识代码:10.1002/9780470316641
[28] C.K.Enders,《应用缺失数据分析》,吉尔福德出版社,美国纽约州纽约市,2010年。
[29] S.Pavoine、J.Vallet、A.B.Dufour、S.Gachet和H.Daniel,“关于处理各种类型变量的挑战:改进功能多样性测量的应用”,《Oikos》,第118卷,第3期,第391-402页,2009年·doi:10.1111/j.1600-0706.2008.16668.x
[30] J.C.Gower和P.Legendre,“不同系数的度量和欧几里德性质”,《分类杂志》,第3卷,第1期,第5-48页,1986年·Zbl 0592.62048号 ·doi:10.1007/BF01896809
[31] M.Bankier、M.Lachance和P.Poirier,“2001年加拿大人口普查最小变化捐助者插补方法”,《统计数据编辑工作会议记录》,2000年,威尔士加的夫。
[32] Istat,CONCORD V.1.0:控制。Manuale Utente e Aspetti Metodologici,国家统计局,意大利罗马,2004年。
[33] M.Chiodi,“混合数据聚类的分区类型方法”,Rivista di Statistica Applicata,第2卷,第135-147页,1990年。
[34] H.C.Romesburg,《研究人员聚类分析》,克里格出版社,美国佛罗里达州马拉巴尔,1984年。
[35] M.Kagie、M.van Wezel和P.J.F.Groenen,“基于产品属性的图形化购物界面”,《决策支持系统》,第46卷,第1期,第265-276页,2008年·doi:10.1016/j.dss.2008.06.011
[36] R.C.T.Lee、J.R.Slagle和C.T.Mong,“走向记录的自动审计”,IEEE软件工程学报,第4卷,第5期,第441-448页,1978年·兹伯利0385.6078 ·doi:10.1109/TSE.1978.225939
[37] H.Abdi、A.J.O'Toole、D.Valentin和B.Edelman,“DISTATIS:多重距离矩阵的分析”,摘自《IEEE计算机学会计算机视觉和模式识别会议论文集》,第42-47页,美国加利福尼亚州圣地亚哥,2005年。
[38] P.D’Urso和M.Vichi,“三向纵向数据集轨迹之间的差异”,载于《数据科学与分类进展》,a.Rizzi、M.Vichi和H.-H.Bock,Eds.,第585-592页,德国柏林施普林格出版社,1998年。
[39] C.J.Albers、F.Critchley和J.C.Gower,“欧几里德距离锥中的群平均表示”,摘自《数据分析和分类的精选贡献》,P.Brito、P.Bertrand、G.Cucumel和F.de Carvalho,Eds.,《分类、数据分析和知识组织研究》,第445-454页,德国柏林斯普林格, 2007. ·Zbl 1154.15312号 ·doi:10.1007/978-3-540-73560-1_41
[40] Y.Escoufier,“变量向量的追踪”,《生物统计学》,第29卷,第751-760页,1973年。
[41] Y.G.Fang、K.A.Loparo和X.Feng,“矩阵乘积迹的不等式”,IEEE自动控制汇刊,第39卷,第12期,第2489-2490页,1994年·Zbl 0825.93107号 ·doi:10.1109/9.362841
[42] 林光耀,“非负对称矩阵Perron-Frobenius定理的初等证明”,《中国物理学杂志》,第15卷,第283-285页,1977年。
[43] R开发核心团队,R:统计计算的语言和环境,R统计计算基金会,奥地利维也纳,2009年。
[44] A.Frank和A.Asuncion,加州大学信息与计算机科学学院UCI机器学习库,美国加州欧文,2010年,http://archive.ics.uci.edu/ml。
[45] R.H.Lock,“新车数据”,《统计教育杂志》,第1卷,第1期,1993年,http://www.amstat.org/publications/jse/v1n1/datasets.lock.html。
[46] A.C.Cameron和P.K.Trivedi,《计数数据的回归分析》,《计量经济学社会专题论文》第30卷,剑桥大学出版社,美国马萨诸塞州剑桥市,1998年·Zbl 0924.62004号
[47] J.H.Stock和M.W.Watson,《计量经济学导论》,Addison-Wesley,美国马萨诸塞州波士顿,第二版,2007年。
[48] J.R.Quinlan,“简化决策树”,《国际人机研究杂志》,第27卷,第3期,第221-2341987页·doi:10.1016/S0020-7373(87)80053-6
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。