×

解决自报收入数据堆积问题的统计方法。 (英语) Zbl 1514.62989号

摘要:自我报告的收入信息尤其受到有意粗化数据的影响,这种粗化称为堆积或四舍五入。如果它不是完全随机发生的(通常情况下是这样的),堆积和舍入会对统计分析结果产生不利影响。传统的统计方法没有考虑这种报告偏差,因此可能会产生无效的推断。我们描述了一种新颖的统计建模方法,该方法允许我们以适当且灵活的方式处理自报告的堆积收入数据。我们建议将堆机制和真正的底层模型结合起来建模。为了描述真实的净收入分布,我们使用零膨胀对数正态分布。通过使用一个比较假设收入分布和经验收入分布的启发式程序,从数据中确定堆点。为了确定堆行为,我们采用了两种不同的模型:要么假设堆概率分段恒定,要么认为堆概率随着堆点的接近而稳定增加。我们通过一些示例验证了我们的方法。为了说明该方法的能力,我们使用德国国家教育小组研究的收入数据进行了一个案例研究。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] H.Y.Bar和D.R.Lillard,《回顾性报告事件数据堆的核算——混合模型方法》,《Stat.Med.31》(2012年),第3347-3365页。数字对象标识代码:10.1002/sim.5419·数字对象标识代码:10.1002/sim.5419
[2] J.Beaman和M.Grenier,数字偏好的存在及其影响的统计检验与测量《1997年东北游憩研究研讨会论文集》,美国农业部,博尔顿兰德,纽约,拉德诺,宾夕法尼亚州,1998年,第44-50页。
[3] H.P.Blossfeld、H.G.Rossbach和J.V.Maurice(编辑),Zeitschrift für Erziehungswissenschaft公司第14卷特刊,VS Verlag für Sozialwissenschaften,威斯巴登,2011年。
[4] C.G.Camarda、P.H.C.Eilers和J.Gampe,数字偏好的一般模式建模,第22届国际统计建模研讨会论文集,巴塞罗那,加泰罗尼亚国家统计研究所,IDESCAT,巴塞罗那,2007年,第148-153页。
[5] F.Clementi和M.Gallegati,帕累托收入分配定律:德国、英国和美国的证据,英寸财富分配的经济学,A.Chatterjee、S.Yarlagadda和B.K.Chakrabarti编辑,Springer,Milan,2005年,第3-14页。
[6] J.Drechsler和H.Kiesl,MI双重特征:多重插补用于解决收入问题中的无响应和舍入错误,澳大利亚。《J Stat.44》(2015),第59-71页。
[7] R.D.Gill、M.J.van der Laan和J.M.Robins,随机粗化:特征、猜想、反例《第一届西雅图生物统计学研讨会论文集:生存分析》,施普林格,纽约,1997年,第255-294页·Zbl 0918.62003号
[8] J.U.Hanisch,收入问题的四舍五入回答,Allg。统计架构(architecture)。89(2005),第39-48页。
[9] D.F.Heitjan和D.B.Rubin,《可忽略性和粗略数据》,《Ann.Stat.19》(1991年),第2244-2253页。doi:10.1214/aos/1176348396·Zbl 0745.62004号 ·doi:10.1214/aos/1176348396
[10] A.Henningsen和O.Toomet,maxLik:R中最大似然估计的包,计算。《美国联邦法律大全》第26卷(2011年),第443-458页。doi:10.1007/s00180-010-0217-1·Zbl 1304.65039号 ·doi:10.1007/s00180-010-0217-1
[11] C.Kleiber和S.Kotz,对数范数分布,英寸经济学和精算学中的统计规模分布,C.Kleiber和S.Kotz编辑,John Wiley&Sons,Inc.,Hoboken,纽约,2003年,第107-145页·兹比尔1044.6 2014
[12] J.van der Laan和L.Kuijvenhoven,四舍五入数据的插补荷兰统计局,海牙/海尔伦出版社,2011年。
[13] T.Leopold、M.Raab和J.Skopek,数据手册:起始队列6-成人教育和终身学习《国家教育小组研究》,班贝格,2011年。
[14] E.S.Maynes,《最小化财务数据中的响应错误:可能性》,J.Amer。《美国联邦法律大全》第63卷(1968年),第214-227页。
[15] H.P.Miller和L.R.Paley,1950年人口普查和所得税申报表中报告的收入,英寸1950年人口普查收入数据评估《收入和财富研究会议》,主编,普林斯顿大学出版社,新泽西州普林斯顿,1958年,第177-204页。
[16] J.A.Nelder和R.Mead,函数最小化的单纯形方法,计算。J.7(1965),第308-313页。doi:10.1093/comjnl/7.4.308·Zbl 0229.65053号 ·doi:10.1093/comjnl/7.4.308
[17] R.M.Pickering,估计胎龄中的数字偏好,《医学总汇》第11卷(1992年),第1225-1238页。数字对象标识代码:10.1002/sim.4780110908·数字对象标识代码:10.1002/sim.4780110908
[18] T.E.Raghunathan、J.M.Lepkowski、J.Hoewykvan和P.Solenberger,《使用回归模型序列多重插补缺失值的多元技术》,Surv。Methodol公司。27(2001),第85-96页。
[19] J.M.Roberts和D.D.Brewer,《离散数量分布中堆的测量和测试》,J.Appl。《美国联邦法律大全》第28卷(2001年),第887-896页。doi:10.1080/02664760120074960·Zbl 1154.62305号
[20] D.鲁宾,调查中无应答的多重插补,威利,纽约,1987年·2007年6月10日 ·数字对象标识代码:10.1002/9780470316696
[21] N.Torelli和U.Trivellato,《就业调查持续时间数据中的建模误差》,J.Econom。59(1993),第187-211页。doi:10.1016/0304-4076(93)90045-7·doi:10.1016/0304-4076(93)90045-7
[22] S.Van Buuren、J.P.L.Brand、C.G.M.Groothuis-Oudshoorn和D.B.Rubin,《多元插补中的完全条件规范》,《统计计算杂志》。模拟。76(2006),第1049-1064页。网址:10.1080/10629360600810434·Zbl 1144.62332号
[23] S.Van Buuren和K.Groothuis-Oudshoorn,MICE:通过R,J.Stat.Softw中的连锁方程进行多元插补。45(2011年),第1-67页。
[24] H.Wang、S.Shiffman、S.D.Griffith和D.F.Heitjan,《真相与记忆:联系瞬时和回顾性自我报告的香烟消费》,Ann.Appl。《统计》第6卷(2012年),第1689-1706页。doi:10.1214/12-AOAS557·Zbl 1257.62129号 ·doi:10.1214/12-AOAS557
[25] D.E.Wright和I.Bray,《四舍五入数据的混合模型》,J.R.Stat.Soc.Ser。D(统计)52(2003),第3-13页。数字对象标识代码:10.1111/1467-9884.00338·数字对象标识代码:10.1111/1467-9884.00338
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。