×

使用多元(gh)变换进行多重插补。 (英语) Zbl 1514.62026号

摘要:多重插补已成为处理缺失值数据集的一种流行方法。对于不完全连续变量,通常使用多元正态模型进行插补。然而,这种方法对于具有强非正态形状的变量可能有问题,因为它会产生与实际分布不一致的插补,从而导致错误的推断。对于非正态数据,我们考虑Tukey(gh)分布/变换的多元扩展,以适应偏度和/或峰度,并捕获变量之间的相关性。我们提出了一种算法来将不完整的数据与模型进行拟合并生成输入。我们将该方法应用于几个标准质量衡量指标的国家医院绩效数据集,这些指标高度向左倾斜,并且彼此之间存在显著相关性。我们使用蒙特卡罗研究来评估所建议方法的性能。我们讨论了可能的推广,并就如何处理非正态不完全数据向从业者提供了一些建议。

MSC公司:

62D10号 缺少数据

软件:

引导数据库
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abayomi,K.、Gelman,A.E.和Levy,M.,2008年。多元插补诊断。J.R.统计社会服务。C(应用统计), 57: 273-291. ·Zbl 1273.62257号 ·文件编号:10.1111/j.1467-9876.2007.00613.x
[2] Allingham,D.,King,R.A.R.和Mengersen,K.L.,2009年。分位数分布的贝叶斯估计。统计计算。, 19: 189-201. ·数字对象标识代码:10.1007/s11222-008-9083-x
[3] van Buuren,S.2007年。通过完全条件规范对离散和连续数据进行多重插补。统计方法医学研究。, 16: 219-242. ·Zbl 1122.62382号 ·doi:10.1177/0962280206074463
[4] Demirtas,H.2008年。广义lambda分布下的多重插补。生物制药杂志。统计师。, 19: 77-89.
[5] Demirtas,H.、Freels,S.A.和Yucel,R.M.,2008年。多重插补非高斯连续结果时多元正态假设的合理性:模拟评估。J.统计计算。模拟。, 78: 69-84. ·Zbl 1133.62337号
[6] Demirtas,H.和Hedeker,D.,2006年。对He和Raghunathan的“多重插补的Tukey gh分布”的评论。阿默尔。统计师。, 60: 348
[7] Demirtas,H.和Hedeker,D.,2008年。在一些非高斯分布下计算连续数据。统计师。尼尔兰迪卡,第62页:193-205页·Zbl 1148.62007号 ·文件编号:10.1111/j.1467-9574.2007.00377.x
[8] Demirtas,H.和Hedeker,D.,2008年。幂多项式下的多重插补。通信统计。仿真计算。, 37: 1682-1695.
[9] Dupuis,D.J.和Field,C.A.,2003年。大风速:建模和异常值检测。《农业杂志》。生物与环境。斯达。, 9: 105-121. ·doi:10.19198/1085711043163
[10] Efron,B.和Tibshirani,R.1993年。Bootstrap简介伦敦:查普曼和霍尔·Zbl 0835.62038号 ·doi:10.1007/978-1-4899-4541-9
[11] Field,C.A.2004年。使用gh分布模拟极端风速。J.统计。计划。推断, 122: 15-22. ·Zbl 1040.62107号 ·doi:10.1016/j.jspi.2003.06.010
[12] Field,C.A.和Genton,M.G.,2006年。多元g-和-h分布。技术计量学, 48: 104-111.
[13] Fischer,M.,2010年。应用于金融和电信数据的广义Tukey型分布。统计师。论文, 51: 41-56. ·Zbl 1247.62038号 ·doi:10.1007/s00362-007-0114-z
[14] Fischer,M.、Horn,A.和Klein,A.,2007年。财务数据背景下的Tukey型分布。通信统计。理论方法, 36: 23-35. ·Zbl 1118.62015号
[15] Gelfand,A.E.和Smith,A.F.M.1990年。计算边缘密度的基于采样的方法。J.Amer。统计师。协会。,85分:398-409秒·Zbl 0702.62020号
[16] Gelman,A.E.、Mechelen,I.V.、Verbeke,G.、Heitjan,D.F.和Meulders,M.,2005年。模型检查的多重插补:缺失数据和潜在数据的完整数据图。生物计量学, 61: 74-85. ·Zbl 1077.62091号 ·doi:10.1111/j.0006-341X.2005.031010.x
[17] Gelman,A.E.和Rubin,D.B.1992年。使用多序列从迭代模拟中进行推断(讨论)。统计师。科学。, 7: 457-511. ·Zbl 1386.65060号 ·doi:10.1214/ss/117701136
[18] Genton,M.G.,2004年。偏椭圆分布及其应用:超越非正态性的旅程,编辑:根顿,M.G.博卡拉顿,佛罗里达州:查普曼和霍尔/CRC·Zbl 1069.62045号 ·doi:10.1201/9780203492000
[19] Harel,O.和Zhou,X.H.2007。多重插补:理论、实施和软件回顾。统计医学。, 26: 3057-3077. ·doi:10.1002/sim.2787
[20] Hastie,T.、Tibshirani,R.和Friedman,J.,2008年。统计学学习的要素纽约:Springer。
[21] Haynes,M.和Mengersen,K.,2005年。使用MCMC对g-和-k分布进行贝叶斯估计。计算。统计师。, 20: 7-30. ·兹比尔1091.62011 ·doi:10.1007/BF02736120
[22] Haynes,M.、Mengersen,K.和Rippon,P.,2008年。使用g-和-k分布的非正态数据的广义控制图。通信统计。仿真计算。, 37: 1881-1903. ·Zbl 1153.62098号
[23] He,Y.和Raghunathan,T.E.,2006年。多重插补的Tukey gh分布。阿默尔。统计师。, 60: 251-256.
[24] He,Y.和Raghunathan,T.E.,2009年。非正态误差分布下序贯回归多重插补方法的性能。通信统计。仿真计算。, 38: 856-883. ·Zbl 1160.62064号
[25] 霍格林,哥伦比亚特区,1985年。“用数字总结形状:g和h分布”。探索数据表、趋势和形状编辑:Hoaglin,D.C.,Mosteller,F.和Tukey,J.W.461-513。纽约:Wiley。
[26] Little,R.J.A.和An,H.2004。基于稳健似然分析的缺失值多元数据。统计师。西尼卡, 14: 949-968. ·Zbl 1073.62050
[27] Little,R.J.A.和Rubin,D.B.,2002年。缺失数据的统计分析,纽约:威利·Zbl 1011.62004号
[28] Martinez,J.和Iglewicz,B.1984年。Tukey g和h分布族的一些性质。通信统计。理论方法, 13: 353-369. ·Zbl 1247.62041号
[29] Mills,T.C.1995年。伦敦证券交易所FT-SE指数收益率分布的偏度和峰度建模。统计员, 44: 323-332. ·doi:10.2307/2348703
[30] Premier,Inc.2007年。“医疗保险和医疗补助服务中心(cms)/顶级医院质量激励示范项目:第2年的调查结果”。可从http://www.premierinc.com/quality-safety/tools-services/p4p/hqi/resources/hqi-whitepaper-year2.pdf。
[31] Raghunathan,T.E.,Lepkowski,J.M.,VanHoewyk,J.和Solenberger,P.2001。使用回归模型序列进行多重输入缺失值的多元技术。Surv公司。Methodol公司。, 27: 85-95.
[32] Rayner,G.和MacGillivary,H.,2002年。g-and-k分布和广义g-and-h分布的数值最大似然估计。统计计算。, 12: 55-75. ·Zbl 1247.62069号 ·doi:10.1023/A:1013120305780
[33] Rosenthal,M.B.、Frank,R.G.、Zhonghe,L.和Epstein,A.M.,2005年。从概念到实践,早期的有偿绩效经验。美国医学会杂志。,294年:1788-1793年·doi:10.1001/jama.294.14.1788
[34] Rubin,D.B.1976年。推断和缺失数据。生物特征, 63: 581-592. ·兹伯利0344.62034 ·doi:10.1093/biomet/63.3.581
[35] 鲁宾,D.B.1987年。调查中无应答的多重插补纽约:Wiley·2007年6月10日 ·数字对象标识代码:10.1002/9780470316696
[36] Schafer,J.L.1997年。不完全多元数据分析,纽约:CRC出版社·兹比尔0997.62510 ·doi:10.1201/9781439821862
[37] Tanner,M.A.和Wong,W.H.,1987年。通过数据增强计算后验分布(与讨论)。J.Amer。统计师。协会。, 82: 528-550. ·Zbl 0619.62029号
[38] Tukey,J.W.数据分析中的现代技术。马萨诸塞州北达特茅斯:国家科学基金会在马萨诸塞大学东南部主办的区域研究会议·Zbl 0880.62007号
[39] Velilla,S.1993年。关于多元Box-Cox变换到正态性的注记。统计师。普罗巴伯。莱特。, 17: 259-263. ·Zbl 0800.62263号 ·doi:10.1016/0167-7152(93)90200-3
[40] Yucel,R.、He,Y.和Zaslavsky,A.M.,2011年。使用基于高斯的例程对分类变量进行插补。统计医学。, 30: 3447-3460. ·doi:10.1002/sim.4355
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。