×

数学ZBZ-数学第一资源

基于数据深度的非参数插补。(英语) Zbl 1437.62071
摘要:我们提出了缺失值的单一插补方法,它借用了数据深度的概念,即针对概率分布或数据云定义的空间任意点的中心度度量。这包括迭代最大化每个观测值的缺失值,并可用于任何适当定义的统计深度函数。对于每一次迭代,插补恢复为二次、线性或拟凹函数的优化,这些函数通过线性规划或Nelder-Mead方法解析求解。由于它能解释潜在的数据拓扑结构,该过程是无分布的,允许接近数据几何的插补,可以在局部插补(k)-最近邻,随机森林)不能的情况下进行预测,并且在椭圆对称下具有诱人的鲁棒性和渐近性。结果表明,一个特殊的情况——当使用Mahalanobis深度时——与多元正态模型的著名方法,如迭代回归和正则化PCA有直接关系。将该方法推广到椭圆对称分布数据的多重插补。仿真和实际数据研究表明,与现有的流行方案相比,效果良好。该方法已作为R包实现。
理学硕士:
62D10型 缺少数据
90摄氏度 线性规划
62-04年 有关统计问题的软件、源代码等
90C25型 凸规划
PDF格式 BibTeX公司 XML 引用
参考文献:
[1] 阿扎里尼,A。;Capitanio,A.,“多元偏态正态分布的统计应用”,《皇家统计学会杂志》,B辑,61579-602(1999)·Zbl 0924.62050
[2] 巴佐夫金,P。;103《线性操作的稳健方案》,第22-120期《稳健操作研究》,2015年第9期·Zbl 1318.90052
[3] Bertsekas,P.D.,非线性规划(1999),剑桥,马萨诸塞州:麻省理工学院出版社,剑桥,马萨诸塞州
[4] 卡斯科斯,I。;Molchanov,I.,“多元风险和深度修剪区域”,《金融与随机学》,11373-397(2007)·Zbl 1164.91027号
[5] 邓普斯特,A.P。;莱尔德,新墨西哥州。;鲁宾,D.B.,“不完全数据的最大似然法”,皇家统计学会杂志,B辑,39,1-38(1977)·Zbl 0364.62022
[6] 多诺霍,D.L。;Gasko,M.,“基于半空间深度和预测外向度的位置估计的分解特性”,《统计年鉴》,201803-1827(1992)·Zbl 0776.62031
[7] 酒后驾车。;Karra Taniskidou,E.(2017年)
[8] 戴克霍夫,R.,“满足投影特性的数据深度”,《统计分析进展》,88163-190(2004)·Zbl 1294.62112
[9] 戴克霍夫,R。;Mozharovskyi,P.,“半空间深度的精确计算”,计算统计和数据分析,98,19-30(2016)·Zbl 1468.62048
[10] Efron,B.,“缺失数据、插补和引导”,美国统计协会期刊,89463-475(1994)·Zbl 0806.62033
[11] 伊恩马尔,J.H.J。;李,J。;Liu,R.Y.,“桥接中心性和极端性:使用极值统计提炼经验数据深度”,《统计年鉴》,432738-2765(2015)·兹布1327.62205
[12] 方,K。;科茨,S。;Ng,K.,对称多变量及相关分布(统计学和应用概率专著(1990年),纽约:查普曼和霍尔,纽约
[13] 黑斯蒂,T。;马祖德,R。;李博士。;Zadeh,R.,“通过快速交替最小二乘法实现矩阵完成和低阶奇异值分解”,《机器学习研究杂志》,163367-3402(2015)·Zbl 1352.65117号
[14] Jörnsten,R.,“基于L1数据深度的聚类和分类”,多元分析杂志,90,67-89(2004)·Zbl 1047.62064
[15] 约瑟夫,J。;Husson,F.,“在探索性多元数据分析方法中处理缺失值”,《法国社会科学杂志》,第153期,第79-99页(2012年)·Zbl 1316.62006
[16] 约瑟夫,J。;Reiter,J.P.,“缺失数据特别部分简介”,《统计科学》,33139-141(2018)
[17] 科什沃伊,G。;Mosler,K.,“多元分布的Zonoid-Trimming”,《统计年鉴》,251998-2017(1997)·Zbl 0881.62059
[18] 兰格,T。;莫斯勒,K。;Mozharovskyi,P.,“基于数据深度的快速非参数分类”,统计论文,55,49-69(2014)·Zbl 1283.62128
[19] 小,R。;Rubin,D.,《缺失数据的统计分析》(Wiley Series in Probability and Mathematic Statistics,Probability and Mathematic Statistics,2002),新泽西州霍博肯:Wiley,Hoboken,NJ·Zbl 1011.62004
[20] 刘瑞英。;帕雷利乌斯,J.M。;Singh,K.,《基于数据深度的多元分析:描述性统计、图形和推理》(与刘和辛格讨论和反驳),《统计年鉴》,27783-858(1999)·Zbl 0984.62037
[21] 刘瑞英。;Singh,K.,“基于数据深度和多元秩检验的质量指数”,《美国统计协会杂志》,88252-260(1993)·Zbl 0772.62031
[22] Mahalanobis,P.C.,《统计学中的广义距离》,《印度国家科学院学报》,第2期,第49-55页(1936年)·Zbl 0015.03302
[23] Mosler,K.,《多元离散度、中心区域和深度:升力分区法》(2002),纽约:斯普林格,纽约·Zbl 1027.62033
[24] Nagy,S.,“空间深度的单调性”,统计学和概率论,129373-378(2017)·Zbl 1380.62228
[25] 潘达文博士。;Bever,G.V.,“从深度到局部深度:对中心性的关注”,《美国统计协会杂志》,1081105-1119(2013)·Zbl 06224990
[26] 罗素,P.J。;范德里森,K.,“最小协方差行列式估计器的快速算法”,技术计量学,41212-223(1999)
[27] Schafer,J.,不完全多变量数据分析(Chapman&Hall/CRC统计与应用概率专著(1997年),纽约:CRC出版社,纽约·Zbl 0997.62510
[28] 斯特霍文,D.J。;Bühlmann,P.,“混合类型数据的MissForest非参数缺失值插补”,生物信息学,28112-118(2012年)
[29] 特罗扬斯卡亚,O。;康托,M。;夏洛克,G。;布朗,P。;黑斯蒂,T。;蒂比拉尼,R。;博茨坦。;Altman,R.B.,“DNA微阵列缺失值估计方法”,生物信息学,17520-525(2001)
[30] 图基,J.W。;詹姆斯,R.D.,国际数学家大会1974,2,数学和数据绘图,523-532(1975)
[31] 乌德尔,M。;Townsend,A.,“尼斯潜在变量模型具有对数秩”,arXiv:1705.07474(2017)
[32] van Buuren,S.,缺失数据的灵活插补(Chapman&Hall/CRC跨学科统计(2012),佛罗里达州博卡拉顿:查普曼和霍尔/CRC出版社,佛罗里达州博卡拉顿·Zbl 1256.62005
[33] 瓦迪,Y。;张春华,“多元L1中位数与相关数据深度”,《国家科学院学报》,971423-1426(2000)·Zbl 1054.62067
[34] 是的,I.-C。;杨克杰。;Ting,T.-M,“基于bernoulli序列的RFM模型知识发现”,专家系统与应用,365866-5871(2009)
[35] 左,Y。;Serfling,R.,“统计深度函数的一般概念”,《统计年鉴》,28461-482(2000)·Zbl 1106.62334
[36] 左,Y。;Serfling,R.,“样本统计深度函数等值线的结构性质和收敛结果”,《统计年鉴》,28483-499(2000)·Zbl 1105.62343
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。