×

从预测方法到缺失数据插补:一种优化方法。 (英语) Zbl 1473.62021号

摘要:数据缺失是现实世界中常见的问题,因此在统计文献中引起了极大的关注。我们提出了一个基于形式优化的灵活框架,用混合连续变量和分类变量来插补缺失数据。该框架可以很容易地合并各种预测模型,包括(K)-最近邻、支持向量机和基于决策树的方法,并且可以适用于多重插补。我们推导出了快速的一阶方法,该方法可在几秒钟内按照通用插补算法获得高质量的解opt.插补在本文中提出。我们证明,在大规模计算实验中,我们提出的方法提高了从UCI机器学习库中提取的84个样本数据集的样本外准确性。在所有随机机制缺失和各种缺失百分比的情况下,opt.计算在大多数以其他五个数据集为基准的数据集中产生最佳的总体插补方法:平均插补、(K)-最近邻、迭代knn、贝叶斯PCA和预测-均值匹配,与最佳交叉验证基准方法相比,平均绝对误差平均减少8.3%。此外,opt.插补通过对10个下游任务的计算实验证明,使用输入数据训练的学习算法可以提高样本外性能。对于使用培训的模型opt.插补在缺失50%数据的单一插补中,回归任务中的平均样本外精确度(R^2)为0.339,分类任务中的样本外精确度平均为86.1%,而最佳交叉验证基准方法的样本外准确性分别为0.315和84.4%。在多重插补设置中,下游模型使用opt.插补与使用链式方程的多元插补训练的模型相比,获得了统计学上的显著改进(老鼠)在8/10缺失数据的情况下考虑。

MSC公司:

62C25型 统计决策理论中的复合决策问题
62H25个 因子分析和主成分;对应分析
62D10号 缺少数据
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] 迪米特里·贝尔塞卡斯。非线性规划。Athena Scientific,马萨诸塞州贝尔蒙特,1999年·Zbl 1015.90077号
[2] 迪米特里斯·伯特西马斯和杰克·邓恩。最佳分类树。机器学习,第1-44页,2017年·Zbl 1455.68159号
[3] 迪米特里斯·贝尔齐马斯和拉胡尔·马祖姆德。通过现代优化实现最小分位数回归。《统计年鉴》,42(6):2494–25252014·Zbl 1302.62154号
[4] 迪米特里斯·贝尔齐马斯和巴特·范·帕里斯。稀疏高维回归:精确的可伸缩算法和相变。arXiv预印arXiv:1709.100292017。
[5] Dimitris Bertsimas、Jack Dunn、Colin Pawlowski和Daisy Zhuo。稳健的分类。2017年提交出版。
[6] 特隆·海伦·博伊(Trond Hellem Bö)、比亚特·戴斯维克(Bjarte Dysvik)和英格·乔纳森(Inge Jonassen)。LSimpute:用最小二乘法准确估计微阵列数据中的缺失值。核酸研究,32(3):e34–e34,2004。
[7] L´un gia P Br´as和Jos´e C Menezes。改进基于聚类的DNA微阵列数据缺失值估计。生物分子工程,24(2):273-2822007。
[8] 利奥·布雷曼(Leo Breiman)、杰罗姆·弗里德曼(Jerome Friedman)、查尔斯·斯通(Charles J Stone)和理查德·奥尔森(Richard A Olshen)。分类和回归树。CRC出版社,1984年·Zbl 0541.62042号
[9] Lane F Burgette和Jerome P Reiter。通过序列回归树对缺失数据进行多重插补。《美国流行病学杂志》,172:1070–10762010。
[10] Stef Buuren和Karin Groothuis-Oudshoorn。MICE:《利用链式方程进行多元插补》,《统计软件杂志》,45(3),2011年。
[11] 蔡志鹏、梅萨姆·海达里和林国辉。重复局部最小二乘微阵列缺失值插补。生物信息学和计算生物学杂志,4(05):935–9572006。
[12] 里奇·卡鲁阿纳。用于输入缺失值的非参数EM型算法。AISTATS,2001年。
[13] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克。支持向量网络。机器学习,20(3):273–2971995·Zbl 0831.68098号
[14] Koby Crammer和Yoram Singer。关于基于多类内核的向量机的算法实现。机器学习研究杂志,2(12月):265–2922001·Zbl 1037.68110号
[15] Arthur P Dempster、Nan M Laird和Donald B Rubin。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会杂志。B系列(方法学),第1-38页,1977年·Zbl 0364.62022号
[16] Zoubin Ghahramani和Michael I Jordan。通过EM方法监督不完整数据的学习。《神经信息处理系统进展》,第120-127页,1994年。37
[17] 詹姆斯·霍纳克(James Honaker)、加里·金(Gary King)、马修·布莱克韦尔(Matthew Blackwell)等人,《阿米莉亚II:缺失数据的程序》(Amelia II)。《统计软件杂志》,45(7):1–472011年。
[18] Mohammad E Khan、Guillaume Bouchard、Kevin P Murphy和Benjamin M Marlin。混合数据因子分析的变分界限。《神经信息处理系统进展》,第1108–1116页,2010年。
[19] Hyunsoo Kim、Gene H Golub和Haesun Park。DNA微阵列基因表达数据的缺失值估计:局部最小二乘插补。生物信息学,21(2):187-1982005。
[20] Ki-Yeol Kim、Byoung-Jin Kim和Gwan-Su Yi。微阵列分析中重复使用估算数据可提高估算效率。BMC生物信息学,5(1):12004年1月。
[21] Alan Wee-Chung Liew、Ngai-Feng Law和Hong Yan。基因表达数据的缺失值插补:从可用信息中恢复缺失数据的计算技术。生物信息学简报,12(5):498–5132011年。
[22] Roderick JA Little和Donald B Rubin。缺失数据的统计分析。John Wiley&Sons,1987年·Zbl 0665.62004号
[23] Rahul Mazumder、Trevor Hastie和Robert Tibshirani。用于学习大型不完备矩阵的谱正则化算法。机器学习研究杂志,11(8月):2287–23222010·Zbl 1242.68237号
[24] 夏基尔·穆罕默德(Shakir Mohamed)、邹宾·加赫拉马尼(Zoubin Ghahramani)和凯瑟琳·海勒(Katherine A Heller)。贝叶斯指数族PCA。《神经信息处理系统进展》,第1089-10962009页。
[25] 小野幸男、佐藤正明、竹下一郎、森藤万登、松原贤一和石井信义。基因表达谱数据的贝叶斯缺失值估计方法。生物信息学,19(16):2088–20962003·Zbl 1013.68788号
[26] Trivellore E Raghunathan、James M Lepkowski、John Van Hoewyk和Peter Solenberger。使用回归模型序列进行多重输入缺失值的多元技术。调查方法,27(1):85-962001。
[27] Daniel J Stekhoven和Peter B–uhlmann。森林缺失:混合型数据的非参数缺失值插补。生物信息学,28(1):112-1182012。
[28] Olga Troyanskaya、Michael Cantor、Gavin Sherlock、Pat Brown、Trevor Hastie、Robert Tibshirani、David Botstein和Russ B Altman。DNA微阵列缺失值估计方法。生物信息学,17(6):520–5252001。
[29] 斯特夫·范·布伦。通过完全条件规范对离散和连续数据进行多重插补。医学研究中的统计方法,16(3):219–2422007·Zbl 1122.62382号
[30] 基里·瓦格斯塔夫。缺失值的聚类:无需插补。在分类、聚类和数据挖掘应用程序中,第649-658页。施普林格,2004年。38
[31] 王先、李敖、蒋朝晖和冯焕清。通过支持向量回归插补和正交编码方案估计DNA微阵列基因表达数据的缺失值。BMC生物信息学,7(1):12006年1月。
[32] 斯蒂芬·J·赖特。坐标下降算法。数学规划,151(1):3–342015·Zbl 1317.49038号
[33] 张小白、宋晓峰、王慧楠和张焕平。序列局部最小二乘插补估计微阵列数据的缺失值。生物与医学中的计算机,38(10):1112-112008。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。