×

数学ZBZ-数学第一资源

从预测方法到缺失数据插补:一种优化方法。(英语) Zbl 1473.62021
摘要:数据缺失是现实世界中常见的问题,因此在统计文献中引起了极大的关注。我们提出了一个基于形式优化的灵活框架,用连续变量和分类变量混合填充缺失数据。该框架可以很容易地结合各种预测模型,包括最近邻、支持向量机和基于决策树的方法,并且可以适应多重插补。我们推导了一种快速的一阶方法,它可以在几秒钟内获得高质量的解选择。插补本文介绍。我们证明,我们提出的方法提高了大规模计算实验中样本外的准确度,从UCI机器学习库中抽取了84个数据集。在所有随机失踪机制和各种失踪百分比的情况下,选择。插补在以其他五个数据为基准的大多数数据集中产生最佳的总体插补方法:用绝对平均值K-n和K-K的平均值匹配,验证了Bayesian方法的有效性。而且,选择。插补通过对10个下游任务的计算实验表明,利用输入数据训练的学习算法的样本外性能得到了改善。对于使用选择。插补在缺失50%数据的单一插补中,回归任务的平均样本外(R^2)为0.339,分类任务的平均样本外准确率为86.1%,而最佳交叉验证基准法的样本外平均准确率分别为0.315和84.4%。在多重插补环境下,下游模型使用选择。插补与使用链式方程多元插补训练的模型相比,获得了统计上显著的改善(老鼠)在8/10缺失数据的情况下考虑。

理学硕士:
62C25型 统计决策理论中的复合决策问题
62小时25分 因子分析和主成分分析;对应分析
62D10型 缺少数据
PDF格式 BibTeX公司 XML 引用
全文: 链接
参考文献:
[1] 迪米特里·P·伯塞卡斯。非线性规划。雅典娜科学,贝尔蒙特,马萨诸塞州,1999年·Zbl 1015.90077
[2] 迪米特里斯·贝尔西马斯和杰克·邓恩。最佳分类树。机器学习,第1-44页,2017年·Zbl 1455.68159
[3] Dimitris Bertsimas和Rahul Mazumder。基于现代优化的最小分位数回归。《统计年鉴》,42(6):2494–252522014年·Zbl 1302.62154
[4] 伯蒂米和范巴蒂斯。稀疏高维回归:精确可伸缩算法和相变。arXiv预印本arXiv:1709.100292017年。
[5] Dimitris Bertsimas、Jack Dunn、Colin Pawlowski和Daisy Zhuo。稳健分类。提交出版,2017年。
[6] 特隆德·海勒姆·布洛、比亚特·戴斯维克和英格·琼纳森。LSimpute:用最小二乘法精确估计微阵列数据中的缺失值。核酸研究,32(3):e34–e34,2004。
[7] L´gia P Br´as和Jos´e C Menezes。改进基于聚类的DNA微阵列数据缺失值估计。生物分子工程,24(2):273–2822007年。
[8] 利奥·布雷曼、杰罗姆·弗里德曼、查尔斯·J·斯通和理查德·A·奥尔森。分类和回归树。CRC出版社,1984年·Zbl 0541.62042
[9] 布尔盖特和杰罗姆P赖特。基于序列回归树的缺失数据多重插补。美国流行病学杂志,172:1070–10762010年。
[10] Stef Buuren和Karin Groothuis Oudshoorn。MICE:通过链式方程进行多元插补,R.统计软件杂志,45(3),2011年。
[11] 蔡志鹏,梅森海达里,林国辉。迭代局部最小二乘法微阵列缺失值插补。生物信息学和计算生物学杂志,4(05):935-9572006。
[12] 富有的卡鲁阿纳。一种非参数EM风格的缺失值插补算法。在AISTATS,2001年。
[13] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克。支持向量网络。机器学习,20(3):273–2971995年·邮政编码:0831.68098
[14] 科比·克拉默和约兰·辛格。多类核向量机的算法实现。机器学习研究杂志,2(12月):265–2922001年·Zbl 1037.68110号
[15] 亚瑟·P·邓普斯特、南·M·莱德和唐纳德·B·鲁宾。基于EM算法的不完全数据的最大似然。英国皇家统计学会杂志。B系列(方法学),第1-38页,1977年·Zbl 0364.62022
[16] 佐宾·加赫拉马尼和迈克尔一世乔丹。通过EM方法从不完全数据中进行监督学习。神经信息处理系统的进展,第120-1271994页。37
[17] 詹姆斯·霍纳克、加里·金、马修·布莱克威尔等,《阿米莉亚II:缺失数据的程序》。统计软件杂志,45(7):1-472011。
[18] 穆罕默德汗,纪尧姆·布查德,凯文·P·墨菲和本杰明·M·马林。混合数据因子分析的变分界。神经信息处理系统的进展,1108-11162010页。
[19] 金贤洙,金贤洙和海神公园。DNA微阵列基因表达数据的缺失值估计:局部最小二乘法插补。生物信息学,21(2):187-1982005。
[20] Ki Yeol Kim,Byong Jin Kim和Gwan Su-Yi。在微阵列分析中重复使用插补数据可以提高插补效率。BMC生物信息学,5(1):12004。
[21] 阿兰威忠列,恩芳律,和洪燕。基因表达数据的缺失值插补:从可用信息中恢复缺失数据的计算技术。生物信息学简报,12(5):498-5132011年。
[22] 罗德里克·贾利特尔和唐纳德·B·鲁宾。缺失数据的统计分析。约翰威利父子公司,1987年·中银0665.62004
[23] Rahul Mazumder,Trevor Hastine和Robert Tibshirani。学习大型不完备矩阵的谱正则化算法。机器学习研究杂志,11(8月):2287-2322,2010·Zbl 1242.68237
[24] 夏基尔·穆罕默德、祖宾·加赫拉马尼和凯瑟琳·海勒。贝叶斯指数族主成分分析。神经信息处理系统的进展,第1089-10962009页。
[25] 小叶Shigeyuki Oba、Sato aki Masa、Takemasa一郎、Morito Monden、Ken ichi Matsubara和Shin Ishii。基因表达谱数据的贝叶斯缺失值估计方法。生物信息学,19(16):2088-20962003·Zbl 1013.68788号
[26] Trivellore E E Raghunathan、James M Lepkowski、John Van Hoewyk和Peter Solenberger。使用一系列回归模型对缺失值进行多重插补的多元技术。调查方法,27(1):85–962001。
[27] 丹尼尔和彼得·霍文杰。Missforest:混合类型数据的非参数缺失值插补。生物信息学,28(1):112–1182012。
[28] Olga Troyanskaya,Michael Cantor,Gavin Sherlock,Pat Brown,Trevor Hastie,Robert Tibshirani,David Botstein和Russ B Altman。DNA微阵列缺失值估计方法。生物信息学,17(6):520–5252001。
[29] 斯蒂芬·范布伦。用全条件规范对离散和连续数据进行多重插补。医学研究中的统计方法,16(3):219–242,2007·Zbl 1122.62382
[30] 基里·瓦格斯塔夫。缺失值聚类:无需插补。在分类、聚类和数据挖掘应用程序中,第649-658页。斯普林格,2004年。38
[31] 王贤,李敖,蒋兆辉,冯焕青。基于支持向量回归插补和正交编码的DNA微阵列基因表达数据缺失值估计。BMC生物信息学,7(1):12006年。
[32] 斯蒂芬J赖特。坐标下降算法。数学规划,151(1):3–34,2015年·Zbl 1317.49038
[33] 张小白,宋晓峰,王惠南,张焕平。序列局部最小二乘插补估计微阵列数据的缺失值。生物与医学计算机,38(10):1112-11202008。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。