×

MIDIA:探索去噪自动编码器用于缺失数据插补。 (英语) Zbl 1455.68191号

摘要:由于实际数据集中普遍存在缺失值(MV),MV插补问题旨在恢复MV,是各种数据分析和挖掘任务有效实现良好性能的重要基础数据预处理步骤。要插补MV,一个典型的想法是探索数据属性之间的相关性。然而,这些相关性通常很复杂,因此很难识别。因此,我们开发了一种新的深度学习模型,称为MIssing数据插补去噪自动编码器(MIDIA),通过探索缺失值和非缺失值之间的非线性相关性,有效地估算给定数据集中的MV。此外,通过考虑各种数据缺失模式,我们提出了两种基于MIDIA模型的有效MV插补方法,即MIDIA-Sequential和MIDIA-Batch。MIDIA-Sequential通过为每个不完整的属性训练一个独立的MIDIA模型,依次插补MV的属性-属性。相比之下,MIDIA-Batch通过训练统一的MIDIA模型,在一个批次中插补MV。最后,我们通过实验与现有的MV插补算法进行比较,对所提出的方法进行了评估。实验结果表明,与现有解决方案相比,MIDIA-Sequential和MIDIA-Batch的插补精度显著提高,并且所提出的方法能够处理各种数据缺失模式和数据类型。具体来说,对于具有单调缺失模式的数据,MIDIA-Sequential的表现优于MIDIA-Batch,而对于具有一般缺失模式的信息,MIDIA-Batch的表现则优于MIDIA-Sequentitial。

MSC公司:

68T07型 人工神经网络与深度学习
62D10号 缺少数据

软件:

估算
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aittokallio,T.,《处理大规模研究中的缺失值:微阵列数据插补及其以外》,《生物信息简介》,11,2,253-264(2010)
[2] Anagontostopoulos C,Triantafillou P(2014),按比例缩小大数据缺失值插补:pythia与godzilla。摘自:ACM知识发现和数据挖掘国际会议论文集,第651-660页
[3] 安德里奇,RR;Little,RJA,《调查无回应的热甲板插补综述》,Int Stat Rev,78,1,40-64(2010)
[4] Audigier,V。;Husson,F。;Josse,J.,使用贝叶斯主成分分析对连续变量进行多重插补,J Stat Comput Simul,86,11,2140-2156(2016)·Zbl 1510.62262号
[5] Baldi P(2012)《自动编码器、无监督学习和深层架构》。摘自:ICML无监督和迁移学习研讨会会议记录,第37-50页
[6] Bergstra J、Desjardins G、Lamblin P、Bengio Y(2009)二次多项式学习更好的图像特征。技术报告,第1337页
[7] Bertsimas,D。;Pawlowski,C。;Zhuo,YD,《从预测方法到缺失数据插补:一种优化方法》,J Mach Learn Res,18,1,7133-7171(2017)·Zbl 1473.62021号
[8] Borovicka T、Jirina-Jr M、Kordik P、Jirina M(2012)选择代表性数据集。主题:数据挖掘知识发现和应用进展,第43-70页
[9] Bottou L(2010)随机梯度下降的大规模机器学习。摘自:2010年COMPSTAT会议记录,第177-186页·Zbl 1436.68293号
[10] 美联社登普斯特;新墨西哥州莱尔德;Rubin,DB,通过em算法从不完整数据中获得最大似然,J R Stat Soc Ser B(Methodol),39,1,1-38(1977)·Zbl 0364.62022号
[11] Dong X,Gabrilovich E,Heitz G等人(2014)《知识库:概率知识融合的网络尺度方法》。在:ACM知识发现和数据挖掘国际会议论文集,第601-610页
[12] Z.加里布沙阿。;朱,XQ;Hainline,A。;Conway,M.,《在线展示广告中用户兴趣和响应预测的深度学习》,数据科学工程,5,1,12-26(2020)
[13] Glrot X,Bengio Y(2010)《理解深度前馈神经网络训练的困难》。摘自:《人工智能和统计国际会议论文集》,第249-256页
[14] Glrot X,Bordes A,Bengio Y(2011)深度稀疏整流器神经网络。摘自:《人工智能与统计国际会议论文集》,第315-323页
[15] Han J,Moraga C(1995),乙状函数参数对反向传播学习速度的影响。在:人工神经网络国际研讨会论文集,第195-201页
[16] Jain,YK;Bhandare,SK,《隐私保护中基于最小最大归一化的数据扰动方法》,国际计算机通信技术杂志,2011年第2期,第8期,第45-50页
[17] Jing XY,Qi FM,Wu F,Xu BW(2016)基于低阶恢复和半监督回归的软件工作量估算缺失数据插补。摘自:IEEE/ACM软件工程国际会议论文集,第607-618页
[18] Joenssen DW,Bankhofer U(2012)《估算缺失数据的热卡方法——限制捐赠者使用的影响》。In:模式识别中的机器学习和数据挖掘国际研讨会,第63-75页
[19] 乔纳森,ACS;白色,IR;卡林,JB;斯普拉特,M。;罗伊斯顿,P。;MG Kenward;木材,AM;Carpenter,JR,《流行病学和临床研究中缺失数据的多重插补:潜力和陷阱》,BMJ Br Med J,339,7713,157-160(2009)
[20] 金,肯塔基州;BJ Kim;Yi,GS,在微阵列分析中重复使用插补数据可提高插补效率,BMC Bioninform,5160(2004)
[21] Kim,H。;Golub,生长激素;Park,H.,DNA微阵列基因表达数据的缺失值估计:局部最小二乘插补,生物信息学,21,2,187-198(2005)
[22] 刘,H。;Yu,L.,面向分类和聚类的集成特征选择算法,IEEE Trans-Knowl Discov Eng,17,4,491-502(2005)
[23] Lovedeep G,Wang K(2017)使用深度去噪自动编码器的多重插补。CoRR arXiv公司:1705.02737
[24] Magnani M(2004)《知识发现任务中处理缺失数据的技术》。Obtido 15(01):2007年。http://magnanim.web.cs.unibo.it/index.html
[25] McNeish,D.,小样本任意缺失的缺失数据方法,应用统计杂志,44,1,24-39(2017)·Zbl 1516.62473号
[26] Nair V,Hinton GE(2010),整流线性单元改善了受限的Boltzmann机器。摘自:机器学习国际会议国际会议论文集,第807-814页
[27] 秦,Y。;张,S。;Zhu,X.,POP算法:基于核的插补来处理数据库知识发现中的缺失值,Expert Syst Appl,36,2794-2804(2009)
[28] Raghunathan,TE;勒普考夫斯基,JM;Hoewyk,合资公司;Solenberger,P.,《使用回归模型序列多重插补缺失值的多元技术》,Survey Methodol,27,1,85-96(2001)
[29] Rahman G,Islam Z(2011)数据预处理的基于决策树的缺失值插补技术。摘自:澳大利亚数据挖掘会议记录,第41-50页
[30] 辛克莱,JM;佐治亚州威尔克斯;华盛顿州克雷布斯,《柯林斯简明词典》(2001),纽约:哈珀柯林斯,纽约
[31] 索科洛娃,M。;Lapalme,G.,《分类任务绩效指标的系统分析》,《信息处理管理》,45,4,427-437(2009)
[32] 特罗扬斯卡娅,OG;康托,明尼苏达州;Sherlock,G.,DNA微阵列缺失值估计方法,生物信息学,17,6,520-525(2001)
[33] Verboven,S。;布兰登,KV;Goos,P.,缺失值的顺序插补,《计算生物化学》,31,5-6,320-327(2007)·Zbl 1142.62103号
[34] Vincent P,Larochelle H,Bengio Y,Manzagol PA(2008)使用去噪自动编码器提取和组合鲁棒特征。摘自:机器学习国际会议论文集,第1096-1103页
[35] 文森特,P。;拉罗谢尔,H。;我·拉朱伊。;Y.本吉奥。;Manzagol,PA,堆叠去噪自动编码器:使用局部去噪标准学习深层网络中的有用表示,J Mach Learn Res,11,12,3371-3408(2010)·Zbl 1242.68256号
[36] 维托,SD;Massera,E。;Piga,M.,《城市污染监测场景中用于苯估算的电子鼻现场校准》,Sens Actuator B Chem,129,2,750-757(2008)
[37] 王,QH;Rao,JNK,缺失数据线性模型中基于经验似然推理,Scand J Stat,29,3,563-576(2002)·Zbl 1035.62067号
[38] 王,QH;Rao,JNK,缺失响应数据插补下基于经验似然推理,Ann Stat,30,3,896-924(2002)·Zbl 1029.62040号 ·doi:10.1214/aos/1028674845
[39] Yuan,YC,《缺失数据的多重插补:概念和新发展》,1-11(2010),Rockville:SAS Institute Inc,Rock维尔
[40] Zhang,S.,Parimputation:从插补和零插补到部分插补,IEEE Intell Inform Bull,9,1,32-38(2008)
[41] 张,Y。;Liu,YC,使用最小二乘支持向量机对城市主干道进行数据插补,IEEE Signal Process Lett,16,5,414-417(2009)
[42] Zhang CQ,Zhu XF,Zhang JL,Qin YS,Zharg SC(2007)GBKII:缺失值的插补方法。摘自:太平洋亚洲知识发现和数据挖掘会议记录,第1080-1087页
[43] 张,X。;宋,X。;Wang,H.,序列局部最小二乘插补估计微阵列数据的缺失值,Comput Biol Med,38,1011112-1120(2008)
[44] 周,XB;王,XD;Dougherty,ER,使用互信息聚类和可逆跳跃标记-主-蒙特卡罗预测设计构建基因组网络,信号处理,83,4,745-761(2003)·Zbl 1144.62362号
[45] 朱,X。;张,S。;Jin,Z.,混合属性数据集的缺失值估计,IEEE Trans Knowl data Eng,23,1,110-121(2011)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。