×

数学ZBZ-数学第一资源

探索自动去噪编码:缺失的数据。(英语) Zbl 1455.68191
摘要:由于缺失值(MVs)在现实世界中的普遍存在,以恢复MVs为目标的MV插补问题是各种数据分析和挖掘任务有效实现良好性能的重要和基础数据预处理步骤。对于MVs的插补,一个典型的想法是探索数据属性之间的相关性。然而,这些相关性通常很复杂,因此很难确定。因此,我们开发了一种新的深度学习模型缺失数据插补去噪自动编码器(MIDIA)通过探索缺失值和非缺失值之间的非线性相关性,有效地对给定数据集中的MVs进行插补。此外,考虑到不同的数据缺失模式,我们基于所提出的MIDIA模型,提出了两种有效的MV插补方法:MIDIA序列法和MIDIA批处理法。MIDIA-Sequential通过为每个不完整属性训练一个独立的MIDIA模型,按属性顺序对MVs属性进行插补。相比之下,MIDIA批处理通过训练一个统一的MIDIA模型在一个批中输入MVs。最后,我们通过实验与现有的MV插补算法进行了比较。实验结果表明,与现有的方法相比,MIDIA序列和MIDIA批处理都能获得更高的插补精度,并且能够处理各种数据缺失模式和数据类型。具体来说,对于单调缺失模式的数据,MIDIA-Sequential比MIDIA批处理性能好,而对于具有一般缺失模式的数据,MIDIA-Batch的性能优于MIDIA-Sequential。
理学硕士:
68T07型 人工神经网络与深度学习
62D10型 缺少数据
软件:
插补
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] Aittokallio,T.,《处理大规模研究中的缺失值:微阵列数据插补及超越》,《生物信息简报》,11,2253-264(2010)
[2] Anagnostopoulos C,Triantafillou P(2014年)《扩展大数据缺失值估算:皮提亚vs.哥斯拉》。在:ACM知识发现和数据挖掘国际会议论文集,第651-660页
[三] 安德里奇,RR;Little,RJA,《调查无响应的热卡插补评论》,国际统计修订版,78,1,40-64(2010)
[4] 奥迪吉尔,V。;胡森,F。;Josse,J.,使用贝叶斯主成分分析对连续变量进行多重插补,J Stat Comput Simul,86,11,2140-2156(2016)·Zbl 07184723
[5] Baldi P(2012)自动编码器、无监督学习和深层架构。在:ICML无监督和转移学习研讨会论文集,第37-50页
[6] Bergstra J,Desjardins G,Lamblin P,Bengio Y(2009)二次多项式学习更好的图像特征。技术报告,第1337页
[7] 贝尔西马斯。;波洛夫斯基,C。;Zhuo,YD,从预测方法到缺失数据插补:优化方法,J Mach Learn Res,18,17133-7171(2017)
[8] Borovicka T,Jirina Jr M,Kordik P,Jirina M(2012),选择代表性数据集。在:数据挖掘知识发现和应用的进展,第43-70页
[9] 大范围随机下降机器学习(2010)。在:《2010年COMPSTAT会议录》,第177-186页·Zbl 1436.68293
[10] 丹普斯特,美联社;莱尔德,NM;Rubin,DB,通过em算法从不完全数据中获得最大似然,J R Stat Soc Ser B(Methodol),39,1,1-38(1977)·Zbl 0364.62022
[11] Dong X,Gabrilovich E,Heitz G et al(2014)知识库:概率知识融合的网络规模方法。在:ACM知识发现和数据挖掘国际会议论文集,第601-610页
[12] 加里布沙赫。;朱学勤;海因林,A。;Conway,M.,《在线显示广告中用户兴趣和响应预测的深度学习》,Data Sci Eng,5,1,12-26(2020年)
[13] Glorot X,Bengio Y(2010)了解训练深度前馈神经网络的困难。国际人工智能与统计会议论文集,第249-256页
[14] Glorot X,Bordes A,Bengio Y(2011)深度稀疏整流神经网络。国际人工智能与统计会议论文集,第315-323页
[15] Han J,Moraga C(1995)sigmoid函数参数对反向传播学习速度的影响。国际人工神经网络研讨会论文集,195-201页
[16] 杰恩,YK;《隐私保护中基于最小-最大规范化的数据扰动方法》,国际计算机通讯技术杂志,2,8,45-50(2011)
[17] Jing XY,Qi FM,Wu F,Xu BW(2016)基于低秩恢复和半监督回归的缺失数据插补方法。在:IEEE/ACM国际软件工程会议论文集,第607-618页
[18] 缺少的数据(joensu,2012年)的数据输入方法。在:模式识别中的机器学习和数据挖掘国际研讨会,第63-75页
[19] 乔纳森,ACS;白色,红外;卡林,JB;斯普拉特,M。;罗伊斯顿,P。;肯沃德,MG;伍德,AM;Carpenter,JR,《流行病学和临床研究中缺失数据的多重插补:潜在和缺陷》,BMJ Br Med J,339,7713,157-160(2009年)
[20] 基姆,肯塔基州;金,BJ;Yi,GS,在微阵列分析中重复使用插补数据可提高插补效率,BMC Bioinform,5160(2004)
[21] 金,H。;哥鲁布,GH;Park,H.,DNA微阵列基因表达数据的缺失值估计:局部最小二乘法插补,生物信息学,21,2187-198(2005)
[22] 刘,H。;于,L.,《面向分类和聚类的特征选择算法集成》,IEEE Trans Knowl Discov Eng,17,4,491-502(2005)
[23] Lovedeep G,Wang K(2017)使用深度去噪自动编码器的多重插补。更正:1705.02737
[24] Magnani M(2004)知识发现任务中处理缺失数据的技术。Obtido 15(01):2007年。http://magnanim.web.cs.unibo.it/index.html
[25] McNeish,D.,小样本下任意缺失的缺失数据方法,J Appl Stat,44,1,24-39(2017年)
[26] Nair V,Hinton GE(2010)修正线性单元改善了受限的Boltzmann机器。国际机器学习会议论文集,第807-814页
[27] 秦,Y。;张大S。;Zhu,X.,POP算法:基于核的插补处理数据库知识发现中的缺失值,专家系统应用,36,2,2794-2804(2009)
[28] 拉古纳坦,TE;莱普科夫斯基,吉咪;霍威克合资公司;Solenberger,P.,使用一系列回归模型对缺失值进行多重插补的多元技术,调查方法,27,1,85-96(2001)
[29] Rahman G,Islam Z(2011),数据预处理中基于决策树的缺失值插补技术。澳大利亚数据挖掘会议论文集,第41-50页
[30] 辛克莱,吉咪;乔治亚州威尔克斯;《柯林斯简明词典》(2001),纽约:哈珀柯林斯出版社,纽约
[31] 索科洛娃,M。;Lapalme,G.,分类任务绩效衡量的系统分析,Inf过程管理,45,4,427-437(2009)
[32] 特罗扬斯卡亚,OG;康托,明尼苏达州;Sherlock,G.,DNA微阵列缺失值估计方法,生物信息学,17,6,520-525(2001)
[33] 韦伯文。;布兰登,KV;Goos,P.,《缺失值的序贯插补》,Comput Biol Chem,31,5-6,320-327(2007年)·Zbl 1142.62103
[34] Vincent P,Larochelle H,Bengio Y,Manzagol PA(2008)用去噪自动编码器提取和合成鲁棒特征。国际机器学习会议论文集,第1096-1103页
[35] 文森特,P。;拉罗谢尔,H。;拉乔伊,我。;本吉奥,Y。;Manzagol,PA,堆叠去噪自动编码器:用局部去噪准则学习深层网络中的有用表示,J Mach Learn Res,11,12,3371-3408(2010)·Zbl 1242.68256
[36] 维托,SD;马塞拉,E。;Piga,M.,《城市污染监测方案中用于苯估算的电子鼻的现场校准》,Sens执行机构B Chem,129,2750-757(2008年)
[37] 王,QH;Rao,JNK,带缺失数据的线性模型的经验似然推断,Scan J Stat,29,3563-576(2002)·Zbl 1035.62067
[38] 王,QH;Rao,JNK,缺失响应数据插补下的经验似然推理,Ann Stat,30,3896-924(2002)·Zbl 1029.62040
[39] Yuan,YC,缺失数据的多重插补:概念和新发展,1-11(2010),Rockville:SAS Institute Inc,Rockville
[40] Zhang,S.,重新计算:从插补和零插补到部分插补,IEEE Intell Inform Bull,9,1,32-38(2008)
[41] 张,Y。;Liu,YC,城市干道中基于最小二乘支持向量机的数据插补,IEEE信号处理技术,16,5,414-417(2009)
[42] 张国庆,朱晓芳,张金丽,秦宇,张SC(2007)GBKII:缺失值的一种插补方法。亚太知识发现与数据挖掘会议论文集,第1080-1087页
[43] 张,X。;宋,X。;Wang,H.,序列局部最小二乘法插补估计微阵列数据缺失值,Comput Biol Med,38,10,1112-1120(2008)
[44] 周,XB;王,XD;可逆的马尔可夫链模型,2003年·Zbl 1144.62362
[45] 朱,X。;张大S。;Jin,Z.,混合属性数据集的缺失值估计,IEEE Trans Knowl数据工程,23,110110-121(2011)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。