×

矩阵完成判别分析。 (英语) Zbl 1468.62212号

摘要:矩阵完成判别分析(MCDA)是为半监督学习设计的,在半监督学习中,遗漏率很高,预测因子远远超过案例。MCDA通过将类标签映射到常规单纯形的顶点进行操作。利用(c)类,这些顶点排列在(c-1)维欧氏空间中单位球面的曲面上。因为所有的顶点对都是等距的,所以类是对称处理的。为了将未标记的事例分配给类,数据被输入到一个大矩阵中(沿行的事例和沿列的预测器),该矩阵由存储在最后一列中的顶点坐标进行扩充。一旦构建了矩阵,就可以通过矩阵补全来填充缺失的条目。为了实现矩阵补全,需要最小化平方和加上核范数惩罚。最简单的解决方案调用MM算法和奇异值分解。惩罚调整常数的选择可以通过对随机扣留的案例标签进行交叉验证来实现。矩阵完成后,将一个未标记的事例分配给最靠近其最后一列中放置的点的类顶点。从统计文献中提取的各种示例表明,MCDA在传统问题上具有竞争力,在大规模问题上优于其他方案。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
15A83号 矩阵完成问题
65英尺99英寸 数值线性代数
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 阿库纳,E。;Rodriguez,C.,《缺失值的处理及其对分类器准确性的影响》(分类、聚类和数据挖掘应用,(2004)),639-648
[2] 阿龙,美国。;北巴尔凯。;诺特曼,D。;Gish,K。;麦克,S。;Levine,J.,通过寡核苷酸阵列探测肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,Proc。国家。阿卡德。科学。美国,96,6745-6750,(1999)
[3] Borwein,J.M。;Lewis,A.S.,(凸分析和非线性优化:理论与实例,CMS数学书籍,(2006),Springer New York)·Zbl 1116.90001号
[4] 卡布拉尔,R.S。;拉托雷,F.D。;科斯泰拉,J.P。;Bernardino,A.,《多标签图像分类的矩阵补全》(Shawe-Taylor,J.;Zemel,R.S.;Bartlett,P.L.;Pereira,F.C.N.;Weinberger,K.Q.,NIPS,(2011),190-198
[5] 蔡J.-F。;坎迪斯,E.J。;Shen,Z.,矩阵补全的奇异值阈值算法,SIAM J.Optim。,20, 1956-1982, (2010) ·Zbl 1201.90155号
[6] 坎迪斯,E.J。;Recht,B.,通过凸优化实现精确矩阵补全,Found。计算。数学。,9, 6, 717-772, (2009) ·Zbl 1219.90124号
[7] 坎迪斯,E.J。;Tao,T.,凸松弛的威力:近最优矩阵完成,IEEE Trans。《信息理论》,562053-2080,(2010)·Zbl 1366.15021号
[8] 陈,C。;他,B。;Yuan,X.,通过交替方向方法完成矩阵,IMA J.Numer。分析。,32, 227-245, (2012) ·Zbl 1236.65043号
[9] Chi,E.C。;周,H。;Chen,G.K。;Del Vecchyo,D.O。;Lange,K.,通过矩阵补全进行基因型插补,《基因组研究》,23,509-518,(2013)
[10] Cribbin,L.,《Upclass:R package for performing updated classification rules》,(2008),都柏林大学学院,(硕士论文)
[11] Dai,W.,Milenkovic,O.,2009年。SET:一致矩阵补全算法,CoRR,abs/0909.2705。
[12] 丁,Y。;Simonoff,J.S.,《应用于二进制响应数据的分类树缺失数据方法的研究》,J.Mach。学习。第11号决议,131-170,(2010年)·Zbl 1242.62052号
[13] 多诺霍,D.L。;约翰斯通,I.M。;Kerkyacharian,G。;Picard,D.,《小波收缩:无症状》,J.R.Stat.Soc.Ser。B、 371-394(1995)·Zbl 0827.62035号
[14] Farhangfar,A。;库根,L。;Dy,J.,缺失值插补对离散数据分类误差的影响,模式识别。,41, 3692-3705, (2008) ·Zbl 1173.68479号
[15] Feelders,A.J.,《处理树中缺失的数据:代理分裂或统计插补》(Zytkow,J.M.;Rauch,J.,数据挖掘和知识发现原则,第三届欧洲会议,PKDD 99,捷克共和国布拉格,1999年9月15日至18日,《计算机科学论文集》,第1704卷,(1999),Springer),329-334
[16] 福塞思,R.S.,1990年。PC/BEAGLE用户指南。
[17] Garcia-Laencina,P.J。;Sancho-Gomez,J.-L。;Figueiras-Vidal,A.R.,缺失数据的模式分类:综述,神经计算。申请。,19, 263-282, (2010)
[18] Glashoff,K.,Bronstein,M.M.,2012年。使用增广拉格朗日鲁棒因子分解的运动结构,载于:2011国际3D成像、建模、处理、可视化和传输会议,第379-386页。
[19] Goldberg,A.B。;朱,X。;Recht,B。;徐,J.-M。;Nowak,R.D.,《基质完成的转导:三鸟一石》,(Lafferty,J.D.;Williams,C.K.I.;Shawe-Taylor,J.;Zemel,R.S.;Culotta,A.,NIPS,(2010),Curran Associates,Inc.),757-765
[20] Hastie,T.、Mazumder,R.、Lee,J.、Zadeh,R.,2014年。通过快速交替最小二乘法实现矩阵补全和低秩奇异值分解·Zbl 1352.65117号
[21] 胡,Y。;张,D。;刘杰。;Ye,J。;He,X.,矩阵补全的加速奇异值阈值法,(第18届ACM SIGKDD国际知识发现和数据挖掘会议论文集,KDD’12,(2012),美国纽约州纽约市ACM),298-306
[22] 亨特·D·R。;Lange,K.,MM算法教程,Amer。统计人员。,58, 30-37, (2004)
[23] Jain,P.、Netrapalli,P.和Sanghavi,S.,2012年。使用交替最小化的低秩矩阵完成,CoRR,abs/12120.467·Zbl 1293.65073号
[24] Josse,J。;Husson,F.,探索性多元数据分析方法中缺失值的处理,J.SFdS,153,79-99,(2013)·Zbl 1316.62006年
[25] Kalousis,A。;Hilario,M.,《监督从不完整数据中发现知识》,(2000年第二届国际数据挖掘会议论文集,(2000),WIT出版社)
[26] Khan,J。;Wei,J.S。;马库斯,R。;萨尔·L·H。;拉达尼,M。;韦斯特曼,F。;Berthold,F。;施瓦布,M。;Antonescu,C.R。;彼得森,C。;Meltzer,P.S.,《利用基因表达谱和人工神经网络对癌症进行分类和诊断预测》,《自然医学》,第7期,第673-679页,(2001年)
[27] Kim,H。;Yates,S.,《决策树中的缺失值算法》(Bozdogan,H.,统计数据挖掘和知识发现,(2003),Chapman&Hall/CRC),155-172
[28] Lange,K.,局部等价于EM算法的梯度算法,J.R.Stat.Soc.Ser。B、 57、425-437(1995)·Zbl 0813.62021号
[29] Lange,K.,《优化》,(2004),纽约斯普林格-弗拉格出版社·Zbl 1140.90004号
[30] Lange,K.,Papp,J.C.,Sinsheimer,J.S.,Sobel,E.M.,2013年。下一代统计遗传学:高维数据的建模、惩罚和优化。
[31] 兰格,K。;Wu,T.T.,用于多类别顶点判别分析的MM算法,计算机J。图表。统计人员。,17, 527-544, (2008)
[32] Lin,Z.,Ganesh,A.,Wright,J.,Wu,L.,Chen,M.,Ma,Y.,2009年。精确恢复受损低秩矩阵的快速凸优化算法,收录于:国际计算机研讨会。多传感器适配器中的高级功能。加工,阿鲁巴,荷属安的列斯群岛。
[33] 利特尔·R。;Rubin,D.,(缺失数据的统计分析,概率和数理统计中的Wiley级数,概率和数学统计,(2002),Wiley)·Zbl 1011.62004号
[34] 刘,Y。;Zhang,H.H。;Wu,Y.,硬分类还是软分类?大型边缘统一机器,J.Amer。统计师。协会,106,166-177,(2011)·Zbl 1396.62144号
[35] 卢恩戈,J。;加西亚,S。;Herrera,F.,《考虑三组分类方法的缺失值最佳插补方法的选择》,Knowl。信息系统。,32, 77-108, (2012)
[36] 马,S。;Goldfarb,D。;Chen,L.,矩阵秩最小化的不动点和Bregman迭代方法,数学。程序。,128, 321-353, (2011) ·Zbl 1221.65146号
[37] 马云(Ma,Y.)。;Zhi,L.,通过改进的不动点连续法完成最小秩Gram矩阵,(Schost,R.;Emiris,I.Z.,ISSAC,(2011),ACM),241-248·Zbl 1323.65042号
[38] Mazumder,R。;哈斯蒂,T。;Tibshirani,R.,学习大型不完备矩阵的谱正则化算法,J.Mach。学习。第11号决议,2287-2322,(2010年)·Zbl 1242.68237号
[39] Murphy,P.M.,Aha,D.W.,1994年。机器学习数据库的UCI知识库。网址:http://www.ics.uci.edu/mlearn/MLRepository.html。
[40] Pomeroy,S.L。;Tamayo,P。;加森贝克,M。;斯图拉·L·M。;安吉洛,M。;McLaughlin,M.E。;Kim,J.Y.H。;Goumnerova,L.C。;布莱克,P.M。;Lau,C。;艾伦,J.C。;扎扎格,D。;奥尔森,J.M。;柯兰,T。;Wetmore,C。;比格尔,J.A。;Poggio,T。;穆克吉,S。;里夫金,R。;加利福尼亚州。;斯托洛维茨基,G。;Louis,D.N。;梅西洛夫,J.P。;兰德,E.S。;Golub,T.R.,《人类乳腺肿瘤的分子肖像》,《自然》,406747-752,(2000)
[41] Recht,B.,《矩阵补全的更简单方法》,J.Mach。学习。决议,12,3413-3430,(2011)·Zbl 1280.68141号
[42] 萨尔·泽昌斯基,M。;Provost,F.,《应用分类模型时处理缺失值》,J.Mach。学习。第8号决议,1623-1657,(2007)·Zbl 1222.68295号
[43] Schafer,J.,(《不完全多元数据分析》,Chapman&Hall/CRC统计学与应用概率专著,(2010),Taylor&Francis)
[44] 沈毅。;温,Z。;Zhang,Y.,基于低阶分解的矩阵分离的增广拉格朗日交替方向法,Optim。方法软件。,29, 239-263, (2014) ·Zbl 1285.90068号
[45] 辛格,D。;Febbo,P。;Ross,K。;Jackson,D.G。;马诺拉,J。;拉德,C。;Tamayo,P。;Renshaw,A.A。;达米科公司。;里奇,J.P。;兰德,E.S。;Loda,M。;坎托夫,P.W。;Golub,T.R。;Sellers,W.R.,基因表达与前列腺癌临床行为的相关性,《癌症细胞》,1203-209,(2002)
[46] 斯特霍芬,D。;Buehlmann,P.,混合型数据的Missforest-非参数缺失值插补,生物信息学,28,112-118,(2012)
[47] 孙,Y。;布拉加-内托,美国。;Dougherty,E.R.,缺失值插补对DNA微阵列基因表达数据分类的影响:基于模型的研究,EURASIP J.Bioinf。系统。生物学,2009,4:1-4:1,(2009)
[48] Twala,B.,使用决策树处理不完整数据的技术的经验比较,Appl。Artif公司。智力。,23, 373-405, (2009)
[49] van Buuren,S。;Groothuis-Oudshoorn,K.,MICE:R,J.Stat.Softw.中链式方程的多元插补。,45, 1-67, (2011)
[50] 瓦赫巴,G.,瓦赫巴(Wahba,G.),2002年。通过再生核希尔伯特空间方法进行软硬分类,见:威斯康星州麦迪逊大学统计系,第16524-16530页·Zbl 1106.62338号
[51] Wang,Z.、Lai,M.-J.、Lu,Z.,Fan,W.、Davulcu,H.、Ye,J.,2014年。低秩矩阵补全的正交秩一矩阵追踪,arXiv:1404.1377·Zbl 1315.65044号
[52] 温,Z。;尹,W。;Zhang,Y.,用非线性逐次过松弛算法求解矩阵完备的低秩因子分解模型,数学。程序。计算。,4, 4, 333-361, (2012) ·Zbl 1271.65083号
[53] 吴,T.T。;Lange,K.,《高维数据的多类别顶点判别分析》,Ann.Appl。统计,41698-1721,(2010)·Zbl 1220.62086号
[54] 吴,T.T。;吴勇,用再生核进行非线性顶点判别分析,统计分析。数据最小,5167-176,(2012)·Zbl 07260321号
[55] 袁,M。;约瑟夫·R。;邹浩,结构变量选择与估计,Ann.Appl。统计,3,4,1738-1757,(2009)·Zbl 1184.62032号
[56] 张,S。;秦,Z。;Ling,C.X。;Sheng,S.,《缺失是有用的》:成本敏感决策树中的缺失值,IEEE Trans。知识。数据工程,17,1689-1693,(2005)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。