×

一种用于微阵列数据分类的基于质心的基因选择方法。 (英语) Zbl 1343.92012年

摘要:对于基于微阵列数据的分类问题,数据通常包含大量无关和冗余的特征。本文提出了一种新的基因选择方法,在去除不相关和冗余特征的情况下,为微阵列数据选择最佳特征子集。基于新定义的线性判别分析准则,我们将选择问题表示为L1规则优化问题。用基于核的方法估计类质心来定义准则的类间可分性和类内紧性,而不是计算样本的平均值。理论分析表明,在一般条件下,可以达到L1正则化准则的全局最优解,在此条件下,针对特征数量和样本数量的线性时间复杂度下的特征选择问题,导出了一种有效的算法。在十个公开的微阵列数据集上的实验结果表明,与最新的方法相比,该方法的性能有效且具有竞争力。

MSC公司:

92B15号机组 普通生物统计学
62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Argyriou,A。;Evgeniou,T。;Pontil,M.,多任务特征学习,高级神经信息处理。系统。,20, 41-48 (2007)
[2] 阿特克森,C。;摩尔,A。;Schaal,S.,局部加权学习,Artif。智力。修订版,11,11-73(1997)
[3] 波隆-卡内多,V。;Sánchez-Maroño,N。;Alonso-Betanzos,A.,微阵列数据集和应用特征选择方法综述,信息科学。,282, 111-135 (2014)
[5] Chandrashekar,G。;Sahin,F.,特征选择方法综述,计算机。选举人。工程,40,16-28(2014)
[6] Chen,C.H.,关于一类计算效率高的特征选择准则,模式识别。,7, 1, 87-94 (1975) ·Zbl 0318.68065号
[7] Dai,Y.H。;Yuan,Y.,一种具有强全局收敛性的非线性共轭梯度法,SIAM J.Optim。,10, 177-182 (2000) ·兹比尔0957.65061
[8] Duan,K.B。;贾加特;拉贾帕克塞,C。;Minh,N.N.,One-Versus-One和One-Versus All多类SVM-RFE,用于癌症分类中的基因选择。生物信息学中的进化计算、机器学习和数据挖掘,47-56(2007),施普林格-柏林-海德堡
[9] Fletcher,R.,《实用优化方法》(1997),John Wiley:John Wiley纽约·Zbl 0905.65002号
[10] Fisher,R.A.,《分类问题中多重测量的使用》,Ann.Eugen。,7, 2, 179-188 (1936)
[11] Fu,K。;最小值,P。;Li,T.,模式识别中的特征选择,IEEE Trans。系统。科学。赛博。,1, 6, 33-39 (1970) ·Zbl 0195.49201号
[12] Fakhraei,S。;Soltanian-Zadeh,H。;Fotouhi,F.,用于特征排序和选择的单变量分类器的偏差和稳定性,专家。系统。应用。,41, 15, 6945-6958 (2014)
[14] Guyon,我。;Elisseeff,A.,《变量和特征选择简介》,J.Mach。学习。第3号决议,1157-1182(2003年)·Zbl 1102.68556号
[15] Guyon,我。;韦斯顿,J。;巴恩希尔,S。;Vapnik,V.,使用支持向量机进行癌症分类的基因选择,Mach。学习。,46, 389-422 (2002) ·Zbl 0998.68111号
[16] 他,X。;蔡,D。;Niyogi,P.,特征选择的拉普拉斯分数,高级神经信息处理。系统。,507-514 (2005)
[17] 洛杉矶库根。;Cios,K.J。;Tadeusiewicz,R。;奥吉拉,M。;Goodenday,L.S.,自动心脏spect诊断的知识发现方法,Artif。智力。医学,23,149-169(2001)
[18] 曹乐,K.A。;阀盖,A。;Gada,S.,用随机算法进行多类分类和基因选择,计算。统计数据分析。,53, 3601-3615 (2009) ·Zbl 1453.62057号
[19] 李,C。;Shao,Y。;邓,N.,稳健L1-型二维线性判别分析,神经网络。,25, 92-104 (2015) ·Zbl 1394.68298号
[20] 李,H。;姜涛(Jiang,T.)。;Zhang,K.,基于最大裕度准则的高效稳健特征提取,IEEE Trans。神经网络。,17, 1, 157-165 (2006)
[21] 刘,H。;Yu,L.,《面向分类和聚类的集成特征选择算法》,IEEE Trans。知识。数据工程,17,4,491-502(2005)
[22] 刘,B。;方,B。;刘,X。;陈,J。;黄,Z。;何某,特征选择的大边距子空间学习,模式识别。,462798-2806(2013年)·Zbl 1323.68458号
[23] 卢,X。;邓,Y。;Huang,L.,基于共表达模块的癌症识别基因选择,J.Theor。《生物学》,36275-82(2014)·Zbl 1307.92083号
[25] 聂,F。;黄,H。;蔡,X。;Ding,C.,通过联合l2,1范数最小化进行有效且稳健的特征选择,高级神经信息处理。系统。,23, 1813-1821 (2010)
[27] 哦,我说。;Lee,J.S。;Moon,B.R.,特征选择的混合遗传算法,模式分析。机器。智力。,26, 22, 1424-1437 (2004)
[28] Ooi,C.H。;Tan,P.,遗传算法应用于基因表达数据分析的多类预测,生物信息学,19,37-44(2003)
[29] Powell,M.J.D.,非凸极小化计算和共轭梯度法(1984),Springer Berlin Heidelberg·Zbl 0531.65035号
[30] 彭,H。;长,F。;Ding,C.,基于最大相关性、最大相关性和最小冗余的互信息准则的特征选择,IEEE Trans。模式分析。机器。智力。,27, 8, 1226-1238 (2005)
[31] O·理查德。;杜达;彼得·E。;哈特;David,G.,《鹳类模式分类》(2001),John Wiley:John Wiley Sons,纽约·Zbl 0968.68140号
[32] Saeys,Y。;Inza;在;Larrañaga,P.,《生物信息学中的特征选择技术综述》,生物信息学,23,19,2507-2517(2007)
[33] Sharma,A。;Imoto,S。;Miyano,S.,微阵列基因表达数据的top-r特征选择算法。IEEE/ACM传输,计算。生物信息学。,9, 754-764 (2012)
[34] 史,J。;尹,W。;Osher,S。;Sajda,P.A.,大规模l1-正则逻辑回归的快速混合算法,J.Mach。学习。第11713-741号决议(2010年)·兹比尔1242.62078
[35] Sun,S。;彭,Q。;Shakoor,A.,基于核的微阵列数据分类多元特征选择方法,PLoS One,9,7,e102541(2014)
[36] Sugiyama,M.,通过局部fisher判别分析对多模态标记数据进行降维,J.Mach。学习。研究,81027-1061(2007)·兹比尔1222.68312
[37] 孙,Y。;托多罗维奇,S。;Goodision,S.,高维数据分析中基于局部学习的特征选择,IEEE Trans。模式分析。机器。智力。,32, 1610-1626 (2010)
[38] Tan,M。;曾荫权(Tsang,I.)。;Wang,L.,超高维特征选择的Minimax稀疏逻辑回归,IEEE Trans。神经网络。学习。系统。,24, 1609-1622 (2013)
[39] Tibshirani,R.,通过Lasso,J.R.Stat.Soc.B进行回归收缩和选择,58,267-288(1996)·Zbl 0850.62538号
[40] 货车;Veer,L。;戴,H。;van,de;Vijver,M.,基因表达谱预测乳腺癌的临床结局,《自然》,415530-536(2002)
[41] Wang,H。;胡,Z。;郑伟,用L1-形式进行Fisher判别分析,IEEE Trans。赛博。,44, 653-662 (2014)
[42] Wang,L.,具有核类可分性的特征选择,IEEE Trans。模式分析。机器。智力。,30, 1534-1546 (2008)
[44] Wang,Y。;Klijn,J.等人。;Zhang,Y.,预测淋巴结阴性原发性乳腺癌远处转移的基因表达谱,《柳叶刀》,365671-679(2005)
[45] 袁国喜。;Ho,C.H。;Lin,C.J.,《L1正则化逻辑回归和支持向量机的改进GLMNET》,J.Mach。学习。1999年至2003年(2012年)第13号决议·Zbl 1432.68404号
[46] Ye,J。;Janardan,R。;Park,C.H.,欠采样问题广义判别分析的优化准则,IEEE Trans。模式分析。机器。智力。,26, 8, 982-994 (2004)
[47] 赵,Z。;Wang,L。;刘,H。;Ye,J.,《关于保持相似性的特征选择》,IEEE Trans。知识。数据工程,25,619-632(2013)
[48] 钟,F。;Zhang,J.,基于L1-形式最大化的线性判别分析,IEEE Trans。图像处理。,22, 3018-3027 (2013) ·Zbl 1373.94755号
[49] 周,X。;Tuck,D.P.,MSVM-RFE:SVM-RFE在DNA微阵列数据上用于多类基因选择的扩展,生物信息学,231106-1114(2007)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。