×

使用带有拒绝选项的支持向量机进行癌症分类的基因选择和预测。 (英语) Zbl 1328.62586号

摘要:在基于基因表达数据的癌症分类中,最好推迟对难以分类的观察结果的决定。例如,如果观察到癌症的条件概率约为1/2,则最好需要进行更高级的测试,而不是立即做出决定。这促使使用带有拒绝选项的分类器,在难以分类的观察情况下报告警告。在本文中,我们考虑了一个带有拒绝选项的基因选择问题。通常,基因表达数据由数千个候选基因的表达水平组成。在这种情况下,需要一个有效的基因选择程序,以便更好地了解生成数据的潜在生物系统,并提高预测性能。我们提出了一种机器学习方法,将(l_{1})惩罚应用于带有拒绝选项的SVM。这种方法被称为带有拒绝选项的(l_{1})SVM。我们为该SVM开发了一种新的优化算法,该算法能够快速稳定地分析基因表达数据。该算法实现了关于正则化参数的完整求解路径。数值研究结果表明,与标准的(l{1})SVM相比,该方法在不影响基因选择性的情况下有效地减少了预测误差。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
62J07型 岭回归;收缩估计器(拉索)
62-07 数据分析(统计)(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 安布罗斯,C。;McLachlan,G.J.,基于微阵列基因表达数据的基因提取中的选择偏差,美国国家科学院学报,99,6562-6566(2002)·Zbl 1034.92013年
[2] Balakrishnan,S。;Madigan,D.,海量数据中稀疏线性分类器的算法,《机器学习研究杂志》,9,313-337(2008)·Zbl 1225.68148号
[3] Bartlett,P。;Wegkamp,M.H.,使用铰链损失的拒绝选项分类,机器学习研究杂志,91823-1840(2008)·Zbl 1225.62080号
[4] Bertsekas,D.P.,《非线性规划》(2003),雅典娜科学出版社·Zbl 0935.90037号
[5] 巴塔查吉,A。;理查兹,W.G。;斯汤顿,J。;李,C。;蒙蒂,S。;瓦萨,P。;拉德,C。;Beheshti,J.等人。;布埃诺,R。;吉列,M。;Loda,M。;韦伯,G。;马克·E·J。;兰德,E.S。;Wong,W。;约翰逊,B.E。;Golub,T.R。;Sugarbaker,D.J。;Meyerson,M.,《利用MRNA表达谱对人类肺癌进行分类揭示不同的腺癌亚类》,《美国国家科学院院刊》,98,13790-13795(2001)
[6] Chow,C.K.,关于最佳识别错误和拒绝权衡,IEEE信息理论汇刊,16,41-46(1970)·Zbl 0185.47804号
[7] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.,最小角回归,《统计年鉴》,32407-499(2004)·Zbl 1091.62054号
[8] Genkin,A。;刘易斯,D.D。;Madigan,D.,文本分类的大尺度贝叶斯逻辑回归,技术计量学,49,291-304(2007)
[9] Greenstein,E.,最佳子集选择,L1约束下高维统计学习和优化的持久性,《统计年鉴》,342367-2386(2006)·Zbl 1106.62022号
[10] 盖恩,I。;韦斯顿,J。;巴恩希尔,S。;Vapnik,V.,使用支持向量机进行癌症分类的基因选择,机器学习,46,389-422(2002)·Zbl 0998.68111号
[11] 黑尔,E。;尹,W。;Zhang,Y.,L1-最小化的定点延拓:方法论和收敛性,SIAM优化杂志,19,1107-1130(2008)·Zbl 1180.65076号
[12] 霍尔,P。;Marron,J.S。;Neeman,A.,《高维低样本数据的几何表示》,英国皇家统计学会期刊。B系列,67427-444(2005)·Zbl 1069.62097号
[13] 哈斯蒂,T。;Rosset,S。;Tibshirani,R。;Zhu,J.,支持向量机的整个正则化路径,机器学习研究杂志,51391-1415(2004)·Zbl 1222.68213号
[14] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2001),Springer-Verlag:Springer-Verlag纽约·Zbl 0973.62007号
[15] 赫贝,R。;Wegkamp,M.H.,带拒绝选项的分类,《加拿大统计杂志》,34,709-721(2006)·Zbl 1151.62302号
[16] Hong,P。;刘,S。;周,Q。;卢,X。;刘,S。;Wong,H.,利用CHIP芯片数据进行基序建模的增强方法,生物信息学,212636-2643(2005)
[17] Iwao,K。;Matoba,R。;北上野。;安藤忠雄。;三好,Y。;松原,K。;Noguchi,S。;Kato,K.,具有不同预后特性的原发性乳腺肿瘤的分子分类,人类分子遗传学,1199-206(2002)
[18] Kim,J。;金,Y。;Kim,Y.,基于梯度的套索优化算法,计算与图形统计杂志,1994-1009(2008)
[19] Koh,K。;Kim,S.J。;Boyd,S.,大规模L1-正则逻辑回归的内点方法,机器学习研究杂志,81519-1555(2007)·Zbl 1222.62092号
[20] Lendgrebe,C.W。;Tax,M.J。;帕克利克,P。;Duin,P.W.,《基于距离的拒绝分类器的分类和拒绝性能之间的相互作用》,《模式识别快报》,27908-917(2006)
[21] Liao,J.G。;Chin,K.V.,使用微阵列数据进行疾病分类的Logistic回归:大(p)和小(n)病例中的模型选择,生物信息学,231945-1951(2007)
[22] McLachlan,G.J.,《判别分析与统计模式识别》(1992),威利出版社:威利纽约·Zbl 0850.62481号
[23] Meier,L。;van de Geer,S。;Buhlmann,P.,《逻辑回归套索组》,《皇家统计学会杂志》。B系列,70,53-71(2008)·Zbl 1400.62276号
[24] 纽约州帕克。;Hastie,T.,广义线性模型的L1正则化路径算法,英国皇家统计学会杂志。B系列,69,659-677(2007)·Zbl 07555370号
[25] Petricoin,E.F。;Ardekani,A.M。;Hitt,B.A。;莱文,P.J。;Fusaro,V.A。;斯坦伯格,S.A。;米尔斯,G.B。;西蒙,C。;Fishman,D.A。;科恩,东卡罗来纳州。;Liotta,L.A.,利用血清中的蛋白质组模式鉴定卵巢癌,《柳叶刀》,359572-577(2002)
[26] Rosset,S。;Zhu,J.,分段线性正则解路径,《统计年鉴》,351012-1030(2007)·Zbl 1194.62094号
[27] Schwarz,G.,估算模型的维度,《统计年鉴》,第6461-464页(1978年)·Zbl 0379.62005年
[28] 沈,X。;曾国藩。;张,X。;Wong,W.H.,On学习,《美国统计协会杂志》,98,724-734(2003)·Zbl 1052.62095号
[29] Shevade,S.K。;Keerthi,S.S.,《使用稀疏逻辑回归进行基因选择的简单高效算法》,生物信息学,192246-2253(2003)
[30] 辛格,D。;Febbo,P.G。;Ross,K。;杰克逊,D.G。;马诺拉,J。;拉德,C。;Tamayo,P。;Renshaw,A.A。;阿米科公司。;里奇,J.P。;兰德,E.S。;Loda,M。;坎托夫,P.W。;Golub,T.R。;Sellers,W.R.,基因表达与前列腺癌临床行为的相关性,《癌症细胞》,1203-209(2002)
[31] Terrence,S。;克里斯蒂安尼,N。;达菲,N。;Bednarski,D.W。;舒默,M。;Haussler,D.,使用微阵列表达数据对癌症组织样本进行支持向量机分类和验证,生物信息学,16906-914(2000)
[32] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会杂志》。B系列,58267-288(1996)·Zbl 0850.62538号
[33] Tortorella,F.,二进制分类器的最佳拒绝规则,计算机科学讲义,876611-620(2000)·Zbl 0996.68769号
[34] Wang,L。;朱,J。;Zou,H.,用于微阵列分类和基因选择的混合huberized支持向量机,生物信息学,24412-419(2008)
[35] Wegkamp,M.H.,带拒绝选项的Lasso型分类器,《电子统计杂志》,115-168(2007)·Zbl 1320.62153号
[36] Wu,T.T。;Lange,K.,套索惩罚回归的坐标下降算法,应用统计年鉴,224-244(2008)·Zbl 1137.62045号
[37] Yukinawa,N。;奥巴,S。;加藤,K。;谷口,K。;Iwao-Koizumi,K。;Tamaki,Y。;Noguchi,S。;Ishii,S.,基于概率模型的多类预测因子:在基于基因表达谱的甲状腺肿瘤诊断中的应用,BMC生物信息学,71471-2164(2006)
[38] 张,H.H。;Ahn,J。;林,X。;Park,C.,使用非凸惩罚的支持向量机进行基因选择,生物信息学,22,88-95(2006)
[39] 张,H.H。;瓦赫巴,G。;Lin,Y。;沃克尔,M。;费里斯,M。;Klein,R。;Klein,B.,通过似然基追踪进行变量选择和模型构建,《美国统计协会杂志》,99,659-672(2004)·Zbl 1117.62459号
[40] 朱,J。;Rosset,S。;哈斯蒂,T。;Tibshirani,R.,1-范数支持向量机,(Thrun,S.;等人,《神经信息处理系统进展》,第16卷(2004年),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥)
[41] 邹,H。;哈斯蒂,T。;Tibshirani,R.,《关于套索的自由度》,《统计年鉴》,352173-2192(2007)·兹比尔1126.62061
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。