×

基因表达数据的分类:基于流形的度量学习方法。 (英语) Zbl 1103.68769号

摘要:微阵列基因表达数据的分类可能有助于医学诊断,并成为生物信息学的一个重要课题。然而,相对于绝大多数基因,微阵列数据集的样本量通常较小。这使得分类问题相当具有挑战性。基于实例的学习(IBL)算法,例如最近邻(k)-NN),由于其简单性,通常是基准算法。然而,实践表明,(k)-NN在这个领域表现不太好。本文引入基于流形的度量学习来提高IBL方法的性能。利用局部流形结构信息和局部判别信息,提出了一种新的度量学习算法。此外,还提出了一种随机子空间扩展。我们通过三种方式将该算法应用于基因分类问题:一种是在原始特征空间中,另一种是通过约简特征空间,第三种是通过随机子空间扩展。统计评估表明,与传统的IBL算法相比,该算法可以取得很好的结果,并获得显著的性能改进。

MSC公司:

68吨10 模式识别、语音识别
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Golub,T。;斯隆,D。;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,J。;科勒,H。;卢,M。;唐宁,J。;Caligiuri,M。;布隆菲尔德,C。;Lander,E.,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》,286531-537(1999)
[2] van t Veer,L。;戴,H。;Van de Vijver,M。;何毅。;哈特,A。;毛,M。;彼得斯,H。;Van der Kooy,K。;Marton,M。;Witteveen,A。;施赖伯,G。;克尔霍文,R。;罗伯茨,C。;Linsley,P。;Bernards,R。;Friend,S.,基因表达谱预测乳腺癌的临床结局,《自然》,415530-536(2002)
[3] Dougherty,E.R.,微阵列分类的小样本问题,比较功能基因组学,228-34(2001)
[4] Mitchell,T.,《机器学习》(1997),McGraw Hill:纽约McGraw Hill·Zbl 0913.68167号
[5] Theilhaber,J。;康诺利,T。;罗曼·罗曼,S。;布什内尔,S。;A.杰克逊。;Call,K。;加西亚,T。;Baron,R.,通过表达数据的k近邻分类发现c2c12成骨途径中的基因,《基因组研究》,12,1,165-176(2002)
[6] Wu,W。;Xing,E。;我·棉恩。;Bissell,M.,通过k-nn分类评估cdna微阵列数据的标准化方法,BMC生物信息学,6191,1-21(2005)
[7] 盖,T。;Hart,P.,最近邻模式分类,Ann.Statist。,13, 57-67 (1967) ·Zbl 0154.44505号
[8] S.Salzberg,《基于实例学习的距离度量》,《计算机科学讲义》,第542卷,1991年,柏林斯普林格,第399-408页。;S.Salzberg,《基于实例学习的距离度量》,《计算机科学讲义》,第542卷,1991年,柏林斯普林格,第399-408页。
[9] A.Bar-Hille,T.Hertz,N.Shental,D.Weinshall,《利用等价关系学习距离函数》,载《第20届机器学习国际会议论文集》,2003年,第11-18页。;A.Bar-Hille,T.Hertz,N.Shental,D.Weinshall,使用等价关系学习距离函数,收录于:第20届机器学习国际会议(ICML),2003年,第11-18页·Zbl 1222.68140号
[10] 舒尔茨,M。;Joachims,T.,从相对比较中学习距离度量,(Thrun,S.;Saul,L.K.;Schölkopf,B.,神经信息处理系统进展(NIPS)(2004),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥),41-48
[11] Z.Zhang,J.Kwok,D.-Y.Yeung,带标签信息的参数距离度量学习,载《第十八届国际人工智能联合会议论文集》,2003年,第1450-1452页。;Z.Zhang,J.Kwok,D.-Y.Yeung,带标签信息的参数距离度量学习,载《第十八届国际人工智能联合会议论文集》,2003年,第1450-1452页。
[12] 李,S。;Chan,K。;Wang,C.,最近特征线方法在图像分类和检索中的性能评估,IEEE Trans。模式分析。机器。智力。,22, 11, 1335-1349 (2000)
[13] 李,S。;Lu,J.,使用最近特征线方法进行人脸识别,IEEE Trans。神经网络,10,2,439-443(1999)
[14] 文森特,P。;Bengio,Y.,K-局部超平面和凸距离最近邻算法
[15] 西马德,P。;LeCun,Y。;Denker,J.,《使用55个新的转换距离进行高效模式识别》(Hanson,S.J.;Cowan,J.D.;Giles,C.L.,《神经信息处理系统的进展》,57卷5(1993),摩根考夫曼出版社:摩根考夫文出版社,加利福尼亚州洛斯阿尔托斯),50-58
[16] 西马德,P。;LeCun,Y。;Denker,J.S。;Victori,B.,模式识别中的变换不变性-正切距离和切线传播,国际成像系统技术杂志。,11, 3, 181-194 (2001)
[17] 哈斯蒂,T。;西马德,P。;Saeckinger,E.,切线距离的学习原型模型,(Tesauro,G.;Touretzky,D.S.;Leen,T.K.,《神经信息处理系统的进展》,第7卷(1995年),麻省理工学院出版社:麻省理学院出版社剑桥,马萨诸塞州),999-1006
[18] O.Okun,用k-局部超平面距离最近邻算法进行蛋白质折叠识别,摘自:《第二届欧洲生物信息学数据挖掘和文本挖掘研讨会论文集》,意大利比萨,2004年,第51-57页。;O.Okun,《使用k-局部超平面距离最近邻算法进行蛋白质折叠识别》,载于《第二届欧洲生物信息学数据挖掘和文本挖掘研讨会论文集》,意大利比萨,2004年,第51-57页。
[19] 格雷,A.,《曲线和曲面的现代微分几何》(1993),CRC出版社:佛罗里达州博卡拉顿CRC出版社·兹比尔0795.53001
[20] 哈斯蒂,T。;Tibshirani,R.,判别自适应最近邻分类,IEEE Trans。模式分析。机器。智力。,18, 6, 409-415 (1996)
[21] J.Lee,J.Wang,C.Zhang,Z.Bian,概率正切子空间:统一观点,载《第21届机器学习国际会议论文集》,2004年,第528-535页。;J.Lee,J.Wang,C.Zhang,Z.Bian,概率正切子空间:统一观点,载《第21届机器学习国际会议论文集》,2004年,第528-535页。
[22] Girolma,M.,自适应独立分量分析算法的另一种观点,神经计算。,10, 8, 2103-2114 (1998)
[23] 夏皮雷,R。;弗伦德,Y。;Bartlett,P。;Lee,W.S.,《提高差距:投票方法有效性的新解释》,Ann.Statist。,1651-1686年5月26日(1998年)·Zbl 0929.62069号
[24] 麦凯,D.J.C.,《蒙特卡罗方法导论》,(乔丹,M.I.,《图形模型学习》(1998),克鲁沃学术出版社:克鲁沃学术出版公司,多德雷赫特),175-204年·Zbl 0911.65004号
[25] Vapnik,V.,《统计学习理论的本质》(1997),施普林格出版社:纽约施普林格·兹比尔0934.62009
[26] Breiman,L.,《随机森林》,马赫。学习,45,5-32(2001)·Zbl 1007.68152号
[27] Ho,T.K.,构建决策森林的随机子空间方法,IEEE Trans。模式分析。机器。智力。,20, 8, 832-844 (1998)
[28] S.D.Bay,通过多个特征子集组合最近邻分类器,载于:《第15届机器学习国际会议论文集》,1998年,第37-45页。;S.D.Bay,通过多个特征子集组合最近邻分类器,载于:《第15届机器学习国际会议论文集》,1998年,第37-45页。
[29] Alon,A。;北巴尔凯。;诺特曼,D。;Gish,K。;伊巴拉,S。;麦克,D。;Levine,A.,通过寡核苷酸阵列探测肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,Proc。国家。阿卡德。科学。,96, 6745-6750 (1999)
[30] Iizuka,N。;奥卡,M。;Yamada-Okabe,H。;西田,M。;Maeda,Y。;Mori,N。;高雄,T。;Tamesa,T。;Tangoku,A。;Tabuchi,H。;滨田,K。;Nakayama,H。;Ishitsuka,H。;宫本茂,T。;Hirabayashi,A。;内村,S。;Hamamoto,Y.,寡核苷酸微阵列预测肝癌根治性切除术后早期肝内复发,《柳叶刀》,361923-929(2003)
[31] 螺母,C。;Mani,D。;Betensky,R。;Tamayo,P。;凯恩克罗斯,J。;拉德,C。;美国波尔。;哈特曼,C。;麦克劳林,M。;Batchelor,T。;黑色,P。;von Deimling,A。;波默罗伊,S。;Golub,T。;Louis,D.,恶性胶质瘤基于基因表达的分类与生存率的相关性优于组织学分类,《癌症研究》,63,7,1602-1607(2003)
[32] 辛格,D。;Febbo,P。;Ross,K。;Jackson,D。;马诺拉,J。;拉德,C。;Tamayo,P。;伦肖,A。;阿米科。;J.里奇。;兰德,E。;Loda,M。;坎托夫,P。;Golub,T。;Sellers,W.,《基因表达与前列腺癌临床行为的相关性》,《癌症细胞》,1,2,203-209(2003)
[33] Furey,T。;北卡罗来纳州克里斯蒂亚尼尼。;达菲,N。;Bednarski,D。;舒默,M。;Haussler,D.,使用微阵列表达数据对癌症组织样本进行支持向量机分类和验证,生物信息学,16906-914(2000)
[34] 波切特,N。;Smet,F.D。;苏肯斯,J。;Moor,B.D.,微阵列数据分类的系统基准测试,生物信息学,20,17,3185-3195(2004)
[35] Efron,B.,The Jackknife,The Bootstrap,and Other Resampling Plans(1982),SIAM出版社·Zbl 0496.62036号
[36] 司马,C。;布拉加-内托,美国。;Dougherty,E.,Bolsted误差估计为小样本提供了优越的特征集排名,生物信息学,21,7,1046-1054(2005)
[37] 傅伟杰。;卡罗尔·R·J。;Wang,S.,通过bootstrap交叉验证估计小样本误分类错误,生物信息学,21,91979-1986(2005)
[38] C.-C.Chang,C.-J.Lin,Libsvm:支持向量机库,技术报告,(\langle;)网址:http://www.csie.ntu.edu.tw/\(\sim;\rangle;\);C.-C.Chang,C.-J.Lin,Libsvm:支持向量机库,技术报告,(\langle;)网址:http://www.csie.ntu.edu.tw/\(\sim;\rangle;\)
[39] 霍兰德,M。;Wolfe,D.A.,《非参数统计方法》(1999),威利:威利纽约·Zbl 0997.62511号
[40] 徐建中,《多重比较理论与方法》(1996),查普曼与霍尔:查普曼和霍尔伦敦·Zbl 0898.62090号
[41] Yandell,B.S.,设计实验的实际数据分析(1997),查普曼和霍尔:查普曼&霍尔伦敦·Zbl 1056.62500号
[42] Kira,K。;Rendell,L.,《特征选择的实用方法》,(第九届国际机器学习会议论文集(1994),Morgan Kaufmann:Morgan Koufmann Los Altos,CA),249-256
[43] 刘,H。;Motoda,H.,《知识发现和数据挖掘的特征选择》(1998),Kluwer学术出版社:Kluwer学术出版社Dordrecht·Zbl 0908.68127号
[44] M.A.Hall,G.Holmes,离散类数据挖掘的基准属性选择技术。IEEE传输。知识。数据En。15(3)(2003)1-16。;M.A.Hall,G.Holmes,离散类数据挖掘的基准属性选择技术。IEEE传输。知识。数据En。15(3)(2003)1-16。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。