×

从微阵列数据中选择基因用于癌症分类——一种机器学习方法。 (英语) 邮编1095.92040

摘要:DNA微阵列可以同时追踪数千个基因的表达水平。以前的研究表明,这项技术可以用于癌症的分类。癌症微阵列数据通常包含少量样本,这些样本具有大量基因表达水平作为特征。选择与不同类型癌症相关的基因仍然是一个挑战。为了从癌症微阵列数据中提取有用的基因信息并降低维数,本研究对特征选择算法进行了系统研究。
使用基于相关性的特征选择器结合机器学习算法(如决策树、朴素贝叶斯和支持向量机),我们表明在急性白血病和弥漫性大B细胞淋巴瘤微阵列数据集上可以获得至少与已发布结果一样好的分类性能。我们还证明,结合使用不同的分类和特征选择方法,可以高置信度地选择相关基因。这也是第一篇讨论了zyxin参与白血病发生的计算和生物学证据的论文。

MSC公司:

92C40型 生物化学、分子生物学
68T05型 人工智能中的学习和自适应系统
92 C50 医疗应用(通用)

软件:

RankGene公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿加丹格鲁,A。;比切,I。;Ahmed-Choudhury,J。;Nicke,B。;Dammann,R。;Baksh,S。;高,B。;Minna,J。;向下,J。;Maher,E。;Latif,F.,非小细胞肺癌和神经母细胞瘤ras关联域家族1(rassf1a)抑癌基因新基因表达靶点的鉴定,癌症研究,63,17,5344-5351(2003)
[2] Alizadeh,A.A。;M.B.Eisen,R.D。;马,C。;Lossos,I。;罗森瓦尔德,A。;Boldrick,J。;萨贝特,H。;Tran,T。;Yu,X。;鲍威尔,J。;Yang,L。;马蒂·G。;摩尔,T。;哈德森·J·J。;卢,L。;Lewis博士。;Tibshirani,R。;Sherlock,G。;Chan,W。;格雷纳,T。;维森伯格,D。;Armitage,J。;Warnke,R。;利维,R。;Wilson,W。;格雷弗,M。;Byrd,J。;博茨坦,D。;布朗,P。;Staudt,L.M.,通过基因表达谱确定的弥漫性大b细胞淋巴瘤的不同类型,《自然》,403,6769,503-511(2000)
[3] 阿龙,美国。;北巴尔凯。;诺特曼,D。;Gish,K。;伊巴拉,S。;麦克,D。;Levine,A.,通过寡核苷酸阵列探测肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,Proc。国家。阿卡德。科学。,96, 12, 6745-6750 (1999)
[4] 安东尼亚迪斯,A。;Lambert-Lacroix,S。;Leblanc,F.,利用基因表达数据进行肿瘤分类的有效降维方法,生物信息学,19563-570(2003)
[5] 安东诺夫。;特科,I.V。;Mader,M.T。;Budczies,J。;Mewes,H.W.,癌症分类的优化模型:从微阵列表达数据中提取基因交互信息,生物信息学,20644-652(2004)
[6] 克劳福德,A。;Beckerle,M.,粘附连接的82000道尔顿组分——酶蛋白的纯化和表征,J.Biol。化学。,266, 9, 5847-5853 (1991)
[7] 法耶兹,美国。;Irani,K.,用于分类学习的连续值属性的多间隔离散化,(IJCAI-93会议记录,第13届国际人工智能联合会议(1993)),1022-1027
[8] E.弗兰克。;霍尔,M。;Trigg,L。;霍姆斯,G。;Witten,I.H.,使用Weka的生物信息学数据挖掘,生物信息学,202479-2481(2004)
[9] Furey,T.S。;北卡罗来纳州克里斯蒂亚尼尼。;达菲,N。;Bednarski,D.W。;舒默,M。;Haussler,D.,使用微阵列表达数据对癌症组织样本进行支持向量机分类和验证,生物信息学,16906-914(2000)
[10] Golub,T。;斯隆,D。;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,J.H.H.C。;卢,M。;唐宁,J。;Caligiuri,M。;布隆菲尔德,C。;Lander,E.,癌症的分子分类:通过基因表达监测的分类发现和分类预测,科学,286531-537(1999)
[11] 霍尔,文学硕士,1999年。用于机器学习的基于相关性的特征选择。博士论文。怀卡托大学计算机科学系。;霍尔,文学硕士,1999年。用于机器学习的基于相关性的特征选择。博士论文。怀卡托大学计算机科学系。
[12] 原田,K。;Toyooka,S。;Maitra,A。;Maruyama,R。;Toyooka,K。;蒂蒙斯,C。;汤姆林森,G。;Mastrangelo,D。;海伊·R。;Minna,J。;Gazdar,A.,儿童肿瘤和细胞系中rassf1a基因的异常启动子甲基化和沉默,癌基因,21,27,4345-4349(2002)
[13] Hero,A.,基因选择和微阵列数据排名,(《信号处理和应用国际会议论文集》,巴黎,2003年)
[14] Hirota,T。;Morisaki,T。;西山,Y。;Marumoto,T。;Tada,K。;Hara,T。;马萨科,N。;稻垣祯一,M。;Hatakeyama,K。;Saya,H.,Zycin,肌动蛋白丝组装的调节因子,通过与H-warts/lats1肿瘤抑制因子相互作用靶向有丝分裂器,J.Cell Biol。,149, 1073-1086 (2000)
[15] 黄,D。;施密特,W.A。;斯蒂芬诺普洛斯,G。;Stephanopulos,G.,微阵列数据中最小样本量和歧视性表达模式的测定,生物信息学,18,1184-1193(2002)
[16] Inza,I。;Larranaga,P。;布兰科,R。;Cerrolaza,A.,DNA微阵列域中的过滤与包装基因选择方法,Artif。智力。医学,31,2,91-103(2004)
[17] Kira,K。;Rendell,L.A.,《特征选择的实用方法》(第九届机器学习国际会议论文集(1992)),249-256
[18] Kononenko,I.,《估计属性:RELIEF的分析和扩展》,欧洲机器学习会议,171-182(1994)
[19] Langley,P.,机器学习中相关特征的选择,(AAAI秋季相关性研讨会论文集(1994)),140-144
[20] 李,J。;刘,H。;Ng、S.-K。;Wong,L.,《发现癌症诊断数据分类的重要规则》,生物信息学,193ii-102ii(2003)
[21] 李,J。;Wong,L.,使用新兴模式的概念从基因表达谱中识别良好的诊断基因组,生物信息学,18725-734(2002)
[22] 李伟(Li,W.)。;Yang,Y.,判别微阵列数据分析需要多少基因,(微阵列数据的分析方法(2002),Kluwer学术出版社),137-150
[23] Platt,J.,使用序列最小优化快速训练支持向量机。核方法的进展——支持向量学习(1998),麻省理工学院出版社
[24] Press,W.H.,Flannery,B.P.,Teukolsky,S.A.,Vetterling,W.T.,1988年。C中的数字配方。;Press,W.H.,Flannery,B.P.,Teukolsky,S.A.,Vetterling,W.T.,1988年。C中的数字配方·Zbl 0661.65001号
[25] 拉马斯瓦米,南卡罗来纳州。;Tamayo,P。;里夫金,R。;穆克吉,S。;Yeang,C。;安吉洛,M。;拉德,C。;Reich,M。;拉图利佩,E。;梅西洛夫,J。;Poggio,T。;杰拉尔德·W·。;Loda,M。;兰德,E。;Golub,T.,利用肿瘤基因表达特征进行多类癌症诊断,Proc。国家。阿卡德。科学。,98, 26, 15149-15154 (2001)
[26] Salgia,R。;皮西克,E。;萨特勒,M。;李,J。;植村,N。;Wong,W。;伯克,S。;Hirai,H。;Chen,L。;Griffin,J.,p(130^{CAS})与bcr/abl癌基因转化的造血细胞中的适配蛋白crkl形成信号复合物,J.Biol。化学。,271, 41, 25198-25203 (1996)
[27] 苏,Y。;穆拉利,T.M。;巴甫洛维奇,V。;Schaffer,M。;Kasif,S.,Rankgene:基于表达数据的诊断基因识别,生物信息学,19,1578-1579(2003)
[28] 塔沃,S。;帕克·D。;Gery,S。;Vuong,P.等人。;贡巴特,A。;Koefler,H.,bcr-abl+细胞系中c/ebalpha表达的恢复诱导最终粒细胞分化,J.Biol。化学。,278, 52, 52651-52659 (2003)
[29] 托马斯·J·G。;奥尔森,J.M。;Tapscott,S.J。;Zhao,L.P.,利用基因组表达谱发现差异表达基因的高效稳健统计建模方法,《基因组研究》,11227-1236(2001)
[30] 蔡,C.-A。;陈永杰。;Chen,J.J.,用微阵列数据测试差异表达基因,Nucl。《酸类研究》,31,e52(2003)
[31] 范德加格,E。;勒西亚,M。;德克尔,S。;Jalbert,N。;Amodeo,D。;Byers,H.,酵素在黑色素瘤细胞和黑色素细胞的分化细胞扩散和增殖中的作用,J.Invest。皮肤病。,118, 2, 246-254 (2002)
[32] Vapnik,V.N.,《统计学习理论》(1998),威利·Zbl 0935.62007号
[33] Wang,Y。;Gilmore,T.,Zyxin和paxillin蛋白:黏着斑边缘域蛋白去核,《生物化学与生物物理学学报》,1593,2/3,115-120(2003)
[34] Witten,I.H。;Frank,E.,《数据挖掘:Java实现的实用机器学习工具和技术》(1999),Morgan Kaufmann
[35] Xing,E。;乔丹,M。;Karp,R.,高维基因组微阵列数据的特征选择,(第18届机器学习国际会议论文集(2001))
[36] 熊,M。;方,X。;Zhao,J.,通过特征包装物识别生物标记,基因组研究,11,11,1878-1887(2001)
[37] 八木,T。;森本,A。;Eguchi先生。;希比,S。;Sako,M。;石井,E。;Mizutani,S。;Imashuku,S。;Ohki,M。;Ichikawa,H.,识别与儿童急性髓细胞白血病预后相关的基因表达特征,血液,102,5,1849-1856(2003)
[38] Yi,J。;Kloeker,S。;Jensen,C。;博克霍尔特,S。;本田,H。;Hirai,H。;Beckerle,M.,lim蛋白的zyxin家族成员与信号传感器的p130cas家族成员相互作用,J.Biol。化学。,277, 11, 9580-9589 (2002)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。