×

嵌入熵的序列支持向量回归用于SNP选择和疾病分类。 (英文) 兹比尔07260284

摘要:通过单核苷酸多态性(SNP)结构与常见疾病的全基因组关联来综合评估常见遗传变异是当前人类基因组研究的热点领域。为了实现成本更低、速度更快的诊断,需要使用先进的计算方法来选择对常见复杂疾病具有最高预测准确性的最小SNP。在本文中,我们提出了一个具有嵌入熵算法的序列支持向量(SV)回归模型,以处理冗余,从而选择对疾病具有最佳预测性能的SNPs。我们实现了我们提出的SNP选择和疾病分类方法,并将其应用于模拟数据集和两个实际疾病数据集。结果表明,平均而言,我们提出的方法优于支持向量机递归特征消除(SVMRFE)、逻辑回归、分类和回归树(CART)以及基于逻辑回归的SNP选择等著名的疾病分类方法。

MSC公司:

62至XX 统计
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 国际HapMap联盟,国际HapMap项目,《自然》426(2003),789-796。
[2] 国际HapMap联合会,将伦理和科学纳入国际HapMap项目,Nat Rev Genet 5(2004),467-475。
[3] 国际单体型图联盟,人类基因组的单体型图,《自然》437(2005),1299-1320。
[4] C.S.Carlson、M.A.Eberle、M.J.Rieder、Q.Yi、L.Kruglyak和D.A.Nickerson,“利用连锁不平衡为关联分析选择一组信息量最大的单核苷酸多态性”,《美国人类遗传学杂志》74(2004),106-120。
[5] K.Zhang和L.Jin,HaploBlockFinder:单倍型块分析,生物信息学19(2003),1300-1301。
[6] J.Li和T.Jiang,通过直接数据挖掘进行基于单倍体的连锁不平衡映射,生物信息学21(2005),4384-4393。
[7] S.Ao、K.Yip、M.Ng、D.Cheung、P.Y.Fong、I.Melhado和P.C.Sham,CLUSTAG:选择标记SNP的层次聚类和图形方法,生物信息学21(8)(2005),1735-1736。
[8] Z.Lin和R.B.Altman,利用主成分分析发现单倍型标记SNP,《美国人类遗传学杂志》75(2004),850-861。
[9] D.H.Benjamin和J.C.Nicola,用于选择捕获基因内遗传变异的最佳SNP集的主成分分析,《基因流行病学》26(1)(2004),11-21。
[10] H.T.Toivonen、P.Onkamo、K.Vasko、V.Ollikainen、P.Sevon、H.Mannila、M.Herr和J.Kere,《数据挖掘在连锁不平衡映射中的应用》,《美国人类遗传学杂志》67(1)(2000),133-145。
[11] L.Beckmann、D.C.Thomas、C.Fischer和J.ChangClaude,使用Mantel统计进行单倍型共享分析,Hum Hered 59(2005),67-78。
[12] D.J.Schaid,《遗传标记与疾病使用病例及其父母关联性的一般评分测试》,《基因流行病学》第13期(1996年),第423-449页。
[13] D.J.Schaid、C.M.Rowland、D.E.Tines、R.M.Jacobson和G.A.Poland,连锁阶段不明确时性状和单倍型之间关联的得分测试,《美国人类遗传学杂志》70(2002),425-443。
[14] A.M.Levin、D.Ghosh、K.R.Cho和S.L.Kardia,用于识别人类肿瘤中基因表达极端染色体区域的基于模型的扫描统计,生物信息学21(2005),2867-2874。
[15] B.Neale和P.Sham,《关联研究的未来:基于基因的分析和复制》,《美国人类遗传学杂志》第75期(2004年),第353-362页。
[16] K.Song和R.C.Elston,《病例对照研究中结合关联测量和Hardy-Weinberg不平衡进行精细绘制的有力方法》,《Stat Med》25(2006),105-126。
[17] E.C.Anderson和J.Novembre,《利用最小描述长度原则寻找单倍型块边界》,《美国人类遗传学杂志》73(2003),336-354。
[18] H.Mannila、M.Koivisto、M.Perola、T.Varilo、W.Hennah、J.Ekelund、M.Lukk、L.Peltonen和E.Ukkonen,最小描述长度块查找器,识别单倍型块和比较块边界强度的方法,Am J Hum Genet 73(2003),86-94·兹比尔1256.92038
[19] J.Hampe、S.Schreiber和M.Krawczak,遗传关联研究中基于熵的SNP选择,《人类遗传学》114(2003),36-43。
[20] J.Zhao、E.Boerwinkle和M.Xiong,《全基因组关联研究的基于熵的统计》,《美国人类遗传学杂志》77(2005),27-40。
[21] Y.V.Sun、A.M.Levin、E.Boerwinkle、H.Robertson和S.L.Kardia,识别SNP关联染色体模式的扫描统计,《基因流行病学》30(7)(2006),627-635。
[22] H.Schwender和K.Ickstadt,《使用逻辑回归识别SNP相互作用》,生物统计学9(1)(2008),187-1988·Zbl 1274.62872号
[23] L.Breiman、J.H.Friedman、R.A.Olshen和C.J.Stone,《分类和回归-特雷斯》,加利福尼亚州贝尔蒙特,沃兹沃斯,1984年·Zbl 0541.62042号
[24] L.Breiman,《随机森林》,《马赫学习》45(2001),5-32·Zbl 1007.68152号
[25] Y.Liang和A.Kelemen,复杂疾病基因组研究中分析相关高维SNP数据的统计进展和挑战,Stat Surv 2(2008),43-60。(电子)。DOI:10.1214/07-SS026·Zbl 1196.62144号
[26] 王立群,朱建群,邹浩,双正则支持向量机,Stat Sin 16(2006),589-615·Zbl 1126.68070号
[27] W.Sun和T.Cai,Oracle和错误发现率控制的自适应复合决策规则,美国统计协会杂志102(2007),901-912·Zbl 1469.62318号
[28] T.N.Lal、O.Chapelle、J.Weston和A.Elisseeff,嵌入式方法,《特征提取:基础和应用》,I.Guyon、S.Gunn、M.Nikravesh和L.A.Zadeh编辑,德国柏林,Springer,2006年。
[29] D.J.C.MacKay,《信息理论、推理和学习算法》,伦敦,剑桥大学出版社,2003年,第4章,73-74·Zbl 1055.94001号
[30] M.Care、C.Needham、A.Bulpitt和D.Westhead,《有害SNP预测:注意你的训练数据》,生物信息学23(6)(2007),664-672。
[31] V.N.Vapnik,《统计学习理论的本质》,纽约,斯普林格·弗拉格出版社,1995年·Zbl 0833.62008号
[32] V.N.Vapnik,《统计学习理论》,纽约,威利出版社,1998年·Zbl 0935.62007号
[33] C.J.C.Burges,《模式识别支持向量机教程》,《Data Min Knowl Discov 2(2)》(1998),第121-167页。
[34] A.J.Smola和B.S.Lkopf,支持向量回归教程,Stat Comput 14(2004),199-222。
[35] S.Mukherjee、E.Osuna和F.Girosi,使用支持向量机对混沌时间序列进行非线性预测,IEEE神经网络信号处理研讨会论文集7,佛罗里达州阿米利亚岛,美国,1997年,511-519。
[36] M.Stitson、A.Gammerman、V.Vapnik、V.Vovk、C.Watkins和J.Weston,《ANOVA分解核的支持向量回归》,核方法进展——支持向量学习,B.Scholkopf,
[37] F.Girosi,稀疏近似和支持向量机之间的等价性,神经计算10(6)(1998),1455-1480。
[38] Y.Liang和A.Kelemen,调节神经网络的时间基因表达分类,国际生物信息研究应用1(4)(2005),399-413。
[39] I.Guyon、J.Weston、S.Barnhill和V.N.Vapnik,使用支持向量机进行癌症分类的基因选择,《马赫学习》46(1-3)(2002),389-422·Zbl 0998.68111号
[40] J.F.Cao和T.Braak,智能对比和和的L1正则化回归(ROSCAS)击败了潜在变量模型中的PLS和弹性网,《化学杂志》23(5)(2009),217-228。
[41] C.Leng、Y.Lin和G.Whaba,关于套索和模型选择中的相关程序的注释。《中国统计》16(2006),1273-1284·Zbl 1109.62056号
[42] R.Cheng,J.Z.Ma,F.A.Wright,S.Lin,X.Gao,D.Wang,R.C.Elston,和M.D.Li,使用多个紧密连接的单核苷酸多态性标记的单倍型进行功能位点的非参数不平衡映射,遗传学164(2003),1175-1187。
[43] Z.Meng、D.V.Zaykin、C.F.Xu、M.Wagner和M.G.Ehm,利用连锁不平衡和单倍型选择关联分析的遗传标记,《美国人类遗传学杂志》73(2003),115-130。
[44] C.E.Shannon,《通信数学理论》,《贝尔系统技术杂志》,27(1948),379-423·Zbl 1154.94303号
[45] J.H.Witte、A.H.Schnell、H.J.Cordell、L.Almasy和J.W.MacCCluer,(编辑),《遗传分析研讨会15:基因组数据设计和分析摘要》,《基因流行病学31》(补充1)(2007年),S1-S148。
[46] M.B.Miller、G.R.Lind、N.Li和S.Y.Jang,《遗传分析研讨会15:模拟核心家族中类风湿关节炎的复杂遗传模型,包括标记基因座和性状基因座之间连锁不平衡的密集SNP图》,BMC Proc 1(Suppl 1)(2007),S4。
[47] D.Jawaheer、M.Seldin、C.Amos、W.Chen、R.Shigeta、J.Monteiro、M.Kern、L.Criswell、S.Albani、J.Nelson、D.Clegg、R.Pope、H.Schroeder、Jr、S.Bridges,Jr、D.Pisetsky、R.Ward、D.Kastner、R.Wilder、T.Pincus、L.Callahan D.Flemming、M.Wener和P.Gregersen,多重类风湿关节炎家族的全基因组筛查表明基因与其他自身免疫性疾病重叠,《美国人类遗传学杂志》68(2001),927-936。
[48] M。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。