×

一种用于特征选择的鲁棒重新排序方法及其在基于池的GWA研究中的应用。 (英语) Zbl 1275.62076号

摘要:大-(p)-小-(n)数据集在现代生物医学研究中常见。为了检测两组之间的差异,传统方法将无法应用,因为在估计(t)检验中的方差时不稳定,并且AUC(接收器工作特性曲线下的面积)估计中的绑定值比例很高。微阵列(SAM)的显著性分析也可能不令人满意,因为其性能对调谐参数敏感,并且其选择也不简单。在这项工作中,我们提出了一种稳健的再库方法来克服上述困难。特别是,我们基于“等级过变量”的概念,获得了每个特征的基于等级的统计信息。然后,将“随机子集”和“重排”技术迭代应用于特征排序,并选择主要特征进行进一步研究。该方法特别适用于大(p)-小(n)数据集。此外,它对调谐参数的选择不敏感,这对于实际实现来说是一个很有吸引力的特性。基于集合的全基因组关联(GWA)研究的模拟研究和实际数据分析证明了我们的方法的有效性。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] P.Cunningham,《尺寸缩减》,第91-112页,第4章,施普林格出版社,德国柏林,2008年。
[2] H.Hotelling,“将复杂的统计变量分析为主要成分”,《教育心理学杂志》,第24卷,第6期,第417-441页,1933年·doi:10.1037/h0071325
[3] I.Guyon和A.Elisseeff,“变量和特征选择简介”,《机器学习研究杂志》,第3卷,第1157-1182页,2003年·Zbl 1102.68556号 ·doi:10.1162/153244303322753616
[4] Y.Saeys、I.Inza和P.Larrañaga,“生物信息学特征选择技术综述”,《生物信息学》,第23卷,第19期,第2507-2517页,2007年·doi:10.1093/bioinformatics/btm344
[5] J.L.DeRisi、V.R.Iyer和P.O.Brown,“探索基因组尺度上基因表达的代谢和遗传控制”,《科学》,第278卷,第5338期,第680-686页,1997年·doi:10.1126/science.278.5338.680
[6] V.G.Tusher、R.Tibshirani和G.Chu,“应用于电离辐射响应的微阵列的显著性分析”,《美国国家科学院院刊》,第98卷,第9期,第5116-51212001页·2014年12月10日 ·doi:10.1073/pnas.091062498
[7] R.Breitling、P.Armengaud、A.Amtmann和P.Herzyk,“秩乘积:在重复微阵列实验中检测差异调节基因的简单而强大的新方法”,《联邦公报》,第573卷,第1-3期,第83-92页,2004年·doi:10.1016/j.fbslet.2004.07.055
[8] M.Alvo、Z.Liu、A.Williams和C.Yauk,“微阵列实验中平均值和相关性变化的测试:路径分析的应用”,BMC生物信息学,第11卷,第1期,第60条,2010年·doi:10.1186/1471-2105-11-60
[9] F.Chang和J.-C.Chen,“一种用于特征排序和选择的自适应多特征子集方法”,载于《第十五届人工智能技术与应用会议论文集》(TAAI’10),第255-262页,IEEE计算机学会,2010年11月·doi:10.1109/TAAI.2010.50
[10] G.C.Tseng和W.H.Wong,“紧密聚类:识别数据中稳定和紧密模式的基于重采样的方法”,《生物统计学》,第61卷,第1期,第10-16页,2005年·Zbl 1077.62049号 ·文件编号:10.1111/j.0006-341X.2005.031032.x
[11] R.D.Cook和X.Yin,“判别分析中的降维和可视化(讨论)”,《澳大利亚和新西兰统计杂志》,第43卷,第2期,第147-199页,2001年·Zbl 0992.62056号 ·doi:10.1111/1467-842X.00164
[12] T.A.Manolio,L.L.Rodriguez,L.Brooks等人,“全基因组关联研究中合作的新模式:遗传关联信息网络”,《自然遗传学》,第39卷,第9期,第1045-1051页,2007年·doi:10.1038/ng2127
[13] M.D.Mailman、M.Feolo、Y.Jin等人,“NCBI dbGaP基因型和表型数据库”,《自然遗传学》,第39卷,第10期,第1181-1186页,2007年·doi:10.1038/ng1007-1181
[14] S.Purcell,B.Neale,K.Todd-Brown等人,“PLINK:全基因组关联和基于人群的连锁分析的工具集”,《美国人类遗传学杂志》,第81卷,第3期,第559-575页,2007年·doi:10.1086/519795
[15] P.H.Kuo、J.R.Liu、M.K.Lu、R.B.Lu和H.Hung,“使用DNA池对双相情感障碍进行全基因组关联研究”,《亚洲精神病学杂志》,第4卷,增补1,第S38页,2011年。
[16] J.C.Barrett、B.Fry、J.Maller和M.J.Daly,“Haploview:LD和单倍型图的分析和可视化”,《生物信息学》,第21卷,第2期,第263-265页,2005年·doi:10.1093/bioinformatics/bth457
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。