摘要
背景
结果
结论
背景
方法
二进制分类问题及其性能度量
本研究中使用的生物医学数据集
基于最大信息系数的特征筛选(McOne)
McTwo算法
McTwo的时间强度估计
特征选择性能的比较分析
结果和讨论
McTwo显著减少了McOne选择的功能部件数量
与包装器FS算法的比较
与滤波器FS算法的比较
特征选择算法的外部交叉验证
最佳包装器功能并不总是按过滤算法排名靠前
McTwo选择特征的生物学推断
结论
工具书类
Diao G,Vidyashankar AN。评估大p小n问题的全基因组统计意义。 遗传学。 2013; 194(3):781–3. Philip Chen CL,Zhang C-Y.数据密集型应用、挑战、技术和技术:大数据调查。 信息科学。 2014; 275:314–47. Sommerfield RKaD公司。 使用包装方法的特征子集选择:过拟合和动态搜索空间拓扑。 在:KDD-95诉讼中。 1995年,第192-7页。 Dash M,Liu H.分类特征选择。 智能数据分析。 1997; 1(1):131–56. Guyon I,Elisseeff A.变量和特征选择简介。 马赫学习研究杂志2003; 3:1157–82. 刘华,于磊。面向分类和聚类的特征选择算法集成。IEEE Trans-Knowl数据工程,2005; 17(4):491–502. Tibshirani R,Hastie T,Narasimhan B,Chu G.通过基因表达的收缩质心诊断多种癌症类型。 美国国家科学院院刊,2002年; 99(10):6567–72. 邓HT,Runger G.通过正则化树进行特征选择。 伊伊克恩。 2012 Baldi P,Long AD。微阵列表达数据分析的贝叶斯框架:基因变化的正则化t检验和统计推断。 生物信息学。 2001; 17(6):509–19. Liu WM、Mei R、Di X、Ryder TB、Hubbell E、Dee S、Webster TA、Harrington CA、Ho MH、Baid J等。用符号秩调用算法分析高密度表达微阵列。 生物信息学。 2002; 18(12):1593–9. 瑞典JA。 心理学和诊断学中的信号检测理论和ROC分析:论文集。 希尔斯代尔:劳伦斯·埃尔鲍姆联合公司; 1996. 霍尔MA。离散类和数值类机器学习的基于相关性的特征选择。 收录:兰利·P等人,《第17届国际计算机会议旧金山学习程序》(Proc of the 17th Intl Conf Machine Learning San Francisco)。 美国加利福尼亚州旧金山:Morgan Kaufmann Publishers; 2000:359-366. Xing EP,Jordan MI,Karp RM。高维基因组微阵列数据的特征选择。 位于:ICML:2001,美国加利福尼亚州旧金山。Citeser:601-608。 Reshef DN、Reshef YA、Finucane HK、Grossman SR、McVean G、Turnbaugh PJ、Lander ES、Mitzenmacher M、Sabeti PC。在大数据集中检测新关联。 科学。 2011; 334(6062):1518–24. 郭鹏,罗毅,麦庚,张敏,王庚,赵敏,高磊,李芳,周芳。基于基因表达谱的银屑病分类模型。 基因组学。 2014; 103(1):48–55. Liu Y,Li B,Tan R,Zhu X,Wang Y.一种梯度增强方法,用于筛选亲代-后代三联体中的从头突变。 生物信息学。 2014; 30(13):1830–6. Nguyen DH、Patrick JD。 监督放射学报告分类中的机器学习和主动学习。 美国医学通报协会2014年; 21(5):893–901. Yu C-C、Yang J-C、Chang Y-C、Chung J-G、Lin C-W、Wu M-S、Chow L-P。VCP磷酸化依赖性相互作用伙伴可防止幽门螺杆菌感染的胃上皮细胞凋亡。 普洛斯一号。 2013; 8(1):e55724。 Liu K-H,Huang D-S。使用轮换森林进行癌症分类。 计算机生物医学2008; 38(5):601–10. Alon U、Barkai N、Notterman DA、Gish K、Ybara S、Mack D、Levine AJ。 寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。 美国国家科学院院刊1999; 96(12):6745–50. Golub TR、Slonim DK、Tamayo P、Huard C、Gaasenbeek M、Mesirov JP、Coller H、Loh ML、Downing JR、Caligiuri MA等。癌症的分子分类:通过基因表达监测进行分类发现和分类预测。科学。 1999; 286(5439):531–7. Shipp MA、Ross KN、Tamayo P、Weng AP、Kutok JL、Aguiar RC、Gaasenbeek M、Angelo M、Reich M、Pinkus GS等人。通过基因表达谱和监督机器学习预测弥漫性大B细胞淋巴瘤结果。 《国家医学》,2002年; 8(1):68–74. Singh D、Febbo PG、Ross K、Jackson DG、Manola J、Ladd C、Tamayo P、Renshaw AA、D'Amico AV、Richie JP等。基因表达与前列腺癌临床行为的相关性。 癌细胞。 2002; 1(2):203–9. Chiaretti S、Li X、Gentleman R、Vitale A、Vignetti M、Mandelli F、Ritz J、Foa R。成人T细胞急性淋巴细胞白血病的基因表达谱确定了对治疗和生存有不同反应的不同患者亚群。 鲜血。 2004; 103(7):2771–8. Pomeroy SL、Tamayo P、Gaasenbeek M、Sturla LM、Angelo M、McLaughlin ME、Kim JY、Goumnerova LC、Black PM、Lau C等。基于基因表达的中枢神经系统胚胎性肿瘤预后预测。 自然。 2002; 415(6870):436–42. Alizadeh AA、Eisen MB、Davis RE、Ma C、Lossos IS、Rosenwald A、Boldrick JG、Sabet H、Tran T、Yu X等人。通过基因表达谱确定的不同类型的弥漫性大B细胞淋巴瘤。 自然。 2000; 403(6769):503–11. 诺特曼DA、阿隆·U、西尔克AJ、莱文AJ。 寡核苷酸阵列检测大肠腺瘤、腺癌和正常组织的转录基因表达谱。 癌症研究,2001年; 61(7):3124–30. Tian E、Zhan F、Walker R、Rasmussen E、Ma Y、Barlogie B、Shaughnessy Jr JD。 Wnt-signaling拮抗剂DKK1在多发性骨髓瘤溶骨性病变发展中的作用。 《新英格兰医学杂志》,2003年; 349(26):2483–94. Wu YH、Grabsch H、Ivanova T、Tan IB、Murray J、Ooi CH、Wright AI、West NP、Hutchins GGA、Wu J等。综合基因组荟萃分析确定肿瘤内基质是胃癌患者生存的预测因素。 内脏。 2013; 62(8):1100–11. Wang GS,Hu N,Yang HH,Wang LM,Su H,Wang CY,Clifford R,Dawsey EM,Li JM,Ding T等。中国高危人群贲门癌和非贲门癌全球基因表达的比较。 普洛斯一号。 2013; 8(5):e63826。 Levy H、Wang X、Kaldunski M、Jia S、Kramer J、Paveletich SJ、Reske M、Gessel T、Yassai M、Quasney MW等。转录特征作为1型糖尿病的疾病特异性和预测性炎症生物标志物。 基因免疫。 2012; 13(8):593–604. Krug T、Gabriel JP、Taipa R、Fonseca BV、Domingues-Montanari S、Fernandez-Cadenas I、Manso H、Gouveia LO、Sobral J、Albergaria I等。TTC7B通过几种全基因组方法的融合,成为缺血性中风的新风险因素。 《Cerebr Blood F Met杂志》。 2012; 32(6):1061–72. Irizarry RA、Hobbs B、Collin F、Beazer-Barclay YD、Antonellis KJ、Scherf U、Speed TP。 高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。 生物统计学。 2003; 4(2):249–64. 王玉霞,黄宏。利用表达数据重建基因网络的统计方法综述。 理论生物学杂志。 2014; 362:53–62. 江B、叶C、刘JS。 通过动态切片进行非参数K样本测试。 美国统计协会杂志2014:00-00。 Yu L,Liu H.通过相关性和冗余分析进行有效的特征选择。 J Mach Learn Res.2004; 5:1205–24. 统计学习理论的本质。 第二版,纽约:施普林格出版社; 1999 张海。探索朴素贝叶斯最优性的条件。 国际J模式识别。 2005; 19(2):183–98. Jason D、Rennie LS、Jaime T、David K。处理朴素贝叶斯文本分类器的错误假设。 收录:Mishra TFaN编辑。 第十二届国际机器学习会议(ICML):2003年8月21日至24日; 华盛顿特区。 AAAI出版社; 2003. 616-623. Breiman L、Friedman JH、Olshen RA、Stone CJ。 分类和回归树。 蒙特雷:华兹华斯和布鲁克斯/科尔高级图书与软件公司; 1984 Cover TM,Hart PE。最近邻模式分类。 Ieee T信息理论。 1967; 13(1):21. -+. Cawley GC,Talbot NL.关于模型选择中的过度拟合和性能评估中的后续选择偏差。 J Mach Learn Res.2010; 99:2079–107. 基于BouléM.压缩的选择性朴素贝叶斯分类器平均。 J Mach Learn Res.2007; (3):1659-1685. Braga Neto UM,Dougherty ER。交叉验证对小样本微阵列分类有效吗? 生物信息学。 2004; 20(3):374–80. Ambroise C,McLachlan GJ公司。 基于微阵列基因表达数据的基因提取中的选择偏差。 美国国家科学院院刊,2002年; 99(10):6562–6. Varma S,Simon R.使用交叉验证进行模型选择时的误差估计偏差。 BMC生物信息学。 2006; 7:91. Guyon I,Weston J,Barnhill S,Vapnik V.使用支持向量机进行癌症分类的基因选择。 马赫学习。 2002; 46(1-3):389–422. Demšar J.多数据集分类器的统计比较。 J Mach Learn Res.2006; 7:1–30. Oh J-H,Yang JO,Hahn Y,Kim M-R,Byun S-S,Jeon Y-J,Kim J-M,Song K-S,Noh S-M,Kim S.人类胃癌的转录组分析。 哺乳动物基因组。 2005; 16(12):942–54. Liu C-y WMC,Chen F,Ter-Minassian M,Asoming K,Zhai R,Wang Z,Su L,Heist RS,Kulke MH.食管腺癌风险的大规模遗传关联研究。 致癌。 2010; 31(7):1259–63. Tanaka A、Weinel S、Nagy N、O'Driscoll M、Lai-Cheong JE、Kulp-Shorten CL、Knable A、Carpenter G、Fisher SA、Hiragun M.常染色体显性口咽癌综合征中ATR基因突变。 美国人类遗传学杂志。 2012; 90(3):511–7. Zighelboim I、Schmidt AP、Gao F、Thaker PH、Powell MA、Rader JS、Gibb RK、Mutch DG、Goodfellow PJ。 子宫内膜样子宫内膜癌中ATR突变与不良临床结局相关。 临床肿瘤学杂志。 2009; 27(19):3091–6. Heikkinen K,Mansikka V,Karppinen S-M,Rapakko K,Winqvist R.乳腺癌和卵巢癌家族中ATR基因的突变分析。 2005年乳腺癌研究; 7(4):R495–501。 Andersson AF,Banfield JF。天然微生物群落中的病毒种群动态和获得的病毒抗性。 科学。 2008; 320(5879):1047–50. Sjöblom T、Jones S、Wood LD、Parsons DW、Lin J、Barber TD、Mandelker D、Leary RJ、Ptak J、Silliman N。人类乳腺癌和结直肠癌的共识编码序列。 科学。 2006; 314(5797):268–74. Ivanova AV、Goparaju CM、Ivanov SV、Nonaka D、Cruz C、Beck A、Lonardo F、Wali A、Pass HI。 HAPLN1及其IgV结构域在恶性胸膜间皮瘤中的致瘤作用。 2009年临床癌症研究; 15(8):2602–11. Bailey SD、Xie C、Do R、Montpetit A、Diaz R、Mohan V、Keavney B、Yusuf S、Gerstein HC、Engert JC。 在使用雷米普利和罗格列酮药物(DREAM)进行糖尿病减轻评估的研究中,NFATC2位点的变异增加了噻唑烷二酮诱导水肿的风险。 糖尿病护理。 2010; 33(10):2250–3.
致谢
基金
作者信息
作者和附属机构
通讯作者
其他信息
竞争性利益
作者的贡献
其他文件
附加文件1:图S1。
权利和权限
关于本文
引用这篇文章
收到 : 认可的 : 出版 : 内政部 : https://doi.org/10.1186/s12859-016-0990-0