摘要
背景
结果
方法
结论
背景
-
1 设计了一种用于生物标志物选择的混合特征选择方法。 该方法在保证高准确率的同时,注重特征选择过程中结果的稳定性和有效性。 -
2. 将聚类算法与过滤方法和嵌入式方法相结合,用于生物标记物选择。 -
三。 比较评估微阵列数据上各种分类器的性能。 -
4 介绍可用于生物标记物验证的数据集,以证明结果的有效性。
相关工作
结果
非平衡数据集的采样结果
特征选择方法的比较结果
不同分类模型的效果评估
评估建议方法ILRC的有效性
ILRC对CLP数据集的影响评估
讨论
结论
方法
数据集和评估指数
改进的L1正则化方法
K-均值聚类法
改进的基于L1正则化聚类的特征选择方法(ILRC)
![图a](http://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2Fs12859-021-04443-7/MediaObjects/12859_2021_4443_Figa_HTML.png)
数据和材料的可用性
缩写
ILRC公司: -
改进的L1正则化和聚类 法新社: -
甲胎蛋白 投标邀请书: -
递归特征消除 通用航空: -
遗传算法 KNN公司: -
K-最近邻 采购订单: -
粒子群优化 日期: -
决策树 射频: -
随机森林 左后: -
拉索回归 最小值: -
相互信息最大化 AGA公司: -
自适应遗传算法 SFS公司: -
顺序正向选择 ELM公司: -
Exterme学习机 主风险管理报告: -
最小冗余最大相关性 SU公司: -
对称不确定性 HSA公司: -
和谐搜索算法 CLP公司: -
唇腭裂
工具书类
王明,徐忠,丁阿,孔毅。烟草木葡聚糖内切葡糖苷酶/水解酶基因家族的全基因组鉴定和表达谱分析( 烟草 l.)。 基因。 2018; 9(6):273. 罗凯,王刚,李强,陶杰。基于 \(F\) -统计学和mPDC用于癌症分类中的基因选择。 IEEE接入。 2019; 7:147617–28. Ayyad SM、Saleh AI、Labib LM。 使用改进的K-最近邻技术对基因表达癌症进行分类。 2019年生物系统展; 176:41–51. Saeys Y,Inza I,Larrañaga P。生物信息学中特征选择技术综述。 生物信息学。 2007; 23:2507–17. Bolón-Canedo V、Sánchez-Marono n、Alonso-Betanzos A、Benítez JM、Herrera F。微阵列数据集和应用特征选择方法综述。 信息科学。 2014; 282:111–35. Lu H,Chen J,Yan K,Jin Q,Xue Y,Gao Z.一种用于基因表达数据分类的混合特征选择算法。 神经计算。 2017; 256:56–62. Salem H,Attiya G,El-Fishawy N.通过基因表达谱对人类癌症疾病进行分类。 应用软计算。 2017; 50:124–34. Alshamlan H,Badr G,Alohali Y.mRMR ABC:一种使用微阵列基因表达谱进行癌症分类的混合基因选择算法。 生物识别研究国际2015; 2015:604910. Jain I,Jain VK,Jain R.基于相关特征选择的改进二进制粒子群优化用于基因选择和癌症分类。 应用软计算。 2018; 62:203–15. Moradi P,Gholampour M.通过集成一种新的局部搜索策略实现特征子集选择的混合粒子群优化。 应用软计算。 2016; 43:117–30. Shreem SS、Abdullah S、Nazri MZA。 使用对称不确定性和和声搜索算法的混合特征选择算法。 国际系统科学杂志。 2016; 47(6):1312–29. Djellali H,Guessoum S,Ghoualmi Zine N,Layachi S。结合遗传算法和粒子群的快速相关滤波器进行特征选择。 2017年第五届电气工程国际会议——布默德斯(ICEE-B)。 IEEE; 2017年,第1-6页。 Hoeller S、Papaxantos L、Gumpinger AC、Fischer K、Beisel C、Borgwardt K、Benenson Y、Jeschek M。基于大规模DNA的表型记录和深度学习能够实现高度准确的序列功能映射。 bioRxiv(2020)。 Liang L、Rasmussen M-LH、Piening B、Shen X、Chen S、Röst H、Snyder JK、Tibshirani R、Skotte L、Lee NC等。孕妇的代谢动力学和孕龄及分娩时间预测。 单元格。 2020; 181(7):1680–92. Chierici M、Bussola N、Marcolini A、Francescatto M、ZandonáA、Trastulla L、Agostinelli C、Jurman G、Furlanello C。集成网络融合:分子剖析中的多组学方法。 bioRxiv(2020)。 Norman KC、O'Dwyer DN、Salisbury ML、DiLillo KM、Lama VN、Xia M、Gurczynski SJ、White ES、Flaherty KR、Martinez FJ等。识别与IPF进展相关的血液和BAL中的独特时间特征。 科学报告2020; 10(1):1–15. Huang L,Wang L,Hu X,Chen S,Tao Y,Su H,Yang J,Xu W,Vedarethinam V,Wu S,等。血清代谢模式的机器学习编码早期肺腺癌。 国家公社。 2020; 11(1):1–11. Han C-L,Sheng Y-C,Wang S-Y,Chen Y-H,Kang J-H。血清蛋白质组分析揭示了女性纤维肌痛综合征相关的失调蛋白和机制。 科学报告2020; 10(1):1–11. Pd A,Mg B,Lv A。使用选举方法和等级聚类进行集成特征选择。信息科学。 2019; 480:365–80. Kolde R,Laur S,Adler P,Vilo J.基因列表整合和荟萃分析的稳健秩聚合。 生物信息学。 2012; 4:573. Chen Y,Wang X,Lu S,Huang J,Zhang L,Hu W.孕妇血清α-脂肪蛋白变体(AFP-L2和AFP-L3)预测胎儿开放性神经管缺陷和腹壁缺陷的诊断准确性。 临床化学学报。 2020; 507:125–31. Harrison MR、Adzick NS。 胎儿作为病人。 手术注意事项。 Ann Surg,1991年; 213(4):279. Kavitha K,Prakasan A,Dhrishya P.癌症分类基因表达数据的基于评分的特征选择。 2020年第四届计算方法与通信国际会议(ICCMC)。 IEEE; 2020年,第261-266页。 Hsu H-H,Hsieh C-W,Lu M-D。组合滤波器和包装器的混合特征选择。 专家系统应用。 2011; 38(7):8144–50. 陈杰,宋A,张伟。基于ReliefF和FCBF的杂交基因选择新方法。 国际J数字内容技术应用。 2011; 5(10):404–11. Zhang Y,Ding C,Li T.ReliefF和MRMR相结合的基因选择算法。BMC基因组学。 2008; 9(S2):27。 Kononenko I,Šimec E,Robnik-Šikonja M.用ReliefF克服归纳学习算法的短视性。 应用智能。 1997; 7(1):39–55. Zhou N,Wang L.一种改进的t检验特征选择方法及其在HapMap基因型数据中的应用。 基因组蛋白质组学生物信息。 2007; 5(3–4):242–9. Liu H,Setiono R.Chi2:数字属性的特征选择和离散化。 收录:第七届IEEE人工智能工具国际会议论文集。 IEEE; 1995年,第388-391页。 Lin C,Miller T,Dligach D,Plenge R,Karlson E,Savova G。临床文档分类特征选择的最大信息系数。 In:ICML临床数据机器学习研讨会。 爱丁堡,2012年。 Raileanu LE,Stoffel K。基尼指数和信息获取标准之间的理论比较。《数学年鉴》。 2004; 41(1):77–93. Hall M.Smith L.机器学习的实用特征子集选择。 摘自:第21届澳大利亚计算机科学会议论文集; 1996年,第98卷。 顾Q,李忠,韩J.特征选择的广义fisher评分。 arXiv预印本 arXiv:1202.3725 (2012). He X、Cai D、Niyogi P.Laplacian对特征选择进行评分。 神经信息处理系统的进展; 2005年,第18卷。 Wang A,An N,Yang J,Chen G,Li L,Alterovitz G.基于马尔可夫毯的包装基因选择。 计算机生物医学。2017; 81:11–23. Haury A-C、Mordelte F、Vera-Licona P、Vert J-P。TIGRESS:利用稳定性选择对基因调控进行可信推断。 BMC系统生物。 2012; 6(1):145. Yan K,Zhang D.采用递归特征消除法对相关气体传感器数据进行特征选择和分析。 传感器执行器B化学。 2015; 212:353–63. Li X,Xiao N,Claramunt C,Lin H.提高p-中值问题遗传算法性能的初始化策略。 计算工业工程2011; 61(4):1024–34. Kar S,Sharma KD,Maitra M.从微阵列基因表达数据中进行基因选择,以利用PSO和自适应k最近邻技术对癌症亚组进行分类。 专家系统应用。 2015; 42(1):612–27. Trelea IC公司。 粒子群优化算法:收敛性分析和参数选择。 Inf过程许可。 2003; 85(6):317–25. Stein G、Chen B、Wu AS、Hua KA。 基于GA特征选择的网络入侵检测决策树分类器。 附:第43届东南地区年会会议记录第2卷; 2005年,第136-141页。 Chen K-H,Wang K-J,Tsai M-L,Wang K-M,Adrian AM,Cheng W-C,Yang T-S,Teng N-C,Tan K-P,Chang K-S。癌症识别的基因选择:由粒子群优化算法授权的决策树模型。 BMC生物信息。 2014; 15(1):49. Fonti V,Belitser E.使用套索进行特征选择。 VU Amst Res纸质总线分析。 2017; 30:1–25. Almugren N,Alshamlan H。癌症分类微阵列基因表达数据中混合特征选择方法的调查。 IEEE接入。 2019; 7:78533–48. Yan X,Nazmi S,Erol BA,Homaifar A,Gebru B,Tunstel E。通过特征聚类的高效无监督特征选择程序。模式识别快报。 2020; 131:277–84. 朱鹏,徐强,胡强,张C.共同规范无监督特征选择。 神经计算。 2018; 275:2855–63. Hasan MM、Basith S、Shamima KM、Lee G、Kurata H.Meta-i6mA:鉴定DNA的种间预测因子 \(N^6\) -植物基因组的甲基腺嘌呤位点,在综合机器学习框架中利用信息特征。生物信息简介。 2020; 22时:bbaa202。 Mehedi HM、Nalini S、Shaherin B、Gwang L、Watshara S、Balachandran M.HLP红细胞融合:通过融合多个特征表示,对溶血肽及其活性进行改进和稳健的预测。 生物信息学。 2020; 36(11):3350–6. Mehedi HM、Ashad AM、Watshara S、Deng HW、Balachandran M、Hiroyuki K.NeuroPred-FRL:一个可解释的预测 使用特征表示学习识别神经肽的模型。 简要生物信息。 2021 https://doi.org/10.1093/bib/bbab167 . 钟磊,高旭,王忠。一种新的基于k-均值的非平衡数据集改进Somte算法。 数学实践理论。 2015; 45:198–206. Golub TR,Slonim DK,Tamayo P,Huard C,Lander ES。癌症的分子分类:通过基因监测进行分类发现和分类预测。科学。 1999; 286(5439):531–7. Shipp MA、Ross KN、Tamayo P、Weng AP、Kutok JL、Aguiar RC、Gaasenbeek M、Angelo M、Reich M、Pinkus GS等。通过基因表达谱和监督机器学习预测弥漫性大b细胞淋巴瘤结果。 《国家医学杂志》,2002年; 8(1):68–74. Singh D、Febbo PG、Ross K、Jackson DG、Manola J、Ladd C、Tamayo P、Renshaw AA、D'Amico AV、Richie JP等。基因表达与前列腺癌临床行为的相关性。 癌细胞。 2002; 1(2):203–9. Chiaretti S、Li X、Gentleman R、Vitale A、Vignetti M、Mandelli F、Ritz J、Foa R。成人t细胞急性淋巴细胞白血病的基因表达谱确定了对治疗和生存有不同反应的不同患者亚群。 鲜血。 2004; 103(7):2771–8. Pomeroy SL、Tamayo P、Gaasenbeek M、Sturla LM、Angelo M、McLaughlin ME、Kim JY、Goumnerova LC、Black PM、Lau C等。基于基因表达的中枢神经系统胚胎性肿瘤预后预测。 自然。 2002; 415(6870):436–42. Alizadeh AA、Eisen MB、Davis RE、Ma C、Lossos IS、Rosenwald A、Boldrick JC、Sabet H、Tran T、Yu X等。通过基因表达谱确定的不同类型的弥漫性大b细胞淋巴瘤。 自然。 2000; 403(6769):503–11. 诺特曼DA、阿隆·U、西尔克AJ、莱文AJ。 寡核苷酸阵列检测大肠腺瘤、腺癌和正常组织的转录基因表达谱。 2001年癌症研究; 61(7):3124–30. Alon U、Barkai N、Notterman DA、Gish K、Ybara S、Mack D、Levine AJ。 寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。 国家科学院院刊。 1999; 96(12):6745–50. Golub T.R、Slonim D.K、Tamayo P、Huard C、Gaasenbeek M、Mesirov J.P、Coller H、Loh M.L、Downing J.R、Caligiuri M.A等。癌症的分子分类:通过基因表达监测进行类别发现和预测。科学。 1999; 286(5439):531–7. Tian E,Zhan F,Walker R,Rasmussen E,Ma Y,Barlogie B,Shaughnessy JD Jr.Wnt-signaling拮抗剂DKK1在多发性骨髓瘤溶骨性病变发展中的作用。 《新英格兰医学杂志》,2003年; 349(26):2483–94. Wu Y、Grabsch H、Ivanova T、Tan IB、Murray J、Ooi CH、Wright AI、West NP、Hutchins GG、Wu J等。综合基因组荟萃分析确定肿瘤内基质是胃癌患者生存的预测因素。 内脏。 2013; 62(8):1100–11. Krug T、Gabriel JP、Taipa R、Fonseca BV、Domingues Montanari S、Fernandez Cadenas I、Manso H、Gouveia LO、Sobral J、Albergaria I等。通过几种全基因组方法的融合,Ttc7b成为缺血性中风的一种新的风险因素。 脑血流代谢杂志。 2012; 32(6):1061–72. 对于疾病控制C,预防等。关于唇裂和腭裂的事实。 CDC.gov公司( http://www.cdc.gov/ncbddd/birthdefects/cleftlip.html ). 2017年2月14日(2014年)查阅。 Reynolds K、Kumari P、Rincon LS、Gu R、Ji Y、Kumar S、Zhou CJ。 口面部裂中的Wnt信号:串话、发病机制和模型。 疾病模型力学。 2019; 12(2):dmm037051。 Honein M、Rasmussen S、Reefhuis J、Moore C、Romitti P、Correa A、Watkins M、Lammer E。孕妇吸烟、环境吸烟和口腔裂伤风险。 《美国流行病学杂志》。 2004; 159:8. Correa A、Gilboa SM、Besser LM、Botto LD、Moore CA、Hobbs CA、Cleves MA、Riehle-Colarusso TJ、Waller DK、Reece EA等。糖尿病和出生缺陷。 美国妇产科学杂志。 2008; 199(3):237-e1。 Margulis AV、Mitchell AA、Gilboa SM、Werler MM、Mittleman MA、Glynn RJ、Hernandez-Diaz S、Study NBDP。 妊娠期使用托吡酯与口腔裂的风险。 美国妇产科学杂志。 2012; 207(5):405-e1。 Werler MM、Ahrens KA、Bosco JL、Mitchell AA、Anderka MT、Gilboa SM、Holmes LB、Study TNBDP。 妊娠期使用抗癫痫药物与出生缺陷风险的关系。 流行病学年鉴。 2011; 21(11):842–50. Worley ML、Patel KG、Kilpatrick LA。唇腭裂。 临床围产期。 2018; 45(4):661–78. Reynolds K、Zhang S、Sun B、Garland MA、Ji Y、Zhou CJ。 口面部裂的遗传学和信号机制。 出生缺陷研究2020; 112:1588–634. Khan MHR,Bhadra A,Howlader T.用AFT模型实现套索、屋脊和弹性网的稳定性选择[J]。 统计应用基因分子生物学。 2019; 18(5). https://doi.org/10.1515/sagmb-2017-0001 布拉德肖RA。 报告下一代指南中的蛋白质鉴定数据。 分子细胞蛋白质组学。 2006; 5(5):787–8. Meinshausen N,Bühlmann P.稳定性选择。 J R Stat Soc系列B Stat方法。 2010; 72(4):417–73. Guo S,Guo D,Chen L,Jiang Q.微阵列数据局部降维的L1规则化特征选择方法。 计算机生物化学。 2017; 67:92–101. Zhou Y,Rong J,Steven H.多任务功能选择专用套索。 J Mach学习研究-JMLR。 2010; 9:988–995. Chormunge S,Jena S.基于相关性的特征选择与高维数据的聚类。 电子系统信息技术杂志。 2018; 5(3):542–9. Witten DM,Tibshirani R.聚类中的特征选择框架。美国统计协会杂志,2010; 105(490):713–26. Bholowalia P,Kumar A.EBK-Means:WSN中基于肘部方法和K-Means的聚类技术。 国际J计算应用。 2014; 105(9):17–24.