×

ROSEFW-RF公司

swMATH ID: 23974
软件作者: Triguero,I.、del Río,S.、López,V.、Bacardit,J.、Benítez,J.和Herrera,F。
描述: ROSEFW-RF:ECBDL’14大数据竞赛的获胜者算法:一个极不平衡的大数据生物信息学问题。数据挖掘和机器学习技术在生物和生物医学数据中的应用仍然是当前生物信息学中普遍存在的研究主题。生物技术的快速发展使我们能够获取和存储大量有关细胞、蛋白质、基因等的数据,这些数据应该进行处理。此外,在许多此类问题中,如本文所处理的接触图预测问题,很难收集到具有代表性的正面示例。在这种情况下进行学习,即不平衡大数据分类,对于大多数标准机器学习方法来说可能并不简单。在这项工作中,我们描述了为生物信息学大数据问题赢得ECBDL’14大数据挑战的方法。该算法名为ROSEFW-RF,基于多种MapReduce方法,(1)通过随机过采样来平衡类分布,(2)通过进化特征加权过程和阈值来检测最相关的特征,(3)根据预处理的数据构建合适的random Forest模型,最后(4)对测试数据进行分类。在整篇论文中,我们详细分析了比赛期间做出的决定,并展示了一项广泛的实验研究,该研究表明了我们方法的工作方式。从分析中我们可以得出结论,这种方法非常适合处理大规模生物信息学分类问题
主页: https://www.sciencedirect.com/science/article/pii/S0950705115002130
源代码:  https://github.com/triguero/ROSEFW-RF网址
相关软件: 打击;阿帕奇火花;ACO采样;阿达欣;MWMOTE公司;不平衡学习;SMOTEBoost公司;Scikit公司;JStatCom公司
引用于: 3文件

按年份列出的引文