ROSEFW-RF公司 swMATH ID: 23974 软件作者: Triguero,I.、del Río,S.、López,V.、Bacardit,J.、Benítez,J.和Herrera,F。 描述: ROSEFW-RF:ECBDL’14大数据竞赛的获胜者算法:一个极不平衡的大数据生物信息学问题。数据挖掘和机器学习技术在生物和生物医学数据中的应用仍然是当前生物信息学中普遍存在的研究主题。生物技术的快速发展使我们能够获取和存储大量有关细胞、蛋白质、基因等的数据,这些数据应该进行处理。此外,在许多此类问题中,如本文所处理的接触图预测问题,很难收集到具有代表性的正面示例。在这种情况下进行学习,即不平衡大数据分类,对于大多数标准机器学习方法来说可能并不简单。在这项工作中,我们描述了为生物信息学大数据问题赢得ECBDL’14大数据挑战的方法。该算法名为ROSEFW-RF,基于多种MapReduce方法,(1)通过随机过采样来平衡类分布,(2)通过进化特征加权过程和阈值来检测最相关的特征,(3)根据预处理的数据构建合适的random Forest模型,最后(4)对测试数据进行分类。在整篇论文中,我们详细分析了比赛期间做出的决定,并展示了一项广泛的实验研究,该研究表明了我们方法的工作方式。从分析中我们可以得出结论,这种方法非常适合处理大规模生物信息学分类问题 主页: https://www.sciencedirect.com/science/article/pii/S0950705115002130 源代码: https://github.com/triguero/ROSEFW-RF网址 相关软件: 打击;阿帕奇火花;ACO采样;阿达欣;MWMOTE公司;不平衡学习;SMOTEBoost公司;Scikit公司;JStatCom公司 引用于: 3文件 全部的 前5名7位作者引用 1 Khyati阿赫拉瓦特 1 阿努拉达·楚格 1 Micha Koziarski 1 阿米特·普拉卡什·辛格 1 斯兹蒙·威尔克 1 斯兹蒙·沃伊切乔夫斯基(Szymon Wojciechowski) 1 米查尔·沃兹尼亚克 3篇连载文章中引用 1 计算与决策科学基础 1 国际应用数学与计算机科学杂志 1 数据科学与自适应分析进展 在2个字段中引用 三 统计学(62-XX) 1 计算机科学(68-XX) 按年份列出的引文