计算机工程与应用››2021,第57卷››发行(17): 147-156.内政部:10.3778/j.issn.1002-8331.2008-0171

模式识别与人工智能 • 上一篇   下一篇

融合分类信息的随机森林特征选择算法及应用

武炜杰,张景祥  

  1. 江南大学 理学院,江苏 无锡 214122
  • 出版日期:2021-09-01 发布日期:2021-08-30

基于分类信息的随机森林特征选择算法及其应用

吴伟杰、张景祥  

  1. 江南大学科学院,江苏无锡214122
  • 在线:2021-09-01 出版:2021-08-30

摘要:

针对传统随机森林随特征数增加计算消耗高的问题,提出了一种随机森林多特征置换算法。该算法对数据特征进行聚类,保持其他特征簇不变,逐一对同簇特征同时随机置换,得到全部特征簇的重要性得分及簇间排序。簇内特征按与分类信息的相关程度排序,引入相关性阈值选出重要特征,对剩余特征按先簇间、再簇内的规则进行排序。为了进一步比较该方法的有效性,基于【K】均值聚类、层次聚类、模糊[中]均值聚类算法,设计了三种随机森林多特征置换的特征选择算法。实验结果表明,与传统随机森林方法相比,新算法可选择较少特征时仍取得较高分类精度,且时间效率更高。

关键词: 特征选择, 聚类, 随机森林, 多特征置换

摘要:

针对传统随机森林的高消耗量随着特征数量的增加而增加的问题,提出了一种基于随机森林的多特征置换算法。首先对所有特征进行聚类,然后在其他簇保持不变的情况下,对同一簇中的特征进行随机置换。计算并排列所有特征聚类的重要性。同一聚类中的特征根据其自身与分类信息的相关性进行排序。相关阈值用于选择重要特征。对其余功能进行排序的规则是先在集群之间,然后在集群内。为了进一步说明该方法的有效性,基于K-均值、层次和模糊C-均值聚类算法,设计了三种相应的基于随机森林的多特征置换算法。实验结果表明,与传统的随机森林方法相比,该算法以较少的特征和较高的时间效率实现了较高的分类精度。

关键词: 特征选择, 集群, 随机森林, 多特征置换