计算机工程与应用››2021,第57卷››发行(11): 95-102.内政部:10.3778/j.issn.1002-8331.2005-0101

大数据与云计算 • 上一篇   下一篇

混合过滤器GA的特征选择方法

邱云飞,高华聪  

  1. 辽宁工程技术大学 软件学院,辽宁 葫芦岛 125100
  • 出版日期:2021-06-01 发布日期:2021-05-31

用于特征选择的混合滤波器和改进的自适应遗传算法

邱云飞、高华聪  

  1. 辽宁工业大学软件学院,辽宁葫芦岛125100
  • 在线:2021-06-01 出版:2021-05-31

摘要:

针对高维度小样本数据在特征选择时出现的维数灾难和过拟合的问题,提出一种混合过滤器方式包装器模式的特征选择方法(ReFS-AGA)该方法结合减压阀F算法和归一化互信息,评估特征的相关性并快速筛选重要特征;采用改进的自适应遗传算法,引入最优策略平衡特征多样性,同时以最小化特征数和最大化分类精度为目标,选择特征数作为调节项设计新的评价函数,在迭代进化过程中高效获得最优特征子集。在基因表达数据上利用不同分类算法对简化后的特征子集分类识别,实验结果表明,该方法有效消除了不相关特征,提高了特征选择的效率,与减压阀F算法和二阶段特征选择算法mRMR遗传算法相比,在取得最小特征子集维度的同时平均分类准确率分别提高了11.18个百分点和4.04个百分点。

关键词: 特征选择, 过滤方式, 救济费, 归一化互信息, 自适应遗传算法

摘要:

针对高维小样本数据特征选择中存在的维数灾难和过拟合问题,提出了一种基于混合滤波模式和包装模式的特征选择方法(ReFS-AGA)。首先,将ReliefF算法与归一化互信息相结合,评估特征的相关性,快速选择重要特征。然后,采用改进的自适应遗传算法来平衡特征的多样性。同时,目标是最小化特征数量和最大化分类精度,并选择特征数量作为调整项,设计新的评价函数,在迭代进化过程中有效地获得最优特征子集。本文采用不同的分类算法对基因表达数据中的简化特征子集进行分类识别。实验结果表明,该方法有效地消除了不相关特征,提高了特征选择的效率。与ReliefF算法和两阶段特征选择算法mRMR-GA相比,当获得最小特征子集维数时,平均分类精度分别提高了11.18个百分点和4.04个百分点。

关键词: 特征选择, 过滤器模式, ReliefF算法, 规范化互信息, 自适应遗传算法