尹、华;胡玉萍 一种基于随机森林的非平衡特征选择算法。 (中文。英文摘要) Zbl 1324.68127号 科学学报。国立Sunyatseni大学 53,第5号,59-65(2014). 摘要:高维和不平衡的数据是数据挖掘面临的挑战。平衡类分布假设导致传统特征选择算法在不平衡数据上的结果不令人满意。为了解决这个问题,构造了一种新的非平衡特征选择算法IBRFVS,该算法使用了嵌入在随机森林中的变量选择机制。IBRFVS在平衡采样数据上构造不同的决策树,并通过交叉验证获得单个决策树的特征重要性度量。特征重要性列表由决策树权重和特征重要性度量的加权平均值决定,决策树权重由单个决策预测和集合预测的一致程度决定。在UCI数据集上进行的随机森林超参数选择和预处理对比实验表明,当超参数K是四个经验参数中特征数的平方根时,IBRFVS的性能比传统的特征选择算法更加稳定和优越。 MSC公司: 68T05型 人工智能中的学习和自适应系统 关键词:不平衡数据;高维数据;特征选择;随机森林 软件:UCI-毫升 PDF格式BibTeX公司 XML格式引用 \textit{H.Yin}和\textit{Y.Hu},科学学报。国立大学Sunyatseni 53,No.5,59-65(2014;Zbl 1324.68127)