摘要:
机器学习中特征选择的目的是至少两倍的节省测量获取成本和减少维数灾难的负面影响,目的是提高模型的准确性和分类器对未知数据的分类率。然而,最近的研究表明,特征选择过程本身也会受到同样的维数灾难的负面影响——特征选择方法可能很容易过拟合或表现不稳定。这样的结果不太可能很好地推广,由此产生的识别系统可能无法实现预期的性能。因此,在许多任务中,使用额外的机制使特征选择过程更加稳定并抵抗维度效应的诅咒是至关重要的。在本文中,我们讨论了三种不同的方法来减少这个问题。我们提出了一种适用于各种特征选择方法的算法扩展,能够减少对特定训练数据和特定准则函数属性的过度特征子集依赖。此外,我们讨论了标准集合的概念,其中各种标准对特征的包含/移除进行投票,并提供了特征选择混合的一般定义,旨在结合从属标准和独立标准的优点。通过实例说明了提出的观点,并给出了总结性建议。