一种重要加权特征选择稳定性测度

Victor Hamer,Pierre Dupont。

年份:2021年,数量:22,版本:116,页码:1−57


摘要

当前的特征选择方法,尤其是应用于高维数据的特征选择,往往会受到不稳定性的影响,因为数据中的边际修改可能会导致选择的特征集在很大程度上不同。这种不稳定性严重限制了领域专家对选定变量的合理解释。定义适当的稳定性度量也是一个研究问题。在这项工作中,我们建议将预测模型中选定特征的重要性纳入稳定性度量。这些特征重要性与线性模型中的特征权重成正比。我们还考虑了对非线性设置的泛化。我们从理论和实验上说明,电流稳定性措施会受到不期望的行为的影响,例如,当它们以预测精度进行联合优化时。微阵列和质谱数据的结果表明,我们的新稳定性度量纠正了在这种双目标环境下过于乐观的稳定性估计,从而改进了决策。在具有高度相关变量组的特征空间中,它也不太容易低估或过高估计稳定性值。

PDF格式 BibTeX公司