摘要

动机:主成分分析(PCA)是一种非常流行的降维技术,广泛用作高维微阵列数据分析的第一步。然而,基于数据均值和样本协方差矩阵的经典方法对异常值非常敏感。此外,基于该协方差矩阵的分类方法在存在离群测量值的情况下不会给出良好的结果。

结果:首先,我们提出了一种用于高维数据的鲁棒PCA(ROBPCA)方法。它将投影追踪思想与低维数据的稳健估计相结合。我们还提出了一个诊断图来显示和分类异常值。该ROBPCA方法应用于多个生物化学数据集。在一个示例中,我们还对使用ROBPCA获得的分数应用了一种稳健的判别方法。我们表明,这种稳健方法的组合比经典的主成分分析和二次判别分析能带来更好的分类。

可用性:所有程序都是稳健校准Matlab工具箱的一部分,可在http://www.wis.kuleuven.ac.be/stat/robust.html.

*

信件应寄给谁。

此内容仅以PDF格式提供。