Permutation methods for factor analysis and PCA

Edgar Dobriban

doi:10.1214/19-AOS1907

2020年10月因子分析和主成分分析的置换方法

埃德加·多布里班

安。统计师。 48(5): 2824-2847 （2020年10月）。数字对象标识码：10.1214/19-AOS1907

摘要

研究人员通常拥有测量样本特征$x_{ij}$的数据集，例如学生的考试成绩。在因子分析和主成分分析中，这些特征被认为受到不可观察因素的影响，例如技能。我们可以确定有多少组件影响数据吗？这是一个重要的问题，因为这里的决策对所有下游数据分析都有很大影响。因此，制定了许多方法。并行分析是一种流行的置换方法：它随机地对数据的每个特征进行置乱。如果分量的奇异值大于置换数据的奇异值，则选择分量。尽管它得到了广泛的应用，也有经验证据证明其准确性，但目前还没有理论依据。

在本文中，我们证明了并行分析（或置换方法）一致地选择某些高维因子模型中的大分量。然而，当信号过大时，不会选择较小的分量。直觉上，排列保持噪声不变，同时“破坏”低阶信号。这为排列方法提供了理由。我们的工作还揭示了置换方法的缺点，并为改进铺平了道路。