GSPPCA公司

全局稀疏概率主元分析的贝叶斯变量选择。稀疏版本的主成分分析(PCA)将自己作为一种简单而强大的方法,以无监督的方式选择高维数据的相关特征。然而,当计算多个稀疏主分量时,由于每个轴都有自己的稀疏模式,因此对所选变量的解释可能很困难。为了克服这一缺点,我们提出了一种贝叶斯方法,允许获得具有相同稀疏模式的多个稀疏分量。这使得从业者能够确定哪些原始变量与描述数据最相关。为此,我们利用Roweis对PCA的概率解释和在加载矩阵上的各向同性高斯先验,首次精确计算了贝叶斯PCA模型的边缘似然。此外,为了避免离散模型选择的缺点,对该框架进行了简化。它允许使用变分期望最大化算法寻找候选模型的路径。确切的边际可能性最终可以在这条路径上最大化,依赖于Occam的剃刀来选择相关的变量。由于稀疏模式是所有分量的共同特征,我们将这种方法称为全局稀疏概率PCA(GSPPCA)。它的有用性在合成数据集和信号处理和基因组学的几个真正的无监督特征选择问题上得到了说明。特别是,使用未标记的微阵列数据,GSPPCA可以推断出与生物学相关的基因子集。根据一种基于路径浓缩的度量,它在这种情况下大大超过了传统稀疏PCA算法的性能。GSPPCA算法的R实现可以在url{http://github.com/pamateti/GSPPCA}获得。