Bayesian variable selection for globally sparse probabilistic PCA

Charles Bouveyron; Pierre Latouche; Pierre-Alexandre Mattei

doi:10.1214/18-EJS1450

2018 全局稀疏概率主成分分析的贝叶斯变量选择

查尔斯·布韦伦,皮埃尔·拉图什,Pierre-Alexandre马泰

电子。J.统计。 12(2): 3036-3070 (2018). DOI:10.1214/18-EJS1450

摘要

稀疏版本的主成分分析（PCA）以一种简单而强大的方式，在无监督的情况下选择高维数据的相关特征。然而，当计算多个稀疏主成分时，解释所选变量可能会比较困难，因为每个轴都有自己的稀疏模式，必须单独解释。为了克服这个缺点，我们提出了一个贝叶斯过程，该过程允许获得具有相同稀疏模式的多个稀疏组件。这允许从业者确定哪些原始变量与描述数据最相关。为此，利用Roweis对主成分分析的概率解释和加载矩阵上的各向同性高斯先验，我们首次精确计算了贝叶斯主成分分析模型的边际似然。此外，为了避免离散模型选择的缺点，对该框架进行了简单的松弛。它允许使用变分期望最大化算法找到候选模型的路径。依靠Occam剃刀选择相关变量，最终可以在这条路径上最大化精确的边际可能性。由于稀疏模式对所有组件都是通用的，因此我们称这种方法为全局稀疏概率PCA（GSPPCA）。它的有用性在合成数据集和来自信号处理和基因组学的几个真正的无监督特征选择问题上得到了说明。特别是，使用未标记的微阵列数据，GSPPCA可以推断生物相关的基因子集。根据基于路径丰富的度量，它在这方面大大超过了传统稀疏PCA算法的性能。GSPPCA算法的R实现可在http://github.com/pamateti/GSPPCA.

引用

下载引文

查尔斯·布维伦（Charles Bouveyron）。皮埃尔·拉图什。皮尔雷·阿莱克安德烈·马泰（Pierre-Alexandre Mattei）。 “全局稀疏概率PCA的贝叶斯变量选择。” 电子。J.统计。 12 (2) 3036 - 3070, 2018 https://doi.org/10.1214/18-EJS1450