统计及其接口

第9卷(2016)

数字4

大数据统计计算理论与方法专刊

特邀编辑:陈明慧(康涅狄格大学);Radu V.Craiu(多伦多大学);Faming Liang(佛罗里达大学);和刘川海(普渡大学)

高斯性以外大规模应用的稀疏广义主成分分析

页:521 – 533

内政部:https://dx.doi.org/10.4310/SII.2016.v9.n4.a11

作者

张巧娅(美国佛罗里达州塔拉哈西佛罗里达州立大学统计系)

She Yiyuan(美国佛罗里达州塔拉哈西佛罗里达州立大学统计系)

摘要

主成分分析(PCA)是一种降维技术。当维数为中到高时,它会产生不一致的估计值,这在现代大规模应用中通常是一个问题,在这些应用中,算法的可扩展性和模型的可解释性很难实现,更不用说缺失值的普遍性了。虽然现有的稀疏主成分分析方法可以缓解不一致性,但它们局限于经典主成分分析的高斯假设,无法解决算法可扩展性问题。我们将稀疏PCA推广到高维设置下的广义指数族分布,并对缺失值进行内置处理。同时,我们提出了一系列迭代稀疏广义PCA(SG-PCA)算法,尽管优化任务具有非凸性和非光滑性,但每次迭代损失函数都会减小。在容易和直观的参数调整方面,我们的稀疏诱导正则化远远优于流行的拉索。此外,为了提高整体可扩展性,集成了加速梯度以实现快速收敛,而渐进筛选技术则逐渐挤出大规模问题的麻烦维度以进行可行的优化。高维仿真和真实数据实验证明了SG-PCA的有效性和有效性。

关键词

稀疏性、低秩估计、主成分分析、广义线性模型、非凸优化、缺失值、变量筛选

2010年数学学科分类

初级62H25、62J12。次要62H12。

2016年9月14日出版