×

带离群值的子空间近似的基于抽样的降维。 (英语) Zbl 1478.62078号

摘要:对于给定\(d\)维\(x_1,x_2,\ldots,x_n\in\mathbb{R}^d\)、整数\(1\leq k\leq d\)和异常值参数\(0\leq\alpha\leq 1\)中的\(n\)点,具有异常值的子空间近似问题是找到\(\mathbb{R}^d\)的\(k\)维线性子空间将距离最近的点((1-alpha)n)的平方和最小化。更一般地说,带离群值的子空间近似问题最小化了距离的第(p)次幂和,而不是距离的平方和。即使是(p=2)或鲁棒PCA的情况也是非平凡的,以前的工作需要对其输入或生成模型进行额外的假设。任何带离群值的子空间近似问题的乘法近似算法都必须解决鲁棒子空间恢复问题,在这种情况下,(1-\alpha)n)最优解中的内层被保证正好位于(k)维线性子空间上。然而,稳健子空间恢复是小集扩展(SSE)困难的,稳健子区域恢复的已知算法结果需要对输入进行强有力的假设,例如,任何异常值都必须是线性无关的。
本文介绍了如何将基于抽样和核集的降维技术和双标准逼近推广到具有离群值的子空间逼近问题。为了绕过稳健子空间恢复的SSE特性,我们假设对于某些点(0<deltaleq1-alpha),最优(k)维子空间在最优(1-α)内层上的平方距离误差之和至少是其在所有(n)点上平方误差之和的(delta)倍。在这个假设下,我们给出了一个有效的算法来寻找跨度包含一个维子空间的弱核集或(text{poly}(k/\epsilon)\log(1/\delta)\log\ log(1/1delta))点的子集,该子空间给出了最优解的乘法逼近。我们的技术是基于在A.薯条等[J.ACM 51,第6期,1025–1041(2004;Zbl 1125.65005号)]. 我们的算法在(n)和(d)中的运行时间是线性的。有趣的是,只要满足明显的条件(0<delta\leq 1-\alpha),即使异常值(alpha。我们给出了具有(ell_p)误差或更一般的M-估计损失函数的子空间逼近的类似结果,并给出了仿射子空间逼近问题的一个加性逼近。

MSC公司:

62G05型 非参数估计
62H25个 因子分析和主成分;对应分析
68周25 近似算法

软件:

k平均值++
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 亚瑟,大卫;Vassilvitskii,Sergei,k-means++:仔细播种的优势,(第十八届ACM-SIAM离散算法研讨会论文集。第十八届年度ACM-SIAM离散算法研讨会文献集,SODA 2007,美国路易斯安那州新奥尔良,2007年1月7日至9日(2007)),1027-1035·Zbl 1302.68273号
[2] Barman,Siddharth,通过Carathéodory定理的近似版本逼近Nash平衡和稠密子图,SIAM J.Compute。,47, 3, 960-981 (2018) ·Zbl 1416.91016号
[3] 阿迪蒂亚·巴斯卡拉;Kumar,Srivatsan,《存在离群值时的低秩近似》,(近似、随机化和组合优化。算法和技术。近似、随机和组合优化,算法和技术,APPROX/RANDOM 2018年8月20日至22日,美国新泽西州普林斯顿(2018)),第4条pp·Zbl 1520.62078号
[4] Ke,Chen,带离群值的k-median聚类的常数因子近似算法,(第十九届ACM-SIAM离散算法年会论文集。第十九届ADAM-SIAM离散算法年会刊论文集,SODA 2008,美国加利福尼亚州旧金山,2008年1月20日至22日(2008)),826-835·Zbl 1192.68881号
[5] 克拉克森(Kenneth L.Clarkson)。;Woodruff,David P.,稳健子空间近似的输入稀疏性和硬度,(IEEE第56届计算机科学基础年会。IEEE第五十六届计算机科学基金会年会,FOCS 2015,加利福尼亚州伯克利,美国,2015年10月17日至20日(2015)),310-329
[6] Amit Deshpande,Praneeth Kacham,Rameshwar Pratap,Robust k-means++,摘自:机器学习研究论文集,第124卷,虚拟,2020年8月3日至6日,PMLR,第799-808页。
[7] 阿米特·德什潘德;Varadarajan,Kasturi R.,子空间近似的基于抽样的降维,(第39届ACM计算理论研讨会论文集。第39届年度ACM计算原理研讨会论文集,美国加利福尼亚州圣地亚哥,2007年6月11-13日(2007)),641-650·Zbl 1232.68172号
[8] 阿米特·德什潘德;Vempala,Santosh S.,自适应采样和快速低秩矩阵近似, (近似、随机化和组合优化。算法和技术,第九届组合优化问题近似算法国际研讨会,APPROX 2006和第十届随机化与计算国际研讨会,会议录。近似、随随化和组合最优化。算法和技术,第九届组合优化问题近似算法国际研讨会,APPROX 2006和第十届随机和计算国际研讨会,会议记录,RANDOM 2006,西班牙巴塞罗那,2006年8月28日至30日(2006)),292-303·Zbl 1155.68575号
[9] Dan Feldman;Michael Langberg,《近似和聚类数据的统一框架》(第43届ACM计算理论研讨会论文集。第43届ASM计算理论会议论文集,STOC 2011,美国加利福尼亚州圣何塞,2011年6月6日至8日(2011)),569-578·Zbl 1288.90046号
[10] Dan Feldman;莫内米扎德(Monemizadeh)、莫特萨(Morteza);克里斯蒂安·索勒(Christian Sohler);Woodruff,David P.,高维子空间近似问题的核心集和草图,(第二十届年度ACM-SIAM离散算法研讨会论文集。第二十届ACM-SIAM离散算法年度研讨会论文集,SODA 2010,美国德克萨斯州奥斯汀,2010年1月17日至19日(2010)),630-649·Zbl 1288.68225号
[11] Dan Feldman;Schulman,Leonard J.,加权和抗离群聚类的数据简化,(第二十届ACM-SIAM离散算法研讨会论文集。第二十届年度ACM-SIAM离散算法研讨会文献集,SODA 2012,日本京都,2012年1月17日至19日(2012)),1343-1354·Zbl 1426.62184号
[12] 阿兰·弗里兹(Alan M.Frieze)。;拉维·坎南;Vempala,Santosh S.,《寻找低阶近似的快速蒙特卡罗算法》,J.ACM,51,6,1025-1041(2004)·Zbl 1125.65005号
[13] 米纳加沙米;Phillips,Jeff M.,确定性低秩矩阵近似的相对误差,(第二十五届年度ACM-SIAM离散算法研讨会论文集。第二十五届ACM-SIAM离散算法研讨会会议论文集,SODA 2014,美国俄勒冈州波特兰,2014年1月5日至7日(2014)),707-717·Zbl 1421.68222号
[14] Hardt,Moritz;Moitra,Ankur,《稳健子空间恢复的算法和硬度》,(COLT 2013-第26届学习理论年会,COLT 2013年-第26次学习理论年会刊,美国新泽西州普林斯顿大学,2013年6月12日至14日(2013)),354-375
[15] Khachiyan,Leonid,关于矩阵中近似极值行列式的复杂性,J.Complex。,11, 1, 138-153 (1995) ·Zbl 0819.65085号
[16] 亚当·克莱文斯(Adam R.Klivans)。;Pravesh K.科塔里。;Meka,Raghu,离群回归的高效算法,(学习理论会议,学习理论会议2018,瑞典斯德哥尔摩,2018年7月6-9日(2018)),1420-1430
[17] 克里希纳斯瓦米,拉维珊卡;李、石;Sandeep,Sai,通过迭代取整对k-中值和k-均值进行常数逼近,(第50届ACM SIGACT计算理论研讨会论文集。第50届美国计算机学会SIGACT计算机理论会议论文集,STOC 2018,美国加利福尼亚州洛杉矶,2018年6月25-29日(2018)),646-659·Zbl 1428.68393号
[18] 阿米特·库马尔(Amit Kumar);萨巴沃尔,瑜伽;Sen,Sandeep,《用于任何维均值聚类的简单线性时间((1+\epsilon))近似算法》,(第45届IEEE计算机科学基础研讨会论文集。第45届EEE计算机科学基础会议论文集,FOCS’04(2004),IEEE计算机学会:IEEE计算机协会(美国华盛顿特区),454-462
[19] Lai,Kevin A。;Rao,Anup B。;Vempala,Santosh S.,平均值和协方差的不确定性估计,(IEEE第57届计算机科学基础年会,IEEE第五十七届计算机科学基金会,2016年FOCS,美国新泽西州新不伦瑞克凯悦酒店,2016年10月9日至11日(2016)),665-674
[20] 吉拉德·勒曼;Maunu,Tyler,稳健子空间恢复概述,Proc。IEEE,106,8,1380-1410(2018)·兹比尔1476.90262
[21] 吉拉德·勒曼;张腾,通过几何lp最小化实现多个子空间的稳健恢复,《Ann.Stat.》,39,5,2686-2715(2011)·Zbl 1232.62097号
[22] Liberty,Edo,Simple and determinative matrix sketting,(第19届ACM SIGKDD国际知识发现和数据挖掘会议。第19届AIM SIGKDD国际知识发现与数据挖掘会议,KDD 2013,美国伊利诺伊州芝加哥,2013年8月11-14日(2013)),581-588
[23] 泰勒·莫努;张腾;Gilad Lerman,《非凸稳健子空间恢复的良好前景》,J.Mach。学习。决议,20,37(2019)·Zbl 1484.62063号
[24] 拉加文德拉·普拉萨德;Steurer,David,图扩展和独特的游戏猜想,(第42届ACM计算理论研讨会论文集。第42届ASM计算理论会议论文集,STOC 2010,美国马萨诸塞州剑桥,2010年6月5日至8日(2010年)),755-764·Zbl 1293.05373号
[25] Sarlós,Tamás,通过随机投影改进大矩阵近似算法,(第47届IEEE计算机科学基础研讨会论文集。第47届电气与电子工程师协会计算机科学基础会议论文集,(FOCS 2006),美国加州伯克利,2006年10月21日至24日(2006)),143-152
[26] Nariankadu D.Shyamalkumar。;Varadarajan,Kasturi R.,高效子空间近似算法,离散计算。地理。,47, 1, 44-63 (2012) ·兹比尔1232.68167
[27] Woodruff,David P.,《作为数值线性代数工具的草图绘制,理论计算机科学中的基础和趋势®》,第10卷(1-2),1-157(2014)·Zbl 1316.65046号
[28] 张腾;Lerman,Gilad,鲁棒PCA的新型M估计,J.Mach。学习。第15号、第1号、第749-808号决议(2014年)·Zbl 1318.62205号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。