×

具有随机特征矩的压缩统计学习。 (英语) Zbl 1478.62164号

总结:我们描述了一个总体框架——压缩统计学习–对于资源高效的大规模学习:将培训集合一次性压缩为低维素描(随机经验广义矩的向量),其捕获与所考虑的学习任务相关的信息。通过求解非线性最小二乘问题,从草图中计算出风险的近似最小值。我们研究了足够的草图尺寸来控制此过程的泛化误差。该框架以压缩主成分分析、压缩聚类和固定方差的压缩高斯混合建模为例进行了说明。后两者在一篇配套论文中得到了进一步发展[Math.Stat.Learn.3,No.2,165-257(2020;Zbl 1478.62165号)].

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G05型 非参数估计
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] N.Ailon、R.Jaiswal和C.Monteleoni,流k均值近似,摘自《神经信息处理系统进展》22,10-18,Curran Associates,Inc.,2009年。
[2] D.Aloise、A.Deshpande、P.Hansen和P.Popat,欧几里德平方和聚类的NP-hardeness,马赫。学习。,75(2009),第2期,245-248。Zbl 1378.68047号·Zbl 1378.68047号
[3] J.Anderson、M.Belkin、N.Goyal、L.Rademacher和J.Voss,《越多越好:学习大高斯混合的维数的祝福》,载于《第27届学习理论会议论文集》,1135-1164,《机器学习研究论文集》第35期,PMLR,2014年。
[4] C.Andrieu和A.Doucet,通用状态空间模型中参数估计的在线期望最大化算法,2003年IEEE声学、语音和信号处理国际会议(ICASSP’03),VI-69,IEEE,2003年。
[5] R.Arora、A.Cotter、K.Livescu和N.Srebro,《PCA和PLS的随机优化》,2012年第50届Allerton通信、控制和计算年会(Allerton),861-868,IEEE,2012年。
[6] D.Arthur和S.Vassilvitskii,《k-means++:细心播种的优势》,载于《第十八届ACM-SIAM离散算法年会论文集》,1027-1035,ACM,纽约,2007年。Zbl 1302.68273 MR 2485254号·兹比尔1302.68273
[7] F.Bach,《关于核求积规则和随机特征展开之间的等价性》,J.Mach。学习。Res.,18(2017),第21号文件,第38页。Zbl 1435.65045 MR 3634888·Zbl 1435.65045号
[8] A.Balsubramani、S.Dasgupta和Y.Freund,增量PCA的快速收敛,摘自《神经信息处理系统进展》26,3174-3182,Curran Associates,Inc.,2013年。
[9] R.Baraniuk,压缩传感,IEEE信号处理杂志,24(2007),第4期,118-121。
[10] R.Baraniuk、M.Davenport、R.A.DeVore和M.B.Wakin,随机矩阵限制等距性的简单证明,Constr。约,28(2008),第3期,253-263。Zbl 1177.15015 MR 2453366号·Zbl 1177.15015号
[11] P.L.Bartlett、O.Bousquet和S.Mendelson,《局部Rademacher复杂性》,Ann.Statist。,33(2005),第4期,1497-1537。Zbl 1083.62034 MR 2166554·Zbl 1083.62034号
[12] M.Belkin和K.Sinha,分布族多项式学习,SIAM J.Compute。,44(2015),第4期,889-911。Zbl 1335.68100 MR 3366914号·Zbl 1335.68100号
[13] K.Bertin、E.Le Pennec和V.Rivoirard,《自适应Dantzig密度估计》,亨利·彭卡研究所年鉴。《统计》,第47卷(2011年),第1期,第43-74页。Zbl 1207.62077 MR 2779396号·兹比尔1207.62077
[14] A.Bietti和J.Mairal,《关于神经切线核的诱导偏差》,载于《神经信息处理系统的进展》32,第12页,Curran Associates,Inc.,2019年。
[15] M.Binkowski、D.J.Sutherland、M.Arbel和A.Gretton,揭开MMD GANs的神秘面纱,第六届国际学习代表大会,ICLR 2018,36页,OpenReview.net,2018。
[16] G.Blanchard、O.Bousquet和L.Zwald,核主成分分析的统计特性,马赫数。学习。,66(2007),第2-3、259-294号·Zbl 1470.62077号
[17] R.Gribonval、G.Blanchard、N.Keriven和Y.Traonmilin
[18] A.Bourrier、M.Davies、T.Peleg、P.Perez和R.Gribonval,高维线性逆问题中理想解码器的基本性能极限,信息理论,IEEE Transactions on,60(2014),第12期,7928-7946·Zbl 1359.94838号
[19] J.Bruna Estrach、A.Szlam和Y.LeCun,从池表示中恢复信号,第31届机器学习国际会议(ICML 2014),307-315,机器学习研究杂志,32,Curran Associates,Inc.,2014。
[20] E.J.Candès,《受限等距特性及其对压缩传感的影响》,C.R.Math。阿卡德。科学。巴黎,346(2008),编号9-10,589-592。Zbl 1153.94002 MR 2412803·Zbl 1153.94002号
[21] E.J.Candès、J.Romberg和T.Tao,从不完整和不准确的测量中恢复稳定信号,Comm.Pure Appl。数学。,59(2006),第8期,1207-1223。Zbl 1098.94009 MR 2230846号·邮编1098.94009
[22] E.Candès、T.Strohmer和V.Voroninski,PhaseLift:通过凸编程从幅度测量中准确稳定地恢复信号,Comm.Pure Appl。数学。,66(2013),编号8,1241-1274。Zbl 1335.94013 MR 3069958号·Zbl 1335.94013号
[23] O.Cappé和E.Moulines,潜在数据模型的在线期望最大化算法,J.R.Stat.Soc.Ser。B统计方法。,71(2009),第3期,593-613。Zbl 1250.62015 MR 2749909·Zbl 1250.62015年
[24] M.Carrasco和J.-P.Florens,将广义矩模型推广到连续矩条件,《计量经济学理论》,16(2000),第6期,797-834。Zbl 0968.62028 MR 1803711·Zbl 0968.62028号
[25] M.Carrasco和J.-P.Florens,使用经验特征函数的有效GMM估计,IDEI工作论文,第140号论文,2002年。
[26] M.Carrasco和J.-P.Florens,《关于GMM的渐近效率》,《计量经济学理论》,30(2014),第2期,372-406。Zbl 1314.62080 MR 3231496号·Zbl 1314.62080号
[27] A.Chatalic、V.Schellekens、F.Houssiau、Y.-A.De Montjoye、L.Jacques和R.Gribonval,《具有隐私保障的压缩学习》,发表于Inf.Inference(2021)。DOI:10.1093/imaiai/iaab005·Zbl 07517499号 ·doi:10.1093/imaiai/iaab005
[28] A.Cohen、W.Dahmen和R.DeVore,《压缩传感和最佳k项近似》,J.Amer。数学。Soc.,22(2009),第1期,211-231。Zbl 1206.94008 MR 2449058号·兹比尔1206.94008
[29] G.Cormode、M.Garofalakis、P.J.Haas和C.Jermaine,《海量数据概要:样本、直方图、小波、草图》,Found。趋势数据库,4(2011),第1-3、1-294期。Zbl 1257.68062号·Zbl 1257.68062号
[30] G.Cormode和M.Hadjieleftheriou,《在数据流中查找频繁项的方法》,《VLDB期刊》,19(2009),第1期,3-20页。
[31] G.Cormode和S.Muthukrishnan,《改进的数据流摘要:计数草图及其应用》,《算法》,55(2005),第1期,第58-75页。Zbl 1068.68048 MR 2132028·兹比尔1068.68048
[32] T.M.Cover和J.A.Thomas,《信息理论的要素》,《通信中的威利系列》,威利国际科学出版社,约翰威利父子公司,纽约,1991年。Zbl 0762.94001 MR 1122806·Zbl 0762.94001号
[33] S.Dirksen,《亚高斯矩阵降维:统一理论》,Found。计算。数学。,16(2016),第5期,1367-1396。Zbl 1360.60031 MR 3552848号·Zbl 1360.60031号
[34] 具有随机特征矩的压缩统计学习161
[35] D.L.Donoho,压缩传感,IEEE Trans。通知。《理论》,52(2006),第4期,1289-1306。兹比尔1288.94016 MR 2241189·Zbl 1288.94016号
[36] J.C.Duchi、M.I.Jordan和M.J.Wainwright,《隐私意识学习》,J.ACM,61(2014),第6号,第38条,第57页。Zbl 1321.68400 MR 3293073号·Zbl 1321.68400号
[37] R.M.Dudley,《真实分析与概率》。1989年原版《剑桥高等数学研究》(Cambridge Studies in Advanced Mathematics)的修订再版,第74页,剑桥大学出版社,剑桥,2002年。Zbl 1023.60001 MR 1932358·Zbl 1023.60001号
[38] A.Eftekhari和M.B.Wakin,歧管嵌入和压缩测量信号恢复的新分析,应用。计算。哈蒙。分析。,39(2015),第1期,67-109。兹比尔1345.94013 MR 3343802·Zbl 1345.94013号
[39] 范,关于Weyl关于线性变换特征值的一个定理。一、 程序。美国国家科学院。科学。美国,35(1949),652-655。Zbl 0041.00602 MR 34519·Zbl 0041.00602号
[40] D.Feldman、M.Faulkner和A.Krause,《通过核心集对混合模型进行可缩放训练》,载于《神经信息处理系统进展》24、1-9,Curran Associates,Inc.,2014年。
[41] D.Feldman和M.Langberg,近似和聚类数据的统一框架,摘自STOC’11-第43届ACM计算理论研讨会论文集,569-578,ACM,纽约,2011。Zbl 1288.90046 MR 2932007号·Zbl 1288.90046号
[42] D.Feldman、M.Monemizadeh、C.Sohler和D.P.Woodruff,高维子空间近似问题的核心集和草图,第二十届ACM-SIAM离散算法年会论文集,630-649,SIAM,宾夕法尼亚州费城,2010。兹比尔1288.68225 MR 2768623·Zbl 1288.68225号
[43] A.Feuerverger和R.A.Mureika,《经验特征函数及其应用》,《统计年鉴》。,5(1977年),第1期,第88-97页。Zbl 0364.62051 MR 428584·Zbl 0364.62051号
[44] S.Foucart和H.Rauhut,《压缩传感的数学介绍》,应用和数值谐波分析,Birkhäuser/Springer,纽约,2013年。Zbl 1315.94002 MR 3100033号·Zbl 1315.94002号
[45] G.Frahling和C.Sohler,使用核心集的快速k-means实现,国际。J.计算。地理。申请。,18(2008),第6期,605-625。Zbl 1182.65034 MR 2479565号·Zbl 1182.65034号
[46] M.Gabrié、A.Manoel、C.Luneau、J.Barbier、N.Macris、F.Krzakala和L.Zdeborová,深度神经网络模型中的熵和互信息,摘自《神经信息和处理系统进展》31,1-11,Curran Associates,Inc.,2018年。
[47] M.R.Garey、D.S.Johnson和H.S.Witsenhausen,广义Lloyd-Max问题的复杂性,IEEE Trans。通知。理论,28(1982),第2期,255-256。Zbl 0476.94009 MR 651821·Zbl 0476.94009号
[48] M.Ghashami、D.Perry和J.M.Phillips,《流式内核主成分分析》,摘自《国际人工智能与统计会议》(AICS 2016),第1-16页,DEStech Publications,Inc.,2016年。
[49] A.C.Gilbert、Y.Kotidis、S.Muthkrishnan和M.J.Strauss,《如何总结宇宙:分位数的动态维护》,VLDB'02:第28届超大数据库国际会议论文集,454-465。ACM,2002年。
[50] R.Gribonval、G.Blanchard、N.Keriven和Y.Traonmilin
[51] A.C.Gilbert、Y.Zhang、K.Lee、Y.张和H.Lee,《理解卷积神经网络的可逆性》,第26届国际人工智能联合会议论文集,1703-1710年,国际人工智能联席会议,2017年。
[52] R.Giryes、G.Sapiro和A.M.Bronstein,具有随机高斯权重的深度神经网络:通用分类策略?,IEEE传输。信号处理。,64(2016),第13期,3444-3457。Zbl 1414.94217 MR 3515693号·Zbl 1414.94217号
[53] A.Gretton、K.M.Borgwardt、M.J.Rasch、B.Schölkopf和A.J.Smola,双样本问题的内核方法,收录于《神经信息处理系统进展》19、513-520,麻省理工学院出版社,2007年。
[54] R.Gribonval、G.Blanchard、N.Keriven和Y.Traonmilin,压缩聚类和压缩混合建模的统计学习保证,数学。统计学习。,3(2020),第2期,165-257·Zbl 1478.62165号
[55] S.Guha和N.Mishra,集群数据流,《数据流管理:处理高速数据流》,169-187。施普林格,柏林-海德堡,2016年。
[56] A.R.Hall,广义矩方法,《计量经济学高级文本》,牛津大学出版社,牛津,2005年。Zbl 1076.62118 MR 2135106号·Zbl 1076.62118号
[57] P.R.Halmos,《测量理论》,D.Van Nostrand Company,Inc.,纽约,1950年。Zbl 0040.16802 MR 33869·Zbl 0040.16802号
[58] S.Har Peled和S.Mazumdar,《关于k均值和k中值聚类的核集》,载于第36届美国计算机学会计算理论年度研讨会论文集,291-300,美国计算机学会,纽约,2004年。Zbl 1192.68904 MR 2121611·Zbl 1192.68904号
[59] D.Hsu和S.M.Kakade,《学习球面高斯混合:矩方法和谱分解》,载于ITCS第13届2013年ACM理论计算机科学创新会议论文集,11-19,ACM,纽约,2013年。Zbl 1362.68246 MR 3385380号·Zbl 1362.68246号
[60] A.Jacot、F.Gabriel和C.Hongler,《神经切线核:神经网络中的收敛和泛化》,摘自《神经信息处理系统进展》31,第10页,Curran Associates,Inc.,2018年。
[61] M.Kabanava、R.Kueng、H.Rauhut和U.Terstiege,通过零空间属性实现稳定低阶矩阵恢复,Inf.Inference,5(2016),第4期,405-441。Zbl 1388.94018 MR 3609866号·Zbl 1388.94018号
[62] N.Keriven、A.Bourier、R.Gribonval和P.Pérez,《混合模型大规模学习素描》,2016年IEEE声学、语音和信号处理国际会议(ICASSP 2016),6190-6194,IEEE,2016年。
[63] N.Keriven、A.Bourier、R.Gribonval和P.Pérez,《混合模型大规模学习素描》,《Inf.Inference》,7(2018),第3期,447-508。Zbl 07127810 MR 3858332号·Zbl 1470.94045号
[64] V.Koltchinskii,风险最小化中的局部Rademacher复杂性和预言不等式,Ann.Statist。,34(2006),第6期,2593-2656。Zbl 1118.62065 MR 2329442号·Zbl 1118.62065号
[65] H.J.Landau,《数学中的矩》。为美国数学学会短期课程“数学时刻”准备的讲稿(德克萨斯州,1987年),应用数学专题讨论会论文集,37,AMS短期课程讲稿。普罗维登斯,RI:美国数学学会(AMS),1987年。Zbl 0621.00005·Zbl 0621.00005
[66] 具有随机特征矩的压缩统计学习163
[67] C.Levrard,经验矢量量化的快速率,电子。《J Stat.》,第7卷(2013年),1716-1746页。Zbl 1349.62038 MR 3080408号·兹比尔1349.62038
[68] Y.Li、K.Swersky和R.Zemel,生成力矩匹配网络。《ICML’15:第32届国际机器学习会议论文集》37,1718-1727,JMLR.org,2015年。
[69] M.Lucic、M.Faulkner、A.Krause和D.Feldman,《通过核心集按比例训练高斯混合模型》,J.Mach。学习。第18号决议(2017年),第160号论文,第25页。MR 3813809·Zbl 1464.68316号
[70] J.Mairal、F.Bach、J.Ponce和G.Sapiro,矩阵分解和稀疏编码的在线学习,J.Mach。学习。第11号决议(2010年),19-60。Zbl 1242.62087 MR 2591620·Zbl 1242.62087号
[71] P.Massart,《浓度不等式和模型选择》,摘自第33届概率论暑期学校讲座(圣弗洛尔,2003年)。Jean Picard作序,《数学讲义》,1896年,施普林格,柏林,2007年。Zbl 1170.60006 MR 2319879号·Zbl 1170.60006号
[72] W.K.Newey和D.McFadden,大样本估计和假设检验,《计量经济学手册》。第四卷,2111-2245,《经济手册》。,1994年,阿姆斯特丹,北霍兰德。MR 1315971
[73] I.Pinelis,无穷维鞅分布不等式的一种方法,收录于《Banach空间中的概率》,8(Brunswick,ME,1991),128-134,Progr。概率。,30,Birkhäuser Boston,马萨诸塞州波士顿,1992年。Zbl 0793.60016 MR 1227615·Zbl 0793.60016号
[74] G.Puy、M.E.Davies和R.Gribonval,从Hilbert空间到R M的稳定线性嵌入的方法,IEEE Trans。通知。《理论》,63(2017),第4期,2171-1287。Zbl 1366.94122 MR 3626863号·Zbl 1366.94122号
[75] A.Rahimi和B.Recht,大型内核机器的随机特征,摘自《神经信息处理系统的进展》,第20期,1160-1167页,Curran Associates,Inc.,2007年。
[76] A.Rahimi和B.Recht,《随机厨房水槽的加权和:用学习中的随机化代替最小化》,摘自《神经信息处理系统进展》21,1313-1320,Curran Associates,Inc.,2008年。
[77] M.Reiß和M.Wahl,PCA重建误差的非渐近上界,Ann.Statist。,48(2020),第21098-1123号。Zbl 1450.62070 MR 4102689·Zbl 1450.62070号
[78] A.Rudi、R.Camoriano和L.Rosasco,《少即是多:Nyström计算正则化》,摘自《神经信息处理系统进展》,第28期,1657-1665页,Curran Associates,Inc.,2015年。
[79] V.Schellekens、A.Chatalic、F.Houssiau、Y.-A.De Montjoye、L.Jacques和R.Gribonval,《不同私有压缩k-means》,2019年IEEE声学、语音和信号处理国际会议,7933-7937,IEEE,2019。
[80] J.Shawe-Taylor、C.K.Williams、N.Cristianini和J.Kandola,关于Gram矩阵的特征谱和核PCA的泛化误差,IEEE Trans。通知。理论,51(2005),第7期,2510-2522。Zbl 1310.15076 MR 2246374号·Zbl 1310.15076号
[81] R.Shwartz-Ziv和N.Tishby,《通过信息打开深层神经网络的黑匣子》,2017年。arXiv公司:1703.00810
[82] A.J.Smola、A.Gretton、L.Song和B.Schölkopf,分布的希尔伯特空间嵌入,算法学习理论。第18届国际会议,ALT 2007,(日本仙台,2007),13-31,Springer,2007·Zbl 1142.68407号
[83] R.Gribonval、G.Blanchard、N.Keriven和Y.Traonmilin
[84] B.Sriperumbudur和N.Sterge,使用随机特征的近似核PCA:计算与统计权衡,2020年。arXiv:1706.06296
[85] B.K.Sriperumbudur、A.Gretton、K.Fukumizu、B.Schölkopf和G.R.G.Lanckriet,Hilbert空间嵌入和概率度量,J.Mach。学习。第11号决议(2010年),1517-1561。Zbl 1242.60005 MR 2645460号·Zbl 1242.60005号
[86] B.K.Sriperumbudur和Z.Szabó,随机傅里叶特征的最佳速率,《神经信息处理系统进展》28,1144-1152,Curran Associates,Inc.,2015年。
[87] N.Sterge、B.Sriperumbudur、L.Rosasco和A.Rudi,《不劳而获:通过Nyström抽样实现内核PCA的效率》,载于《第二十三届国际人工智能与统计会议论文集》,3642-3652,《机器学习研究论文集》(Proceedings of Machine Learning Research),108,PMLR,2020年。
[88] N.Thaper、S.Guha、P.Indyk和N.Koudas,动态多维直方图,SIGMOD'02:2002年ACM SIGMOD数据管理国际会议论文集,428-439,计算机械协会,纽约,2002年。
[89] E.Ullah、P.Mianjy、T.V.Marinov和R.Arora,具有z O.P n/随机特征的流式内核PCA,摘自《神经信息处理系统进展》31,第11页,Curran Associates,Inc.,2018年。收到日期:2017年12月6日;2020年4月17日修订
[90] R.Gribonval,里昂大学,Inria,CNRS,ENS de Lyon,UCB Lyon 1,LIP UMR 5668,69342 Lyon Cedex 07,法国E-mail:remi.gribonval@inria.fr
[91] G.Blanchard,巴黎萨克利大学,法国国家研究院,Inria,奥赛数学实验室,91405 Orsay,France E-mail:gilles.blanchard@universite-paris-saclay.frN.Keriven,CNRS,GIPSA-lab,UMR 5216,38400 Saint-Martin-d'Hères,France电子邮件:nicolas.keriven@gipsa-lab.grenoble-inp.frY.Traonmilin,CNRS,波尔多大学,波尔多INP,IMB,UMR 525133400 Talence,France E-mail:yann.traonmilin@math.u-bordeaux.fr
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。