×

(k)维编码方案的维数相关泛化界。 (英语) Zbl 1474.68315号

摘要:(k)维编码方案是指试图使用一组具有代表性的(k)维度向量来表示数据的一组方法,包括非负矩阵分解、字典学习、稀疏编码、(k)均值聚类和特殊情况下的矢量量化。先前的\(k\)维编码方案的重构误差的泛化边界主要是维度无关的。这些边界的一个主要优点是,当数据映射到无限维或高维特征空间时,它们可以用于分析泛化误差。然而,许多应用程序使用有限维数据功能。当数据位于有限维特征空间中时,对于比维数无关边界更紧的(k)维编码方案,我们能否获得维数相关的泛化边界?对。在这封信中,我们解决了这个问题,并导出了一个与维数相关的泛化通过限定由重构误差引起的损失函数类的覆盖数来限定(k)维编码方案。界限的顺序是\(mathcal{O}((mk\ln(mkn)/n)^{lambda_n})\),其中\(m)是特征的维数,\(k)是编码方案线性实现中的列数,\(n)是样本的大小,\(lambda-n>0.5)当\(n\)是有限的,\(λ_n=0.5)当\。我们证明了我们的界可以比以前的结果更紧,因为它避免了在损失函数的(k)上引入最坏情况的上界。所提出的泛化界还应用于一些特定的编码方案,以证明与维数无关的泛化边界是对与维数无关泛化边界的不可或缺的补充。

理学硕士:

68T09号 数据分析和大数据的计算方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abbott,L.和Dayan,P.(1999)。相关变异性对人口编码准确性的影响。神经计算,11(1),91-101,
[2] Alexander,K.(1984)。经验过程的概率不等式和重对数定律。概率年鉴,12(4),1041-1067·Zbl 0549.60024号
[3] Amiri,A.和Haykin,S.(2014)。在感知注意的影响下改进了稀疏编码。神经计算,26(2),377-420·Zbl 1410.91401号
[4] Anderberg,M.R.(1973)。应用程序的群集分析。纽约:学术出版社·Zbl 0299.62029号
[5] Antos,A.(2005)。改进了经验设计矢量量化器的测试和训练失真的极大极小界。IEEE信息理论汇刊,51(11),4022-4032·Zbl 1284.94038号
[6] Antos,A.,Györfi,L.,&Gyórgy,A.(2005)。改进了经验矢量量化器设计中的收敛速度。IEEE信息理论汇刊,51(11),4013-4022·Zbl 1284.94039号
[7] Bartlett,P.L.、Linder,T.和Lugosi,G.(1998年)。经验量化器设计中的最小最大失真冗余。IEEE信息理论汇刊,44(5),1802-1813·兹伯利0964.94015
[8] Bartlett,P.L.和Mendelson,S.(2003)。Rademacher和高斯复杂性:风险边界和结构结果。机器学习研究杂志,3463-482·Zbl 1084.68549号
[9] Biau,G.、Devroye,L.和Lugosi,G.(2008年)。关于Hilbert空间中聚类的性能。IEEE信息理论汇刊,54(2),781-790·Zbl 1304.62088号
[10] Boucheron,S.、Lugosi,G.和Massart,P.(2013)。集中不等式:独立性的非共鸣理论。纽约:牛津大学出版社·Zbl 1279.60005号
[11] Chen,S.S.、Donoho,D.L.和Saunders,M.A.(1999年)。通过基追踪进行原子分解。SIAM科学计算杂志,20(1),33-61·Zbl 0919.94002号
[12] 周培安(1994)。基于n个矢量训练的矢量量化器的失真在##img##处降至最佳。IEEE信息理论国际研讨会论文集。新泽西州皮斯卡塔韦:IEEE。
[13] Cucker,F.和Smale,S.(2002年)。关于学习的数学基础。美国数学学会公报,39(1),1-49·Zbl 0983.68162号
[14] Devroye,L.、Györfi,L.和Lugosi,G.(1996)。模式识别的概率理论。纽约:施普林格·Zbl 0853.68150号
[15] Dhillon,I.S.、Guan,Y.和Kulis,B.(2007年)。加权图无特征向量切割是一种多级方法。IEEE模式分析和机器智能汇刊,29(11),1944-1957,
[16] Ding,C.、He,X.和Simon,H.D.(2005)。关于非负矩阵分解和谱聚类的等价性。《SIAM国际数据挖掘会议论文集》。费城:SIAM。
[17] Févotte,C.、Bertin,N.和Durrieu,J.-L.(2009)。板仓齐藤发散的非负矩阵分解:在音乐分析中的应用。神经计算,21(3),793-830·Zbl 1156.94306号
[18] Gillis,N.和Vavasis,S.A.(2014年)。可分离非负矩阵分解的快速稳健递归算法。IEEE模式分析和机器智能汇刊,36(4),698-714·Zbl 1316.15015号
[19] Gong,M.、Zhang,K.、Schölkopf,B.、Tao,D.和Geiger,P.(2015)。从子样本数据中发现时间因果关系。第32届机器学习国际会议论文集(第1898-1906页)。JMLR公司。
[20] Gray,R.(1984)。矢量量化。IEEE声学、语音和信号处理杂志,1(2),4-29。
[21] Gribonval,R.、Jenatton,R.、Bach,F.、Kleinsteuber,M.和Seibert,M.(2015)。字典学习和其他矩阵分解的样本复杂性。IEEE信息理论汇刊,61(6),3469-3486·Zbl 1359.62287号
[22] Guan,N.、Tao,D.、Luo,Z.和Yuan,B.(2011)。具有快速梯度下降的流形正则判别非负矩阵分解。IEEE图像处理汇刊,20(7),2030-2048·Zbl 1372.94098号
[23] Guan,N.、Tao,D.、Luo,Z.和Yuan,B.(2012)。NeNMF:非负矩阵分解的最优梯度方法。IEEE信号处理汇刊,60(6),2882-2898·Zbl 1391.65115号
[24] Gui,J.、Sun,Z.、Ji,S.、Tao,D.和Tan,T.(2016)。基于结构化稀疏性的特征选择:一项综合研究。IEEE神经网络和学习系统汇刊。doi:10.1109/TNNLS.2013.2551724,
[25] 霍夫丁(1963)。有界随机变量和的概率不等式。美国统计协会杂志,58(301),13-30·Zbl 0127.10602号
[26] 亨特,J.J.、伊博森,M.和古德希尔,G.J.(2012)。现场稀疏编码:自发视网膜波足以实现方向选择性。神经计算,24(9),2422-2433·Zbl 1269.92016年9月
[27] Ivana,T.和Pascal,F.(2011年)。字典学习:什么是我的信号的正确表示?IEEE信号处理杂志,4(2),27-38。
[28] Kanungo,T.、Mount,D.M.、Netanyahu,N.S.、Piatko,C.D.、Silverman,R.和Wu,A.Y.(2002)。一种高效的k-means聚类算法:分析与实现。IEEE模式分析和机器智能汇刊,24(7),881-892·Zbl 1414.68128号
[29] Lee,D.D.和Seung,H.S.(1999年)。通过非负矩阵分解学习对象的各个部分。《自然》,401(6755),788-791·Zbl 1369.68285号
[30] Levrard,C.(2013)。经验矢量量化的快速速率。《电子统计杂志》,71716-1746·Zbl 1349.62038号
[31] Levrard,C.(2015)。希尔伯特空间中矢量量化的非渐近界。《统计年鉴》,43(2),592-619·Zbl 1314.62143号
[32] 林德,T.(2000)。矢量量化器的训练失真。IEEE信息理论汇刊,46(4),1617-1623·Zbl 1005.94009号
[33] Linder,T.、Lugosi,G.和Zeger,K.(1994年)。信源编码定理、经验量化器设计和通用有损信源编码的收敛速度。IEEE信息理论汇刊,40(6),1728-1740·邮编:0826.94006
[34] Liu,H.、Liu,T.、Wu,J.、Tao,D.和Fu,Y.(2015)。光谱集合聚类。《ACM SIGKKD知识发现和数据挖掘国际会议论文集》(第715-724页)。纽约:ACM,
[35] Liu,H.,Shao,M.,Li,S.,&Fu,Y.(2016)。图像聚类的无限集合。《ACM SIGKKD知识发现和数据挖掘国际会议论文集》,纽约:ACM,
[36] Liu,H.,Wu,J.,Tao,D.,Zhang,Y.,&Fu,Y.(2015)。Dias:高度稀疏文本聚类的反汇编框架。《SIAM国际数据挖掘会议论文集》(第766-774页)。费城:SIAM。
[37] Liu,T.和Tao,D.(2015)。曼哈顿非负矩阵分解的性能。IEEE神经网络和学习系统汇刊。doi:10.1109/TNNLS.2015.2458986
[38] Liu,W.、Tao,D.、Cheng,J.和Tang,Y.(2014)。用于图像注释的多视点Hessian鉴别稀疏编码。计算机视觉和图像理解,118,50-60,
[39] MacQueen,J.(1967)。多元观测值分类和分析的一些方法。第五届伯克利数理统计与概率研讨会论文集。伯克利:加利福尼亚大学出版社·Zbl 0214.46201号
[40] Mairal,J.、Bach,F.和Ponce,J.(2012)。任务驱动的词典学习。IEEE模式分析和机器智能汇刊,34(4),791-804,
[41] Maurer,A.和Pontil,M.(2010年)。希尔伯特空间中的K维编码方案。IEEE信息理论汇刊,56(11),5839-5846·兹比尔1366.94305
[42] Maurer,A.、Pontil,M.和Romera--Paredes,B.(2013年)。多任务和转移学习的稀疏编码。机器学习国际会议论文集。纽约:ACM·Zbl 1360.68696号
[43] Mehta,N.和Gray,A.G.(2013年)。预测稀疏编码的基于稀疏性的泛化界。机器学习国际会议论文集。纽约:ACM。
[44] Olshausen,B.A.和Field,D.J.(1996)。通过学习自然图像的稀疏代码,出现了简单的细胞感受野特性。《自然》,381(6583),607-609,
[45] Pehlevan,C.、Hu,T.和Chklovskii,D.B.(2015)。用于线性子空间学习的Hebbian/反Hebbian神经网络:来自流数据多维缩放的推导。神经计算,27(1),1461-1495·Zbl 1472.68153号
[46] 波拉德博士(1982年)。k均值聚类的中心极限定理。IEEE信息理论汇刊,10(4),912-926·Zbl 0502.62055号
[47] Quiroga,R.Q.、Nadasdy,Z.和Ben Shaul,Y.(2004)。用小波和超顺磁聚类进行无监督尖峰检测和排序。神经计算,16(8),1661-1687·Zbl 1059.94511号
[48] Schneider,P.、Biehl,M.和Hammer,B.(2009年a)。学习矢量量化中的自适应相关矩阵。神经计算,21(12),3532-3561·Zbl 1192.68537号
[49] Schneider,P.、Biehl,M.和Hammer,B.(2009年B)。鉴别矢量量化中的远程学习。神经计算,21(10),2942-2969·Zbl 1186.68390号
[50] Talagrand,M.(1994)。高斯过程和经验过程的边界更清晰。概率年鉴,22(1),28-76·Zbl 0798.60051号
[51] Vainscher,D.、Mannor,S.和Bruckstein,A.M.(2011年)。字典学习的样本复杂性。机器学习研究杂志,12,3259-3281·Zbl 1280.68210号
[52] Vapnik,V.(2000)。统计学习理论的本质。纽约:施普林格·Zbl 0934.62009号
[53] Wright,J.、Yang,A.Y.、Ganesh,A.、Sastry,S.S.和Ma,Y.(2009)。基于稀疏表示的鲁棒人脸识别。IEEE模式分析和机器智能汇刊,31(2),210-227,
[54] Xu,M.和Lafferty,J.D.(2012)。条件稀疏编码和分组多元回归。机器学习国际会议论文集。纽约:ACM。
[55] Zhang,C.(2013)。Bennett型推广界:偏差较大的情况下,收敛速度更快。《人工智能不确定性会议论文集》。纽约:ACM。
[56] 张涛(2002)。覆盖某些正则化线性函数类的数字界。机器学习研究杂志,2527-550·Zbl 1007.68157号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。