×

基于格拉斯曼扩散图的高维数据降维和分类。 (英语) Zbl 1489.53136号

摘要:本文介绍了格拉斯曼扩散映射(GDMaps),这是一种新的非线性降维技术,它通过将点表示为与格拉斯曼流形上的点对应的低维子空间来定义点之间的亲和力。该方法适用于图像识别和基于数据的受限高维数据分类等应用,其中每个数据点本身是可以在低维子空间中紧凑表示的高维对象(即大矩阵)。GDMaps由两个阶段组成。第一种是逐点线性降维,其中每个高维对象都映射到表示其所在的低维子空间的格拉斯曼流形上。第二阶段是基于多点非线性核的降维,使用扩散映射识别格拉斯曼流形上点的子空间结构。为此,使用适当的格拉斯曼核构造格拉斯曼流形上连接点的图上随机游动的转移矩阵。转移矩阵的谱分析产生低维格拉斯曼扩散坐标,将数据嵌入到低维再生核希尔伯特空间。此外,基于构造一个由格拉斯曼扩散坐标给出原子的超完备降维字典,开发了一种新的数据分类/识别技术。考虑了三个示例。首先,一个“玩具”示例表明,GDMaps可以识别单位球体上结构化点的适当参数化。第二个示例演示了GDMaps揭示高维随机场数据固有子空间结构的能力。在最后一个示例中,考虑到人脸图像受到不同照明条件、面部表情变化和遮挡的影响,解决了人脸识别问题。该技术使用传统方法所需数据的一小部分,实现了较高的识别率(即在最佳情况下为95%)。

MSC公司:

53Z50型 微分几何在数据和计算机科学中的应用
14月15日 格拉斯曼流形、舒伯特流形、旗流形
60J20型 马尔可夫链和离散时间马尔可夫过程在一般状态空间(社会流动性、学习理论、工业过程等)上的应用
58D15型 映射流形
58天10分 嵌入和沉浸的空间
53对20 局部黎曼几何
53对21 局部黎曼几何方法

软件:

t-SNE公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] P.-A.Absil、A.Edelman和P.Koev,关于随机子空间之间的最大主角,线性代数应用。,414(2006),第288-294页·Zbl 1090.15017号
[2] C.C.Aggarwal、A.Hinneburg和D.A.Keim,《关于高维空间中距离度量的惊人行为》,数据库理论国际会议,Springer,2001年,第420-434页·Zbl 1047.68038号
[3] L.Auslander和R.MacKenzie,《可微流形简介》,多佛出版社,纽约,2012年·兹比尔0184.24905
[4] M.Balasubramanian和E.L.Schwartz,等距图算法和拓扑稳定性,《科学》,295(2002),第7页,https://doi.org/10.1126/science.295.5552.7a。
[5] R.G.Baraniuk、V.Cevher和M.B.Wakin,《降维和信号恢复的低维模型:几何透视》,Proc。IEEE,98(2010),第959-971页。
[6] E.Begelfor和M.Werman,重温仿射不变性,《IEEE计算机社会计算机视觉和模式识别会议论文集》,2006年,第2087-2094页。
[7] M.Belkin和P.Niyogi,用于降维和数据表示的拉普拉斯特征映射,神经计算。,15(2003年),第1373-1396页·Zbl 1085.68119号
[8] T.Bendokat、R.Zimmermann和P.A.Absil,《格拉斯曼流形手册:基本几何和计算方面》,预印本,2020年,https://arxiv.org/abs/2011.3699。
[9] E.J.Candes和M.B.Wakin,压缩采样简介,IEEE信号处理。Mag.,25(2008),第21-30页,https://doi.org/10.1109/MSP.2007.914731。
[10] R.R.Coifman和S.Lafon,扩散图,应用。计算。哈蒙。分析。,21(2006),第5-30页,https://doi.org/10.1016/j.acha.2006.04.006。 ·Zbl 1095.68094号
[11] H.Courant、R.Courand、C.Courant,H.Robbins、I.Stewart和P.Robbin,《什么是数学?:《思想和方法的基本方法》,牛津大学出版社,牛津,1996年·Zbl 0865.00001号
[12] D.L.Donoho和C.Grimes,Hessian特征映射:高维数据的局部线性嵌入技术,Proc。国家。阿卡德。科学。美国,100(2003),第5591-5596页,https://doi.org/10.1073/pnas.1031596100。 ·Zbl 1130.62337号
[13] A.Edelman和N.R.Rao,《随机矩阵理论》,《数值学报》。,14(2005),第233-297页·Zbl 1162.15014号
[14] M.Fan、X.Zhang、Z.Lin、Z.Zhang和H.Bao,基于大地测量的半监督多流形特征提取,《IEEE第12届国际数据挖掘会议论文集》,2012年,第852-857页,https://doi.org/10.109/ICDM.2012.99。
[15] L.Feng、S.Liu、Z.Wu和B.Jin,最大相似嵌入,神经计算,99(2013),第423-438页。
[16] C.Gan、J.Mao、Z.Zhang和Q.Zhu,使用塔克分解和字典降维的张量压缩算法,国际期刊分布式传感器网络。,16 (2020), 1550147720916408.
[17] D.Giovanis和M.Shields,《使用格拉斯曼流形变化对具有极高维响应的复杂系统进行不确定性量化》,J.Compute。物理。,364(2018),第393-415页,https://doi.org/10.1016/j.jcp.2018.03.009。 ·Zbl 1392.65014号
[18] D.G.Giovanis和M.D.Shields,《在格拉斯曼流形上使用高斯过程回归的高维模型的数据驱动替代品》,预印本,2020年,https://arxiv.org/abs/2003.11910。 ·Zbl 1506.62549号
[19] M.Goönen和E.Alpaydin,多核学习算法,J.Mach。学习。Res.,12(2011),第2211-2268页·Zbl 1280.68167号
[20] P.Griffiths和J.Harris,《复代数变体》,收录于《代数原理》(Principles of Algebreaiz Gebmery John Wiley&Sons),2011年,第128-211页。
[21] A.Gu、F.Sala、B.Gunel和C.Reí,《产品空间中的学习混合曲线表示法》,《学习表示法国际会议论文集》,2019年。
[22] B.Haasdonk、A.Vossen和H.Burkhardt,《Haar积分核在核方法中的不变性》,载于《图像分析》,H.Kalviainen、J.Parkkinen和A.Kaarna编辑,Springer,Berlin,2005年,第841-851页。
[23] J.Hamm和D.D.Lee,《格拉斯曼判别分析:基于子空间学习的统一观点》,载《第25届机器学习国际会议论文集》,纽约,2008年,计算机协会,第376-383页,https://doi.org/10.1145/1390156.1390204。
[24] J.Hamm和D.D.Lee,《基于子空间学习的扩展Grassmann内核》,摘自《神经信息处理系统进展》21,D.Koller、D.Schuurmans、Y.Bengio和L.Bottou编辑,Curran Associates,2009年,第601-608页。
[25] M.Harandi、R.Hartley、C.Shen、B.Lovell和C.Sanderson,《格拉斯曼流形上编码和字典学习的外部方法》,国际计算机杂志。视觉。,114(2015),第113-136页,https://doi.org/10.1007/s11263-015-0833-x。 ·Zbl 1398.94034号
[26] M.T.Harandi、M.Salzmann、S.Jayasumana、R.Hartley和H.Li,《扩展格拉斯曼内核家族:嵌入视角》,预印本,2014年,https://arxiv.org/abs/11407.1123。 ·Zbl 1376.94021号
[27] P.Hartman,《关于测地线的局部唯一性》,Amer。数学杂志。,72(1950),第723-730页·Zbl 0039.16803号
[28] I.Jolliffe,主成分分析,摘自《国际统计科学百科全书》,施普林格,柏林,2011年,第1094-1096页,https://doi.org/10.1007/978-3-642-04898-2_455。
[29] D.Krige,《Witwatersrand,J.South一些基本矿山估价问题的统计方法》。非洲冶金学会,52(1951),第119-139页,https://doi.org/10.10520/AJA0038223X_4792。
[30] Y.Ma、V.Ganapathiraman和X.Zhang,学习核翘曲的不变量表示,《第二十二届人工智能与统计国际会议论文集》,2019年,第1003-1012页。
[31] J.Maruskin,《动力系统和几何力学导论》,Solar Crest出版社,加利福尼亚州圣何塞,2012年·Zbl 1402.37001号
[32] M.Meier和Y.Nakatsukasa,《快速随机数值秩估计》,预印本,2021,https://arxiv.org/abs/2105.07388。
[33] J.Miao和A.Ben-Israel,关于(R^n)中子空间之间的主角,线性代数应用。,171(1992),第81-98页·Zbl 0779.15003号
[34] K.R.Moon、J.S.Stanley、D.Burkhardt、D.van Dijk、G.Wolf和S.Krishnaswamy,分析单细胞RNA测序数据的基于流形学习的方法,Curr。意见系统。《生物学》,第7期(2018年),第36-46页。
[35] K.R.Moon、D.van Dijk、Z.Wang、S.Gigante、D.B.Burkhardt、W.S.Chen、K.Yim、A.van den Elzen、M.J.Hirn、R.R.Cuitman、N.B.Ivanova、G.Wolf和S.Krishanswamy,《高维生物数据中的可视化结构和转换》,《自然生物》。,37 (2019). 第1482-1492页。
[36] R.J.Muirhead,《多元统计理论方面》,John Wiley&Sons,纽约,1982年·Zbl 0556.62028号
[37] A.Olivier,D.Giovanis,B.Aakash,M.Chauhan,L.Vandanapu,和M.Shields,UQpy:用于不确定性量化的通用Python包和开发环境,J.Compute。科学。,47(2020),101204。
[38] J.Oprea,《微分几何及其应用》,美国数学协会,华盛顿特区,2007年·Zbl 1153.53001号
[39] H.Owhadi和G.R.Yoo,《内核流:从数据中学习内核到深渊》,J.Compute。物理。,389(2019),第22-47页,https://doi.org/10.1016/j.jcp.2019.03.040。 ·Zbl 1452.65028号
[40] J.C.Platt,支持向量机的概率输出以及与正则化似然方法的比较,收录于《大边缘分类器的进展》,麻省理工学院出版社,马萨诸塞州剑桥,1999年,第61-74页。
[41] C.E.Rasmussen,机器学习中的高斯过程,摘自《机器学习高级讲座》,柏林斯普林格,2004年,第63-71页·兹比尔1120.68436
[42] S.T.Roweis和L.K.Saul,通过局部线性嵌入降低非线性维数,《科学》,290(2000),第2323-2326页,https://doi.org/10.1126/science.290.5500.2323。
[43] B.Scho¨lkopf、A.Smola和K.Mu¨ller,作为核心特征值问题的非线性成分分析,神经计算。,10(1998),第1299-1319页。
[44] A.Singer和H.-T.Wu,向量扩散图和连接拉普拉斯,Comm.Pure Appl。数学。,65(2012),第1067-1144页,https://doi.org/10.1002/cpa.21395。 ·Zbl 1320.68146号
[45] C.Soize和R.Ghanem,流形上的概率学习,发现。数据科学。,2(2020年),第279-307页。
[46] S.Sommer、T.Fletcher和X.Pennec,1-微分几何和黎曼几何简介,收录于《医学图像分析中的黎曼几何统计》,X.Pennec、S.Somm和T.Flecher编辑,学术出版社,纽约,2020年,第3-37页·Zbl 1456.53002号
[47] J.B.Tenenbaum、V.d.Silva和J.C.Langford,《非线性降维的全球几何框架》,《科学》,290(2000),第2319-2323页,https://doi.org/10.1126/science.290.5500.2319。
[48] P.Turaga、A.Veeraraghavan和R.Chellappa,Stiefel和Grassmann流形的统计分析及其在计算机视觉中的应用,《IEEE计算机视觉和模式识别会议论文集》,2008年,第1-8页。
[49] J.Uh、M.A.Khan和C.Hua,使用降维衍生的内呼吸替代物的四维MRI,Phys。医学生物学。,61(2016),第7812-7832页。
[50] L.J.P.van der Maaten和G.E.Hinton,使用t-SNE可视化数据,J.Mach。学习。Res.,9(2008),第2579-2605页·Zbl 1225.68219号
[51] S.Vishwanathan和A.Smola,Binet-Cauchy内核。《神经信息处理系统的进展》,载于《神经信息加工系统会议论文集》,2004年。
[52] B.Wang和J.Gao,大数据格拉斯曼流形的无监督学习,《下一代大数据技术和应用的多模态分析》,Springer,Cham,2019年,第151-180页,https://doi.org/10.1007/978-3-319-97598-6_7。
[53] B.Wang,Y.Hu,J.Gao,Y.Sun,B.Yin,《格拉斯曼流形上的低秩表示:外部视角》,预印本,2015年,https://arxiv.org/abs/1504.01807。
[54] R.Wang、X.Wu和J.Kittler,利用Grassmann流形值特征进行图像集分类的图嵌入多核度量学习,IEEE Trans。多媒体,23(2020),第228-242页。
[55] A.G.Wilson、Z.Hu、R.Salakhutdinov和E.P.Xing,《深度内核学习》,预印本,2015年,https://arxiv.org/abs/11511.02222。
[56] Y.C.Wong,格拉斯曼流形的微分几何,收录于Proc。国家。阿卡德。科学。美国,57(1967),第589-594页·Zbl 0154.21404号
[57] J.Wright、A.Y.Yang、A.Ganesh、S.S.Sastry和Y.Ma,通过稀疏表示实现鲁棒人脸识别,IEEE Trans。模式分析。机器。智力。,31(2009年),第210-227页。
[58] J.Wu,L.Huang,W.Li,H.Chan,C.Liu,and R.Gau,《稀疏子空间聚类与线性子空间邻域保持数据嵌入》,《IEEE第11届传感器阵列与多通道信号处理研讨会(SAM)论文集》,2020年,第1-5页。
[59] S.Wu、X.Jing、J.Yang和J.Yang.使用邻域相似性积分学习图像流形,《IEEE图像处理国际会议论文集》,2014年,第1897-1901页,https://doi.org/10.109/ICIP.2014.7025380。
[60] 严卫东,孙庆权,孙华华,李彦,图像集分类的联合降维和度量学习,Inform。科学。,516(2020),第109-124页·Zbl 1457.68243号
[61] K.Ye和L.-H.Lim,舒伯特变异和不同维度子空间之间的距离,SIAM J.矩阵分析。申请。,37(2016),第1176-1197页·Zbl 1365.14065号
[62] K.Ye,K.S.-W.Wong,和L.-H.Lim,旗流形优化,数学。程序。,新闻界·Zbl 07550213号
[63] 赵彦,X.You,S.Yu,C.Xu,W.Yuan,X.Y.Jing,T.Zhang,D.Tao,带局部对齐的多视图流形学习,模式识别。,78(2018),第154-166页,https://doi.org/10.1016/j.patcog.2018.01.012。
[64] R.Zimmermann,流形插值和模型简化,预印本,2019年,https://arxiv.org/abs/1902.06502。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。