×

可视化多个地图中的非度量相似性。 (英语) Zbl 1238.68140号

摘要:多维缩放技术将对象可视化为低维度量图中的点。因此,可视化受到度量空间的基本限制。这些限制阻止了多维缩放忠实地表示非度量相似性数据,例如单词关联或事件共现。特别是,多维缩放不能忠实地表示可视化中的不及物成对相似性,也不能忠实地可视化“中心”对象。在本文中,我们对最近提出的多维缩放技术t-SNE进行了扩展。该扩展旨在解决传统多维缩放技术用于可视化非度量相似性时存在的问题。这项新技术称为多重映射t-SNE,它通过构建一组揭示相似性数据中互补结构的映射来缓解这些问题。我们将多重映射t-SNE应用于单词关联数据的大型数据集和NIPS合著者的数据集,证明了其成功可视化非度量相似性的能力。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Banerjee,A。;Krumpelman,C。;巴苏,S。;穆尼,R。;Ghosh,J.,基于模型的重叠聚类(2005)
[2] 贝尔金,M。;Niyogi,P.,《嵌入和聚类的拉普拉斯特征映射和光谱技术》,第14期,585-591(2002)
[3] Belongie,S.、Malik,J.和Puzicha,J.(2001)。使用形状上下文进行形状匹配和对象识别。IEEE模式分析和机器智能汇刊,24(4),509-522·doi:10.1109/34.993558
[4] Blei,D.M.、Ng,A.Y.和Jordan,M.I.(2003年)。潜在Dirichlet分配。机器学习研究杂志,3,993-1022·Zbl 1112.68379号
[5] 布莱,D.M。;Griffiths,T.L。;约旦医学院。;Tenenbaum,J.B。;Thrun,S.(编辑);Saul,L.(编辑);Schölkopf,B.(编辑),分层主题模型和嵌套式中餐厅流程,第16期,17-24(2004),剑桥
[6] Borg,I.和Groenen,P.J.F.(2005年)。现代多维标度(第二版)。纽约:斯普林格·Zbl 1085.62079号
[7] Bostock,M.、Ogievetsky,V.和Heer,J.(2011年)。D3:数据驱动文档。IEEE可视化和计算机图形汇刊,17(12),2301-2309·doi:10.1010/TVCG.2011.185
[8] Breitkreutz,B.-J.、Stark,C.和Tyers,M.(2003)。鱼鹰:一个网络可视化系统。基因组生物学,4(3),R22.1-R22.4。
[9] Carreira-Perpiñán,M.á。,用于降维的弹性嵌入算法,167-174(2010)
[10] 凯顿,L。;Dasgupta,S.,稳健欧几里德嵌入,169-176(2006)
[11] 科洛伯特,R。;Weston,J.,《自然语言处理的统一架构:具有多任务学习的深层神经网络》,160-167(2008)·数字对象标识代码:10.1145/1390156.1390177
[12] Cook,J.A.、Sutskever,I.、Mnih,A.和Hinton,G.E.(2007年)。使用混合地图可视化相似性数据。JMLR研讨会和会议记录,2,67-74。
[13] Erhan,D.,Bengio,Y.,Courville,A.,Manzagol,P.-A.,Vincent,P.,&Bengio?机器学习研究杂志,11,625-660·Zbl 1242.68219号
[14] Frey,B.J.和Dueck,D.(2007年)。通过在数据点之间传递消息进行聚类。科学,315972-976·Zbl 1226.94027号 ·doi:10.1126/science.1136800
[15] 加西,I。;斯坦科维奇,V。;莱塔,C。;Thonnard,O.,《使用非现成防病毒引擎的多样性实验研究》,4-11(2009)
[16] Globerson,A。;Roweis,S.,通过半定规划可视化成对相似性,139-146(2007)
[17] Globerson,A.、Chechik,G.、Pereira,F.和Tishby,N.(2007年)。共现数据的欧几里得嵌入。机器学习研究杂志,82265-2295·Zbl 1222.68203号
[18] Griffiths,T.L.、Steyvers,M.和Tenenbaum,J.L.(2007年)。语义表示中的主题。《心理评论》,114(2),211-244·doi:10.1037/0033-295X.114.211
[19] 海勒,K.A。;Ghahramani,Z.,建模重叠集群的非参数贝叶斯方法(2007)
[20] 辛顿,G.E。;Roweis,S.T.,随机邻域嵌入,第15期,833-840(2003)
[21] Hofmann,T.,概率潜在语义索引,50-57(1999),纽约
[22] 雅各布斯,R.A.(1988)。通过学习速度自适应提高收敛速度。神经网络,1295-307·doi:10.1016/0893-6080(88)90003-2
[23] Jäkel,F.、Schölkopf,B.和Wichmann,F.A.(2008年)。相似性、核和三角形不等式。《数学心理学杂志》,52(2),297-303·Zbl 1152.91770号 ·doi:10.1016/j.jmp.2008.03.001
[24] Jamieson,A.R.,Giger,M.L.,Drukker,K.,Li,H.,Yuan,Y.,&Bhooshan,N.(2010年)。利用拉普拉斯特征映射和t-SNE探索乳腺CADx中的非线性特征空间降维和数据表示。医学物理学,37(1),339-351·数字对象标识代码:10.1118/1.3267037
[25] Keim,D.A.、Kohlhammer,J.、Ellis,G.和Mansmann,F.(2010年)。掌握信息时代;用可视化分析解决问题。欧洲制图协会。
[26] Klimt,B.和Yang,Y.(2004)。计算机科学课堂讲稿:第3201卷。安然语料库:电子邮件分类研究的新数据集(第217-226页)·Zbl 1132.68562号
[27] Kruskal,J.B.和Wish,M.(1986年)。多维缩放。贝弗利山:鼠尾草。
[28] 鳄鱼朱利安,S。;沙·F。;Jordan,M.I.,DiscLDA:维度约简和分类的判别学习,第21期,897-904(2009)
[29] Lafon,S.和Lee,A.B.(2006年)。扩散图和粗粒度:用于降维、图分区和数据集参数化的统一框架。IEEE模式分析和机器智能汇刊,28(9),1393-1403·doi:10.1109/TPAMI.2006.184
[30] Landauer,T.K.和Dumais,S.T.(1997)。柏拉图问题的解决方案:知识获取、归纳和表示的潜在语义分析理论。《心理评论》,104,211-240·doi:10.1037/0033-295X.104.2.211
[31] Laub,J.和Müller,K.-R.(2004)。非度量成对数据中的特征发现。机器学习研究杂志,5801-818·兹比尔1222.68246
[32] Laub,J。;Macke,J。;穆勒,K.-R。;Wichmann,F.A.,《在人类相似性判断中诱导度量违规》,第19期,777-784(2007)
[33] Lawrence,N.D.,通过最大熵进行光谱降维,51-59(2011)
[34] Lund,K。;伯吉斯,C。;Atchley,R.A.,《高维语义空间中的语义和联想启动》,660-665(1995),Mahwah
[35] Mao,Y。;Balasubramanian,K。;Lebanon,G.,使用领域知识的文本降维,801-809(2010)
[36] McCallum,A.,使用em训练的混合模型进行多标签文本分类(1999),纽约
[37] McCallum,A.、Corrada Emmanuel,A.和Wang,X.(2004)。社交网络中主题和角色发现的作者-接收人模型:安然和学术电子邮件实验(技术报告UM-CS-2004-096)。马萨诸塞大学计算机科学系,马萨诸塞州阿默斯特。
[38] Mnih,A。;Hinton,G.E.,《一个可扩展的分层分布式语言模型》,1081-1088(2009)
[39] Nelson,D.L.、McEvoy,C.L.和Schreiber,T.A.(1998年)。南佛罗里达大学的单词联想、押韵和单词片段规范。
[40] Pekalska,E.和Duin,R.P.W.(2005)。模式识别的差异表示:基础和应用。新加坡:世界科学·Zbl 1095.68105号 ·doi:10.1142/9789812703170
[41] Plaisant,C.,《信息可视化评估的挑战》(2004年)
[42] Rosen-Zvi,M。;格里菲斯,T。;斯坦弗森,M。;Smyth,P.,《作者和文档的作者-图片模型》(2004),阿灵顿
[43] Roweis,S.T.和Saul,L.K.(2000年)。局部线性嵌入的非线性降维。《科学》,290(5500),2323-2326·doi:10.1126/science.290.5500.2323
[44] Sammon,J.W.(1969年)。用于数据结构分析的非线性映射。IEEE计算机汇刊,18(5),401-409·doi:10.1109/T-C.1969.222678
[45] Schmidtlein,S.、Zimmermann,P.、Schüpferling,R.和Weiss,C.(2007)。绘制植物区系连续体:根据成像光谱学估算排序空间位置。《植物科学杂志》,第18期,第131-140页·doi:10.1111/j.1654-1103.2007.tb02523.x
[46] Schölkopf,B.和Smola,A.J.(2002年)。用内核学习。剑桥:麻省理工学院出版社。
[47] Schölkopf,B.、Smola,A.J.和Müller,K.-R(1998)。非线性分量分析是一个核心特征值问题。神经计算,10(5),1299-1319·doi:10.11162/08997698300017467
[48] B·肖。;Jebara,T.,结构保持嵌入,937-944(2009)
[49] Steyvers,M.和Tenenbaum,J.B.(2005年)。语义网络的大规模结构:统计分析和语义增长模型。认知科学,29(1),41-78·doi:10.1207/s15516709cog2901_3
[50] Teh,Y。;约旦医学院。;比尔,M。;Blei,D.M.,《分层Dirichlet过程》,第17期,1385-1392(2004),剑桥
[51] Tenenbaum,J.B.、de Silva,V.和Langford,J.C.(2000)。非线性降维的全局几何框架。科学,290(5500),2319-2323·Zbl 0955.37025号 ·doi:10.1126/science.290.5500.2319
[52] Thomas,J.J.和Cook,K.A.(2005年)。照亮道路:视觉分析的研发议程。
[53] Thonnard,O。;米斯,W。;Dacier,M.,《利用知识发现和多准则模糊决策解决攻击归因问题》,11-21(2009)·doi:10.1145/1599272.1599277
[54] Torgerson,W.S.(1952年)。多维标度I:理论和方法。《心理测量学》,第17期,第401-419页·Zbl 0049.37603号 ·doi:10.1007/BF02288916
[55] Tversky,A.和Hutchinson,J.W.(1986年)。心理空间的最近邻分析。《心理学评论》,93(11),3-22·doi:10.1037/0033-295X.93.1.3
[56] Maaten,L.J.P.,通过保留局部结构学习参数嵌入,第5期,384-391(2009)
[57] van der Maaten,L.J.P.和Hinton,G.E.(2008)。使用t-SNE可视化数据。机器学习研究杂志,92431-2456·Zbl 1225.68219号
[58] Maaten,L.J.P。;Postma,E.O.,《基于文本的绘画分析》,第7798-16号(2010年)
[59] Venna,J.、Peltonen,J.,Nybo,K.、Aidos,H.和Kaski,S.(2010年)。从信息检索的角度来看数据可视化的非线性降维。机器学习研究杂志,11,451-490·Zbl 1242.62006年
[60] Villmann,T.和Haase,S.(2010年)。任意发散的t-SNE和SNE推广的数学基础(技术报告02/2010)。米特威达应用科学大学。
[61] von Luxburg,U.(2010年)。聚类稳定性:概述。机器学习的基础和趋势,2(3),235-274·Zbl 1191.68615号
[62] 温伯格,K.Q。;包装工,B.D。;Saul,L.K.,《通过半定规划和核矩阵分解减少非线性维数》(2005),巴巴多斯
[63] 杨,Z。;国王一世。;Oja,E。;Xu,Z.,重尾对称随机邻域嵌入,第22期(2010),剑桥
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。