×

条件t-SNE:更多信息的t-SNE嵌入。 (英语) Zbl 07465786号

摘要:降维和流形学习方法,如t-分布随机邻域嵌入(t-SNE),经常用于将高维数据映射到二维空间,以可视化和探索该数据。除了t-SNE的细节之外,任何此类方法都有两个实质性的局限性:(1)并非所有信息都可以在单个二维嵌入中捕获,(2)对于消息灵通的用户,此类嵌入的显著结构通常是已知的,因此无法获得任何真正的新见解。目前,尚不知道如何以同样有效的方式提取剩余信息。我们介绍条件t-SNE(ct-SNE)是t-SNE的泛化,它以标签的形式对先验信息进行折扣。这样可以获得更多信息和更相关的嵌入。为了实现这一点,我们提出了t-SNE目标的条件版本,获得了一种具有单一综合目标的优雅方法。我们展示了如何有效地优化目标,并研究了ct-SNE对t-SNE的额外参数的影响。对合成数据和实际数据的定性和定量实证结果表明,ct-SNE具有可扩展性、有效性,并实现了其目标:它允许在嵌入中捕获互补结构,并为实际数据提供了新的见解。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alipanahi,B。;Ghodsi,A.,引导局部线性嵌入,PRL,32,7,1029-1035(2011)·doi:10.1016/j.patrec.2011.02.002
[2] Barshan,E。;古德西,A。;Z.阿齐米法尔。;Zolghadri Jahromi,M.,《监督主成分分析:子空间和子流形的可视化、分类和回归》,PR,44,7,1357-1371(2011)·Zbl 1214.62067号
[3] Cavallo,M.和Demiralp,圣保罗。(2018). 基于降维数据探索的可视化交互框架。CHI(第635页)。
[4] Dáaz,I.、Cuadrado,A.A.、Pérez,D.、GarcáA,F.J.和Verleysen,M.(2014)。可视化分析的交互式维度缩减。ESANN(第183-188页)。
[5] Dua,D。;Graff,C.,UCI机器学习库(2017),加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院,加利福尼亚州奥尔文
[6] Edwards,H.和Storkey,A.(2015)。审查对手的陈述。arXiv:151105897。
[7] 浮士德·R。;Glickenstein,D。;Scheidegger,C.,《调光器:解释非线性投影的轴线》,TVCG,25,1,481-490(2019)
[8] Gray,A.G.和Moore,A.W.(2001年)。统计学习中的N体问题。《NeurIPS》(第521-527页)。
[9] Grover,A.和Leskovec,J.(2016)。node2vec:网络的可扩展特性学习。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第855-864页)。ACM公司。
[10] Hotelling,H.,两组变量之间的关系,生物统计学,28,3-4,321-377(1936)·兹伯利0015.40705 ·doi:10.2307/2333955
[11] DH Jeong;齐姆基维茨,C。;费希尔,B。;Ribarsky,W。;Chang,R.,iPCA:基于PCA的视觉分析交互式系统,计算机图形论坛,28,3,767-774(2009)·文件编号:10.1111/j.1467-8659.2009.01475.x
[12] Kang,B.、Lijffijt,J.、Santos-Rodríguez,R.和De Bie,T.(2016)。主观上有趣的成分分析:与先前预期形成对比的数据预测。KDD(第1615-1624页)。
[13] Madras,D.、Creager,E.、Pitassi,T.和Zemel,R.(2018年)。学习对手公平和可转让的陈述。arXiv:180206309。
[14] Makhzani,A.、Shlens,J.、Jaitly,N.、Goodfellow,I.和Frey,B.(2015)。对手自动编码器。arXiv:151105644。
[15] McInnes,L.和Healy,J.(2018年)。UMAP:用于降维的统一流形近似和投影。arXiv:180203426。
[16] Paurat,D.和Gärtner,T.(2013年)。Invis:用于交互式可视数据分析的工具。ECML-PKDD(第672-676页)。
[17] Perozzi,B.、Al-Rfou,R.和Skiena,S.(2014)。Deepwalk:社交表征的在线学习。第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第701-710页)。ACM公司。
[18] 佩佐蒂,N。;英国石油公司Lelieveldt;范德马滕,L。;霍尔特,T。;Eisemann,E。;Vilanova,A.,《渐进式视觉分析的近似和用户可控制tSNE》,TVCG,23,7,1739-1752(2017)
[19] Puolamäki,K.、Oikarinen,E.、Kang,B.、Lijffijt,J.和De Bie,T.(2018年)。带有主观反馈的交互式可视数据探索:一种信息理论方法。ICDE(第1208-1211页)。
[20] Ram,P.、Lee,D.、March,W.和Gray,A.G.(2009年)。成对统计问题的线性时间算法。《NeurIPS》(第1527-1535页)。
[21] 斯塔恩克,J。;Dörk,M。;米勒,B。;Thom,A.,《探测预测:解释降维安排和误差的交互技术》,TVCG,22,1,629-638(2016)
[22] Tang,J.,Liu,J.、Zhang,M.和Mei,Q.(2016)。可视化大规模和高维数据。WWW(第287-297页)。
[23] Tang,J.,Zhang,J.、Yao,L.、Li,J.和Zu,(2008)。Arnetminer:学术社交网络的提取和挖掘。第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第990-998页)。ACM公司。
[24] Tenenbaum,JB;德席尔瓦,V。;Langford,JC,《非线性降维的全球几何框架》,《科学》,29055002319-2323(2000)·doi:10.1126/science.290.5500.2319
[25] 托格森,WS,多维标度:I.理论与方法,《心理测量学》,17,4,401-419(1952)·Zbl 0049.37603号 ·doi:10.1007/BF02288916
[26] van der Maaten,L.,使用基于树的算法加速t-SNE,机器学习研究杂志,15,1,3221-3245(2014)·兹比尔1319.62134
[27] 范德马滕,L。;Hinton,G.,使用t-SNE可视化数据,JMLR,11月9日,2579-2605(2008)·兹比尔1225.68219
[28] 范德马滕,L。;Hinton,G.,《可视化多幅地图中的非度量相似性》,MLJ,87,1,33-55(2012)·Zbl 1238.68140号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。