×

Wasserstein判别分析。 (英语) Zbl 1480.62125号

摘要:Wasserstein判别分析(WDA)是一种新的有监督线性降维算法。根据经典Fisher判别分析的蓝图,WDA选择投影矩阵,使不同类别投影点的离散度与同一类别投影点离散度之比最大。为了量化色散,WDA使用正则化的Wasserstein距离。由于优化传输的基本原则,WDA能够捕获类之间的全局(分布规模)和局部(样本规模)交互。此外,我们还表明WDA利用了一种诱导邻域保护的机制。正则化Wasserstein距离可以使用Sinkhorn矩阵缩放算法计算;WDA的优化问题可以通过Sinkhorn定点迭代的自动微分来解决。数值实验表明,在玩具示例和实际数据集(如MNIST)的预测和可视化方面,以及在从加州理工学院数据集子集获得的深层特征方面,都有很好的结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
60A10英寸 概率测度理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Absil,P.A.、Mahony,R.和Sepulchre,R.(2009年)。矩阵流形上的优化算法。普林斯顿:普林斯顿大学出版社·Zbl 1147.65043号
[2] 巴赫·F·R、兰克里特·G·R和乔丹·M·I(2004)。多核学习、二次曲线对偶和smo算法。收录于:第二十一届机器学习国际会议论文集。ACM,第6页
[3] Benamou,J.D.、Carlier,G.、Cuturi,M.、Nenna,L.和Peyré,G.(2015)。正则化运输问题的迭代bregman投影。SIAM科学计算杂志,37(2),A1111-A1138·Zbl 1319.49073号 ·doi:10.1137/141000439
[4] Bengio,Y.(2000年)。基于梯度的超参数优化。神经计算,12(8),1889-1900·doi:10.1162/089976600300015187
[5] Bengio,Y.(2009年)。学习ai.Foundations and trends\[\textregistered\]®的深层架构。机器学习,2(1),1-127·Zbl 1192.68503号 ·doi:10.1561/2200000006
[6] Bonnans,J.F.和Shapiro,A.(1998年)。带扰动的优化问题:导游。SIAM评论,40(2),228-264·Zbl 0915.49021号 ·doi:10.1137/S0036144596302644
[7] Bonneel,N.、Peyré,G.和Cuturi,M.(2016)。Wasserstein重心坐标:使用最佳传输的直方图回归。ACM图形汇刊,35(4),71:1-71:10·doi:10.1145/2897824.2925918
[8] Boumal,N.、Mishra,B.、Absil,P.A.和Sepulchre,R.(2014)。Manopt,一个用于流形优化的matlab工具箱。机器学习研究杂志,15(1),1455-1459·Zbl 1319.90003号
[9] Burges,C.J.(2010年)。缩小尺寸:有导游陪同。波士顿:现在是出版商·Zbl 1211.68126号
[10] Chapelle,O.、Vapnik,V.、Bousquet,O.和Mukherjee,S.(2002年)。为支持向量机选择多个参数。机器学习,46(1-3),131-159·Zbl 0998.68101号 ·doi:10.1023/A:1012450327387
[11] Colson,B.、Marcotte,P.和Savard,G.(2007年)。二级优化概述。《运筹学年鉴》,153(1),235-256·Zbl 1159.90483号 ·doi:10.1007/s10479-007-0176-2
[12] Courty,N.、Flamary,R.、Tuia,D.和Rakotomamonjy,A.(2016年)。域自适应的最佳传输。IEEE模式分析和机器智能汇刊。
[13] Cuturi,M.(2013)。凹坑距离:最佳运输的光速计算。NIPS,第2292-2300页
[14] Cuturi,M.和Doucet,A.(2014年)。瓦瑟斯坦重心的快速计算。在ICML中。
[15] Donahue,J.、Jia,Y.、Vinyals,O.、Hoffman,J.,Zhang,N.、Tzeng,E.等人(2014)。DeCAF:用于通用视觉识别的深度卷积激活功能。《第31届机器学习国际会议论文集》,第647-655页。
[16] Emigh,M.,Kriminger,E.,&Prņncipe J.C.(2015)。基于信息散度准则的线性判别分析。2015年神经网络国际联合会议(IJCNN)。IEEE,第1-6页
[17] Fern,X.Z.和Brodley,C.E.(2003)。高维数据聚类的随机投影:一种聚类集成方法。ICML,第3卷,第186-193页。
[18] Flamary,R.和Courty,N.(2017年)。Pot-python优化传输库
[19] Friedman,J.、Hastie,T.和Tibshirani,R.(2001)。统计学习的要素。统计学中的斯普林格系列。柏林:斯普林格·Zbl 0973.62007号
[20] Frogner,C.、Zhang,C.、Mobahi,H.、Araya,M.和Poggio,T.(2015)。学习时有一种瓦瑟斯坦式的失落感。在NIPS中,第2044-2052页
[21] Giraldo,L.G.S.,Principe,J.C.(2013)。具有无限可分核的信息论学习。《第一届代表性学习国际会议记录》,第1-8页
[22] Griffin,G.、Holub,A.和Perona,P.(2007)。Caltech-256对象类别数据集。技术报告。CNS-TR-2007-001,加利福尼亚理工学院。
[23] Huang,G.,Guo,C.,Kusner,M.J.,Sun,Y.,Sha,F.,Weinberger,K.Q.(2016)。监督单词移动器的距离。主题:神经信息处理系统进展,第4862-4870页
[24] Knight,P.A.(2008)。Sinkhorn-Knopp算法:收敛性和应用。SIAM矩阵分析与应用杂志,30(1),261-275·Zbl 1166.15301号 ·数字对象标识代码:10.1137/060659624
[25] Koep,N.和Weichwald,S.(2016年)。Pymanopt:一个python工具箱,用于使用自动微分对流形进行优化。机器学习研究杂志,17,1-5·Zbl 1416.65580号
[26] Lichman,M.(2013)。UCI机器学习库。http://archive.ics.uci.edu/ml。
[27] Mueller,J.和Jaakkola,T.(2015)。主要差异分析:分布之间差异的可解释特征。在NIPS中,第1693-1701页。
[28] Petersen,K.B.、Pedersen,M.S.等人(2008年)。矩阵食谱。丹麦技术大学,7,15。
[29] Peyré,G.和Cuturi,M.(2018年)。计算最优运输。计算机科学基础与趋势(待出版)。https://optimatransport.github.io。 ·Zbl 1475.68011号
[30] Schmidt,M.(2008)。在matlab中使用Minconf投影方法进行简单约束优化。
[31] Schölkopf,B.和Smola,A.J.(2002)。使用内核学习:支持向量机、正则化、优化等。剑桥:麻省理工学院出版社。
[32] Seguy,V.和Cuturi,M.(2015)。最优运输度量下概率测度的主测地线分析。在NIPS中,第3294-3302页。
[33] Solomon,J.、Rustamov,R.、Leonidas,G.和Butscher,A.(2014)。用于半监督学习的Wasserstein传播。在ICML中,第306-314页。
[34] Sugiyama,M.(2007年)。通过局部fisher判别分析对多模态标记数据进行降维。机器学习研究杂志,81027-1061·Zbl 1222.68312号
[35] 铃木,T.和杉山,M.(2013)。通过平方损失互信息估计进行充分的降维。神经计算,25(3),725-758·Zbl 1269.62054号 ·doi:10.1162/NECO_a_00407
[36] Tangkaratt,V.、Sasaki,H.和Sugiyama,M.(2015)。二次互信息导数的直接估计及其在监督降维中的应用。arXiv预印本arXiv:1508.01019·Zbl 1461.62081号
[37] Van der Maaten,L.和Hinton,G.(2008年)。使用t-sne可视化数据。机器学习研究杂志,9(2579-2605),85·Zbl 1225.68219号
[38] Van Der Maaten,L.、Postma,E.和Van den Herik,J.(2009年)。维度缩减:比较综述。机器学习研究杂志,10,66-71。
[39] Villani,C.(2008)。最佳交通:新旧(第338卷)。柏林:斯普林格·Zbl 1156.53003号
[40] Weinberger,K.Q.和Saul,L.K.(2009年)。大幅度最近邻分类的距离度量学习。机器学习研究杂志,10207-244·Zbl 1235.68204号
[41] Xing,E.P.、Ng,A.Y.、Jordan,M.I.和Russell,S.(2003)。远程度量学习,应用于带有副信息的集群。神经信息处理系统进展,15,505-512。
[42] Zhang,L.、Dong,W.、Zhang、D.和Shi,G.(2010)。基于局部像素分组的主成分分析两阶段图像去噪。模式识别,43(4),1531-1549·Zbl 1191.68808号 ·doi:10.1016/j.patcog.2009.09.023
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。