杰雷米·比戈;艾尔莎·卡泽尔;尼古拉斯·帕帕达基斯 有限空间上熵正则最优输运的中心极限定理和统计应用。 (英语) Zbl 1454.62136号 电子。J.统计。 第2期第13期,5120-5150页(2019). 熵正则化最优输运(称为Sinkhorn散度)的概念使得在数据分析中使用平滑的最优输运距离变得可行。Sinkhorn散度允许快速计算(可能)高维有限度量空间上支持的两个概率分布之间的熵正则Wasserstein距离。本文的目的是分析Sinkhorn散度及其中心版本的潜在益处,以便从经验概率测度进行统计推断。作者导出了有限度量空间上支持的(未知)分布采样数据的此类发散的渐近分布的结果。这些结果允许建立新的测试统计量,以测量多元概率分布之间的差异。论文组织如下。第二节回顾了概率测度之间的最优运输问题,引入了Sinkhorn散度和Sinkhorn-损失的概念。其次,导出了经验Sinkhorn散度和经验Sinkhor损失的渐近分布。此外,还分析了此类统计的行为(当正则化参数以取决于可用观测数的速率趋于零时)。在第3节中讨论了一种bootstrap程序,用于估计这些统计分布(例如它们的非渐近方差和分位数)上的未知感兴趣量。第4节和第5节分别用模拟数据集和实际数据集说明了所提出的方法。作者写道:“我们的工作受到[M.Sommerfeld先生和A.蒙克、J.R.Stat.Soc.、Ser。B、 统计方法。80,第1期,219–238页(2018年;Zbl 1380.62121号)].”审核人:Joseph Melamed(洛杉矶) 引用于12文件 MSC公司: 6220国集团 非参数推理的渐近性质 62G10型 非参数假设检验 62G09号 非参数统计重采样方法 62-08 统计问题的计算方法 60F05型 中心极限和其他弱定理 关键词:最佳运输;凹陷背离;中心极限定理;引导数据库;假设检验;多元概率分布 引文:Zbl 1380.62121号 软件:引导数据库;Wasserstein甘 PDF格式BibTeX公司 XML格式引用 \textit{J.Bigot}等人,《电子》。J.Stat.13,No.2,5120--5150(2019;Zbl 1454.62136) 全文: 内政部 arXiv公司 欧几里得 参考文献: [1] M.Arjovsky、S.Chintala和L.Bottou。冈州瓦瑟斯坦。,arXiv预印arXiv:1701.078752017。 [2] J.Bigot、E.Cazelles和N.Papadakis。wasserstein重心的数据驱动正则化及其在多元密度注册中的应用。,ArXiv电子打印,1804.089622018·Zbl 1471.62308号 [3] J.Bigot,R.Gouet,T.Klein,A.López等。通过凸主成分分析在Wasserstein空间中的大地主成分分析。,《亨利·庞加莱研究所年鉴》,《概率与统计》,53(1):1-262017年·Zbl 1362.62065号 [4] S.Boyd和L.Vandenberghe。,凸优化。剑桥大学出版社,2004年·Zbl 1058.90049号 [5] E.Cazelles、V.Seguy、J.Bigot、M.Cuturi和N.Papadakis。wasserstein空间直方图的测地pca与log-pca。,SIAM科学计算杂志,40(2):B429-B4562018·Zbl 1387.62077号 ·doi:10.1137/17M1143459 [6] Q.Chen和Z.Fang。一阶简并下泛函的推论。,2018年SSRN·Zbl 1452.62303号 [7] M.Cuturi,《陷坑距离:最佳运输的光速计算》。年,《神经信息处理系统进展》26,第2292-2300页。2013 [8] M.Cuturi和A.Doucet。Wasserstein重心的快速计算。2014年机器学习国际会议,JMLR W&CP,第32卷,685-693页,2014年。 [9] M.Cuturi和G.Peyré。变分Wasserstein问题的一种光滑对偶方法。,SIAM成像科学杂志,9(1):320-3432016·Zbl 1335.49076号 [10] E.del Barrio、J.A.Cuesta-Albertos、C.Matrán和J.M.Rodriguez-Rodriguez。基于(L_2)-Wasserstein距离的拟合优度检验。,安.统计师。,27(4) :1230-1239, 1999. ·Zbl 0961.62037号 ·doi:10.1214/aos/1017938923 [11] E.del Barrio、E.Giné和F.Utzet。经验分位数过程(L_2)泛函的渐近性,及其在基于加权Wasserstein距离的拟合检验中的应用。,伯努利,11(1):131-1892005·Zbl 1063.62072号 ·doi:10.3150/bj/1110228245 [12] E.del Barrio和J.-M.Loubes。一般维经验运输成本的中心极限定理。,arXiv:1705.01299v12017年·Zbl 1466.60042号 ·doi:10.1214/18-AOP1275 [13] B.Efron和R.J.Tibshirani。,引导程序简介。查普曼和霍尔出版社,纽约,1993年·Zbl 0835.62038号 [14] J.Feydy、T.Séjourné、F.-X.Vialard、S.-I.Amari、A.Trouvé和G.Peyre。使用辛霍恩发散在最佳传输和MMD之间进行插值。,arXiv预印arXiv:1810.082782018。 [15] G.Freitag和A.Munk。关于(k)样本半参数模型的Hadamard可微性及其在结构关系评估中的应用。,《多元分析杂志》。,94(1):123-158, 2005. ·Zbl 1065.62080号 ·doi:10.1016/j.jmva.2004.03.006 [16] C.Frogner、C.Zhang、H.Mobahi、M.Araya和T.A.Poggio。Wasserstein失学。《神经信息处理系统进展》,第2053-2061页,2015年。 [17] A.Genevay、L.Chizat、F.Bach、M.Cuturi和G.Peyre。凹陷发散的样本复杂性。,arXiv预印arXiv:1810.027332018。 [18] A.Genevay、M.Cuturi、G.Peyre和F.Bach。大规模最优运输的随机优化。D.D.Lee、U.V.Luxburg、I.Guyon和R.Garnett,编辑,Proc。NIPS’16,第3432-3440页。Curran Associates,Inc.,2016年。 [19] A.Genevay、G.Peyré和M.Cuturi。Sinkhorn-autodiff:生成模型的可牵引Wasserstein学习。,arXiv预印本1706.002922017。 [20] A.Gramfort、G.Peyré和M.Cuturi。神经影像数据的快速最佳传输平均。年,医学成像信息处理国际会议,第261-272页。斯普林格,2015年。 [21] M.Klatt、C.Tameling和A.Munk。经验正则化最优运输:统计理论与应用。,arXiv预印arXiv:1810.098802018·Zbl 1483.62055号 [22] T.-T.Lu和S.-H.Shiou。块矩阵的逆。,计算机与数学与应用,43(1-2):119-1292002·Zbl 1001.15002号 [23] G.Luise、A.Rudi、M.Pontil和C.Ciliberto。用Wasserstein距离学习的Sinkhorn近似的微分性质。《神经信息处理系统进展》,第5859-5870页,2018年。 [24] X.阮。有限和无限混合模型中潜在混合测度的收敛性。,安.统计师。,41(1):370-400, 02 2013. ·兹比尔1347.62117 ·doi:10.1214/12-AOS1065 [25] A.Olmos和F.A.Kingdom。一种生物启发的阴影和反射图像恢复算法。,Perception,33(12):1463-14732004年。 [26] J.Rabin和N.Papadakis。具有最佳传输距离的凸彩色图像分割。年,计算机视觉中尺度空间和变分方法国际会议,第256-269页。斯普林格,2015年·Zbl 1444.94023号 [27] A.Ramdas、N.G.Trillos和M.Cuturi。关于wasserstein双样本检验和相关非参数检验家族。,熵,19(2):472017。 [28] T.Rippl、A.Munk和A.Sturm。经验Wasserstein距离的极限定律:高斯分布。,《多元分析杂志》。,151:90-109, 2016. ·Zbl 1351.62064号 ·doi:10.1016/j.jmva.2016.06.005 [29] A.Rolet、M.Cuturi和G.Peyre。快速的字典学习和平滑的Wasserstein损失。在,过程。2016年国际人工智能与统计会议(AISTATS)。 [30] M.A.Schmitz、M.Heitz、N.Bonneel、F.M.N.Mboula、D.Coeurjolly、M.Cuturi、G.Peyre和J.-L.Starck。Wasserstein字典学习:基于最优传输的无监督非线性字典学习。,arXiv预印arXiv:1708.019552017·Zbl 1437.94027号 ·doi:10.1137/17M1140431 [31] V.Seguy和M.Cuturi。最优运输度量下概率测度的主测地线分析。C.Cortes、N.Lawrence、D.Lee、M.Sugiyama和R.Garnett主编,《神经信息处理系统进展》28,第3294-3302页。Curran Associates,Inc.,2015年。 [32] J.Solomon、F.de Goes、G.Peyre、M.Cuturi、A.Butscher、A.Nguyen、T.Du和L.Guibas。卷积wasserstein距离:几何域上的有效最优传输。2015年ACM图形交易(SIGGRAPH’15)·Zbl 1334.68267号 ·数字对象标识代码:10.1145/2766963 [33] M.Sommerfeld和A.Munk。有限空间上经验wasserstein距离的推论。,英国皇家统计学会期刊:B系列(统计方法论),2016年·Zbl 1380.62121号 ·doi:10.1111/rssb.12236 [34] J.Sourati、M.Akcakaya、T.K.Leen、D.Erdogmus和J.G.Dy。主动学习中基于Fisher信息的目标渐进分析。,《机器学习研究杂志》,18(34):1-411917·Zbl 1433.68381号 [35] A.Thibault、L.Chizat、C.Dossal和N.Papadakis。正则化最优运输的超松弛Sinkhorn-Knopp算法。,arXiv预印arXiv:1711.018512017。 [36] A.W.Van Der Vaart和J.A.Wellner。,弱收敛和经验过程。施普林格,1996年·Zbl 0862.60002号 [37] C.维拉尼。,最佳交通专题,数学研究生课程第58卷。美国数学学会,2003年·兹比尔1106.90001 [38] L.Wasserman。,所有统计学:统计推断的简明课程。施普林格科学与商业媒体,2011年·Zbl 1053.62005年 [39] A.G.威尔逊。熵最大化模型在出行分布、模式划分和路线划分理论中的应用。,《运输经济学与政策杂志》,第108-1261969页。 [40] J.Ye,P.Wu,J.Z.Wang,J.Li.利用稀疏支持的Wasserstein重心进行快速离散分布聚类。,IEEE传输。信号处理,65(9):2317-2332017·Zbl 1414.94709号 ·doi:10.1010/TSP.2017.2659647 [41] C.扎利内斯库。,一般向量空间中的凸分析。《世界科学》,2002年·Zbl 1023.46003号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。