×

有限空间上熵正则最优输运的中心极限定理和统计应用。 (英语) Zbl 1454.62136号

熵正则化最优输运(称为Sinkhorn散度)的概念使得在数据分析中使用平滑的最优输运距离变得可行。Sinkhorn散度允许快速计算(可能)高维有限度量空间上支持的两个概率分布之间的熵正则Wasserstein距离。本文的目的是分析Sinkhorn散度及其中心版本的潜在益处,以便从经验概率测度进行统计推断。作者导出了有限度量空间上支持的(未知)分布采样数据的此类发散的渐近分布的结果。这些结果允许建立新的测试统计量,以测量多元概率分布之间的差异。论文组织如下。
第二节回顾了概率测度之间的最优运输问题,引入了Sinkhorn散度和Sinkhorn-损失的概念。其次,导出了经验Sinkhorn散度和经验Sinkhor损失的渐近分布。此外,还分析了此类统计的行为(当正则化参数以取决于可用观测数的速率趋于零时)。在第3节中讨论了一种bootstrap程序,用于估计这些统计分布(例如它们的非渐近方差和分位数)上的未知感兴趣量。第4节和第5节分别用模拟数据集和实际数据集说明了所提出的方法。
作者写道:“我们的工作受到[M.Sommerfeld先生A.蒙克、J.R.Stat.Soc.、Ser。B、 统计方法。80,第1期,219–238页(2018年;Zbl 1380.62121号)].”

MSC公司:

6220国集团 非参数推理的渐近性质
62G10型 非参数假设检验
62G09号 非参数统计重采样方法
62-08 统计问题的计算方法
60F05型 中心极限和其他弱定理
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Arjovsky、S.Chintala和L.Bottou。冈州瓦瑟斯坦。,arXiv预印arXiv:1701.078752017。
[2] J.Bigot、E.Cazelles和N.Papadakis。wasserstein重心的数据驱动正则化及其在多元密度注册中的应用。,ArXiv电子打印,1804.089622018·Zbl 1471.62308号
[3] J.Bigot,R.Gouet,T.Klein,A.López等。通过凸主成分分析在Wasserstein空间中的大地主成分分析。,《亨利·庞加莱研究所年鉴》,《概率与统计》,53(1):1-262017年·Zbl 1362.62065号
[4] S.Boyd和L.Vandenberghe。,凸优化。剑桥大学出版社,2004年·Zbl 1058.90049号
[5] E.Cazelles、V.Seguy、J.Bigot、M.Cuturi和N.Papadakis。wasserstein空间直方图的测地pca与log-pca。,SIAM科学计算杂志,40(2):B429-B4562018·Zbl 1387.62077号 ·doi:10.1137/17M1143459
[6] Q.Chen和Z.Fang。一阶简并下泛函的推论。,2018年SSRN·Zbl 1452.62303号
[7] M.Cuturi,《陷坑距离:最佳运输的光速计算》。年,《神经信息处理系统进展》26,第2292-2300页。2013
[8] M.Cuturi和A.Doucet。Wasserstein重心的快速计算。2014年机器学习国际会议,JMLR W&CP,第32卷,685-693页,2014年。
[9] M.Cuturi和G.Peyré。变分Wasserstein问题的一种光滑对偶方法。,SIAM成像科学杂志,9(1):320-3432016·Zbl 1335.49076号
[10] E.del Barrio、J.A.Cuesta-Albertos、C.Matrán和J.M.Rodriguez-Rodriguez。基于(L_2)-Wasserstein距离的拟合优度检验。,安.统计师。,27(4) :1230-1239, 1999. ·Zbl 0961.62037号 ·doi:10.1214/aos/1017938923
[11] E.del Barrio、E.Giné和F.Utzet。经验分位数过程(L_2)泛函的渐近性,及其在基于加权Wasserstein距离的拟合检验中的应用。,伯努利,11(1):131-1892005·Zbl 1063.62072号 ·doi:10.3150/bj/1110228245
[12] E.del Barrio和J.-M.Loubes。一般维经验运输成本的中心极限定理。,arXiv:1705.01299v12017年·Zbl 1466.60042号 ·doi:10.1214/18-AOP1275
[13] B.Efron和R.J.Tibshirani。,引导程序简介。查普曼和霍尔出版社,纽约,1993年·Zbl 0835.62038号
[14] J.Feydy、T.Séjourné、F.-X.Vialard、S.-I.Amari、A.Trouvé和G.Peyre。使用辛霍恩发散在最佳传输和MMD之间进行插值。,arXiv预印arXiv:1810.082782018。
[15] G.Freitag和A.Munk。关于(k)样本半参数模型的Hadamard可微性及其在结构关系评估中的应用。,《多元分析杂志》。,94(1):123-158, 2005. ·Zbl 1065.62080号 ·doi:10.1016/j.jmva.2004.03.006
[16] C.Frogner、C.Zhang、H.Mobahi、M.Araya和T.A.Poggio。Wasserstein失学。《神经信息处理系统进展》,第2053-2061页,2015年。
[17] A.Genevay、L.Chizat、F.Bach、M.Cuturi和G.Peyre。凹陷发散的样本复杂性。,arXiv预印arXiv:1810.027332018。
[18] A.Genevay、M.Cuturi、G.Peyre和F.Bach。大规模最优运输的随机优化。D.D.Lee、U.V.Luxburg、I.Guyon和R.Garnett,编辑,Proc。NIPS’16,第3432-3440页。Curran Associates,Inc.,2016年。
[19] A.Genevay、G.Peyré和M.Cuturi。Sinkhorn-autodiff:生成模型的可牵引Wasserstein学习。,arXiv预印本1706.002922017。
[20] A.Gramfort、G.Peyré和M.Cuturi。神经影像数据的快速最佳传输平均。年,医学成像信息处理国际会议,第261-272页。斯普林格,2015年。
[21] M.Klatt、C.Tameling和A.Munk。经验正则化最优运输:统计理论与应用。,arXiv预印arXiv:1810.098802018·Zbl 1483.62055号
[22] T.-T.Lu和S.-H.Shiou。块矩阵的逆。,计算机与数学与应用,43(1-2):119-1292002·Zbl 1001.15002号
[23] G.Luise、A.Rudi、M.Pontil和C.Ciliberto。用Wasserstein距离学习的Sinkhorn近似的微分性质。《神经信息处理系统进展》,第5859-5870页,2018年。
[24] X.阮。有限和无限混合模型中潜在混合测度的收敛性。,安.统计师。,41(1):370-400, 02 2013. ·兹比尔1347.62117 ·doi:10.1214/12-AOS1065
[25] A.Olmos和F.A.Kingdom。一种生物启发的阴影和反射图像恢复算法。,Perception,33(12):1463-14732004年。
[26] J.Rabin和N.Papadakis。具有最佳传输距离的凸彩色图像分割。年,计算机视觉中尺度空间和变分方法国际会议,第256-269页。斯普林格,2015年·Zbl 1444.94023号
[27] A.Ramdas、N.G.Trillos和M.Cuturi。关于wasserstein双样本检验和相关非参数检验家族。,熵,19(2):472017。
[28] T.Rippl、A.Munk和A.Sturm。经验Wasserstein距离的极限定律:高斯分布。,《多元分析杂志》。,151:90-109, 2016. ·Zbl 1351.62064号 ·doi:10.1016/j.jmva.2016.06.005
[29] A.Rolet、M.Cuturi和G.Peyre。快速的字典学习和平滑的Wasserstein损失。在,过程。2016年国际人工智能与统计会议(AISTATS)。
[30] M.A.Schmitz、M.Heitz、N.Bonneel、F.M.N.Mboula、D.Coeurjolly、M.Cuturi、G.Peyre和J.-L.Starck。Wasserstein字典学习:基于最优传输的无监督非线性字典学习。,arXiv预印arXiv:1708.019552017·Zbl 1437.94027号 ·doi:10.1137/17M1140431
[31] V.Seguy和M.Cuturi。最优运输度量下概率测度的主测地线分析。C.Cortes、N.Lawrence、D.Lee、M.Sugiyama和R.Garnett主编,《神经信息处理系统进展》28,第3294-3302页。Curran Associates,Inc.,2015年。
[32] J.Solomon、F.de Goes、G.Peyre、M.Cuturi、A.Butscher、A.Nguyen、T.Du和L.Guibas。卷积wasserstein距离:几何域上的有效最优传输。2015年ACM图形交易(SIGGRAPH’15)·Zbl 1334.68267号 ·数字对象标识代码:10.1145/2766963
[33] M.Sommerfeld和A.Munk。有限空间上经验wasserstein距离的推论。,英国皇家统计学会期刊:B系列(统计方法论),2016年·Zbl 1380.62121号 ·doi:10.1111/rssb.12236
[34] J.Sourati、M.Akcakaya、T.K.Leen、D.Erdogmus和J.G.Dy。主动学习中基于Fisher信息的目标渐进分析。,《机器学习研究杂志》,18(34):1-411917·Zbl 1433.68381号
[35] A.Thibault、L.Chizat、C.Dossal和N.Papadakis。正则化最优运输的超松弛Sinkhorn-Knopp算法。,arXiv预印arXiv:1711.018512017。
[36] A.W.Van Der Vaart和J.A.Wellner。,弱收敛和经验过程。施普林格,1996年·Zbl 0862.60002号
[37] C.维拉尼。,最佳交通专题,数学研究生课程第58卷。美国数学学会,2003年·兹比尔1106.90001
[38] L.Wasserman。,所有统计学:统计推断的简明课程。施普林格科学与商业媒体,2011年·Zbl 1053.62005年
[39] A.G.威尔逊。熵最大化模型在出行分布、模式划分和路线划分理论中的应用。,《运输经济学与政策杂志》,第108-1261969页。
[40] J.Ye,P.Wu,J.Z.Wang,J.Li.利用稀疏支持的Wasserstein重心进行快速离散分布聚类。,IEEE传输。信号处理,65(9):2317-2332017·Zbl 1414.94709号 ·doi:10.1010/TSP.2017.2659647
[41] C.扎利内斯库。,一般向量空间中的凸分析。《世界科学》,2002年·Zbl 1023.46003号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。