×

随机Wasserstein重心计算:用统计保证重采样。 (英语) Zbl 1493.62010年

摘要:我们提出了一种混合重采样方法来近似大规模数据集上有限支撑的Wasserstein重心,该方法可以与任何精确解算器相结合。目标值的预期误差以及重心本身的非渐近界允许校准计算成本和统计精度。这些上限的速率被证明是最优的,并且与基础维度无关,而基础维度只出现在常量中。通过对Cuturi和Doucet的次梯度下降算法进行简单修改,我们展示了我们的方法在无数模拟数据集上的适用性,以及来自细胞显微镜的真实数据示例,这些都是计算Wasserstein重心的最先进算法无法企及的。

MSC公司:

62-08 统计问题的计算方法
62克09 非参数统计重采样方法
62页第10页 统计学在生物学和医学中的应用;元分析
90C08型 线性规划的特殊问题(运输、多指标、数据包络分析等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Agueh和G.Carlier,Wasserstein空间中的重心,SIAM J.Math。分析。,43(2011),第904-924页,https://doi.org/10.1137/100805741。 ·Zbl 1223.49045号
[2] M.Agueh和G.Carlier,《Wasserstein空间的中央限制?》?,C.R.数学。,355(2017),第812-818页·Zbl 1388.60061号
[3] A.Ahidar-Coutrix、T.Le Gouic和Q.Paris,度量空间中经验重心的收敛速度:曲率、凸性和可展测地线,Probab。理论相关领域,177(2020),第323-368页·Zbl 1442.51004号
[4] J.Altschuler、J.Niles-Weed和P.Rigollet,《通过Sinkhorn迭代实现最优运输的近线性时间近似算法》,载于《神经信息处理系统进展》,I.Guyon、U.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett编辑,Curran Associates,Red Hook,NY,2017年,1964-1974页。
[5] P.C.Aílvarez-Esteban、E.Del Barrio、J.Cuesta-Albertos和C.Matraín,Wasserstein空间中重心的定点方法,J.Math。分析。申请。,441(2016),第744-762页·Zbl 1383.49052号
[6] E.Anderes、S.Borgwardt和J.Miller,《离散Wasserstein重心:离散数据的最佳传输》,《数学》。方法操作。决议,84(2016),第389-409页,https://doi.org/10.1007/s00186-016-0549-x。 ·Zbl 1353.90074号
[7] J.Backhof-Veraguas、J.Fontbona、G.Rios和F.Tobar,《Wasserstein Barycenters的贝叶斯学习》,arXiv:1805.10833,2018年。
[8] J.-D.Benamou、G.Carlier、M.Cuturi、L.Nenna和G.Peyreí,正则化运输问题的迭代Bregman预测,SIAM J.Sci。计算。,37(2015),第A1111-A1138页·Zbl 1319.49073号
[9] D.Berend和A.Kontorovich,应用二项式平均绝对偏差的尖锐估计,Statist。普罗巴伯。莱特。,83(2013),第1254-1259页·Zbl 1268.60021号
[10] J.Bigot和T.Klein,通过平均最优运输图表征Wasserstein空间中的重心,ESAIM Probab。《统计》,22(2018),第35-57页·兹比尔1409.62049
[11] L.J.Billera、S.P.Holmes和K.Vogtmann,《系统发育树空间的几何》,Adv.Appl。数学。,27(2001),第733-767页·Zbl 0995.92035号
[12] E.Boissard和T.Le Gouic,《关于Wasserstein距离中经验测度和占领测度的平均收敛速度》,《Ann.Inst.Henri Poincare⁄Probab》。《统计》,50(2014),第539-563页·Zbl 1294.60005号
[13] N.Bonneel,G.Peyré和M.Cuturi,Wasserstein重心坐标:使用最优传输的直方图回归,ACM Trans。Graphics,35(2016)。
[14] S.Borgwardt和S.Patterson,关于寻找稀疏Wasserstein重心的计算复杂性,J.Comb。最佳。,41(2021年),第736-761页·Zbl 1511.68122号
[15] S.Borgwardt和S.Patterson,离散重心的改进线性规划,通知J.Optim。,2(2020年),第14-33页。
[16] D.Breuer、J.Nowak、A.Ivakov、M.Somsich、S.Persson和Z.Nikoloski,肌动蛋白细胞骨架的全系统组织决定了下胚轴植物细胞中的细胞器运输,Proc。国家。阿卡德。科学。美国,114(2017),第E5741-E5749页。
[17] M.M.Bronstein、J.Bruna、Y.LeCun、A.Szlam和P.Vandergheynst,《几何深度学习:超越欧几里德数据》,IEEE信号处理杂志,34(2017),第18-42页。
[18] J.Chevallier,《概率测度的统一分解:量化、聚类和收敛速度》,J.Appl。概率。,55(2018),第1037-1045页·Zbl 1405.60025号
[19] S.Chewi、T.Maunu、P.Rigollet和A.J.Stromme,《Bures-Wasserstein重心的梯度下降算法》,《第三十三届学习理论会议论文集》,PMLR 1252020年,第1276-1304页。
[20] M.Cuturi,Sinkhorn distances:Lightspeed computation of optimal transport,in Advances in Neural Information Processing Systems,C.J.C.Burges,L.Bottou,M.Welling,Z.Ghahramani,and K.Weinberger,eds.,Curran Associates,Red Hook,NY,2013年,第2292-2300页。
[21] M.Cuturi和A.Doucet,《Wasserstein重心的快速计算》,载《第31届国际机器学习会议论文集》,E.P.Xing和T.Jebara主编,PMLR,北京,2014年,第685-693页。
[22] E.del Barrio、E.Gineí和C.Matraín,经验分布和真实分布之间Wasserstein距离的中心极限定理,Ann.Probab。,27(1999),第1009-1071页·Zbl 0958.60012号
[23] S.Dereich、M.Scheutzow和R.Schottstedt,《建设性量化:通过经验测量的近似》,Ann Inst.Henri PoincareíProbab。《统计》,49(2013),第1183-1203页·Zbl 1283.60063号
[24] J.J.Dongarra、P.Luszczek和A.Petitet,《LINPACK基准:过去、现在和未来》,并发计算,15(2003),第803-820页。
[25] I.L.Dryden、A.Koloydenko和D.Zhou,协方差矩阵的非核素统计,及其在扩散张量成像中的应用,Ann.Appl。统计学。,3(2009年),第1102-1123页·Zbl 1196.62063号
[26] I.L.Dryden和J.S.Marron,面向对象数据分析,第1版。,查普曼和霍尔/CRC,佛罗里达州博卡拉顿,2021年·Zbl 1476.62008年
[27] R.M.Dudley,《Glivenko-Cantelli平均收敛速度》,《数学年鉴》。统计学。,40(1969年),第40-50页·兹比尔0184.41401
[28] D.Dvinskikh,SA vs SAA for Population Wasserstein重心计算,arXiv:2001.076972020。
[29] P.Dvurechenskii、D.Dvinskikh、A.Gasnikov、C.Uribe和A.Nedich,分散和随机化:Wasserstein重心的更快算法,神经信息处理系统进展,2018年31月,第10760-10770页。
[30] P.Dvurechensky、A.Gasnikov和A.Kroshnin,《计算最优传输:加速梯度下降的复杂性优于Sinkhorn算法》,载《第35届国际机器学习会议论文集》,斯德哥尔摩,J.G.Dy和A.Krause编辑,2018年,第1366-1375页。
[31] S.N.Evans和F.A.Matsen,环境序列样本的系统发育Kantorovich-Rubinstein度量,J.R.Stat.Soc.Ser。B统计方法。,74(2012),第569-592页·兹比尔1411.62317
[32] N.Fournier和A.Guillin,关于经验测度的Wasserstein距离的收敛速度,Probab。理论相关领域,162(2015),第707-738页·Zbl 1325.60042号
[33] M.Freíchet,《Les eáleíments ale _atoires de nature quelconque dans un espace distancieí》,《安娜·亨利·彭加雷研究所》,10(1948),第215-310页·Zbl 0035.20802号
[34] D.Ge,H.Wang,Z.Xiong,Y.Ye,内部点方法反击:解决Wasserstein重心问题,《神经信息处理系统进展》,2019年,第6894-6905页。
[35] C.Genovese、M.Perone Pacifico、I.Verdinelli和L.Wasserman,极小流形估计,J.马赫。学习。研究,13(2012),第1263-1291页,http://jmlr.org/papers/v13/genovese12a.html。 ·Zbl 1283.62112号
[36] S.Gerber和M.Maggioni,计算最优运输的多尺度策略,J.Mach。学习。决议,18(2017),第1-32页·Zbl 1435.65095号
[37] T.L.Gouic、Q.Paris、P.Rigollet和A.J.Stromme,亚历山大空间和瓦瑟斯坦空间中经验重心的快速收敛,《欧洲数学杂志》。Soc.(JEMS)将出现·Zbl 07714611号
[38] S.Graf和H.Luschgy,概率分布量化基础,施普林格,柏林,2007年·Zbl 0951.60003号
[39] A.Gramfort、G.Peyreí和M.Cuturi,神经成像数据的快速最优传输平均,医学成像信息处理国际会议,柏林斯普林格,2015年,第261-272页。
[40] F.Huber、A.Boire、M.P.Loápez和G.H.Koenderink,《细胞骨架相声:当三种不同的性格组合在一起时》,《细胞生物学的当前观点》,32(2015),第39-47页。
[41] S.Huckemann、T.Hotz和A.Munk,内禀形状分析:黎曼流形模等距李群作用的测地PCA,Statist。Sinica,20(2010),第1-100页·Zbl 1180.62087号
[42] S.F.Huckemann和B.Eltzner,非标准空间的数据分析,Wiley Interdiscip。版次计算。《统计》,13(2021),e1526·Zbl 1512.62060号
[43] L.V.Kantorovich,《论物质的易位》,Dokl。阿卡德。恶心。苏联(NS),37(1942),第199-201页·Zbl 0061.09705号
[44] M.Klatt、C.Tameling和A.Munk,《经验正则化最优运输:统计理论与应用》,SIAM J.Math。数据科学。,2(2020年),第419-443页·Zbl 1483.62055号
[45] B.R.Kloeckner,《Wasserstein空间的几何研究:超几何》,Mathematika,61(2015),第162-178页·Zbl 1312.30069号
[46] A.Kroshin、V.Spokoiny和A.Suvorikova,《Bures-Wasserstein重心的统计推断》,Ann.Appl。概率。,31(2021年),第1264-1298页·兹比尔1476.60051
[47] T.Le Gouic和J.-M.Loubes,Wasserstein重心的存在性和一致性,Probab。理论相关领域,168(2017),第901-917页·Zbl 1406.60019号
[48] Y.T.Lee和A.Sidford,《线性规划的寻路方法:在(O)(vrank)迭代中求解线性规划和最大流的更快算法》,载于第55届计算机科学基础年会论文集,IEEE,2014年,第424-433页。
[49] J.Lei,无界函数空间中Wasserstein距离下经验测度的收敛和集中,Bernoulli,26(2020),第767-798页·Zbl 1455.60009号
[50] L.Li、A.Genevay、M.Yurochkin和J.M.Solomon,连续正则化Wsserstein重心,神经信息处理系统进展,332020。
[51] T.Lin、N.Ho、X.Chen、M.Cuturi和M.I.Jordan,固定支撑Wasserstein重心的计算硬度和快速算法,神经信息处理系统进展,2020年第33期。
[52] Q.Meírigot,《优化交通的多尺度方法》,计算机图形论坛,30(2011),第1583-1592页。
[53] A.M.Oberman和Y.Ruan,使用多重网格线性规划方法解决最优运输问题,J.Comp。数学。,38(2020年),第933-951页·Zbl 1474.90281号
[54] V.M.Panaretos和Y.Zemel,点过程的振幅和相位变化,《统计年鉴》。,44(2016),第771-812页·Zbl 1381.62261号
[55] B.通过,具有无穷多边缘的最佳运输,J.Funct。分析。,264(2013),第947-963页·Zbl 1258.49073号
[56] V.Patrangnaru和L.Ellingson,流形的非参数统计及其在对象数据分析中的应用,CRC出版社,佛罗里达州博卡拉顿,2015年·Zbl 1331.62007号
[57] G.Peyreí和M.Cuturi,《计算优化传输:数据科学应用》,Foundat。趋势马赫数。学习。,11(2019年),第355-607页·Zbl 1475.68011号
[58] J.Rabin、G.Peyreí、J.Delon和M.Bernot,Wasserstein重心及其在纹理混合中的应用,《计算机视觉中的尺度空间和变分方法国际会议》,柏林斯普林格,2011年,第435-446页。
[59] Y.Rubner、C.Tomasi和L.J.Guibas,《推土机距离作为图像检索的度量标准》,国际计算机杂志。视觉。,40(2000年),第99-121页·Zbl 1012.68705号
[60] M.A.Schmitz、M.Heitz、N.Bonneel、F.Ngole、D.Coeurjolly、M.Cuturi、G.Peyreí和J.-L.Starck,《瓦瑟斯坦词典学习:基于最优传输的无监督非线性词典学习》,SIAM J.Imaging Sci。,11(2018),第643-678页·Zbl 1437.94027号
[61] B.Schmitzer,稠密最优传输的稀疏多尺度算法,J.Math。《成像视觉》,56(2016),第238-259页·兹比尔1351.49037
[62] B.Schmitzer,熵正则传输问题的稳定稀疏缩放算法,SIAM J.Sci。计算。,41(2019年),第A1443-A1481页·Zbl 1422.49034号
[63] V.Seguy和M.Cuturi,最优运输度量下概率测度的主测地线分析,《神经信息处理系统进展》,2015年,第3312-3320页。
[64] J.Solomon、F.De Goes、G.Peyreí、M.Cuturi、A.Butscher、A.Nguyen、T.Du和L.Guibas,卷积Wasserstein距离:几何域上的有效最优运输,ACM Trans。《图形》,34(2015),第1-11页·兹比尔1334.68267
[65] M.Sommerfeld和A.Munk,有限空间上经验Wasserstein距离的推断,J.R.Stat.Soc.Ser。B统计方法。,80(2018),第219-238页·Zbl 1380.62121号
[66] M.Sommerfeld、J.Schrieber、Y.Zemel和A.Munk,《最优运输:使用精确解算器的快速概率近似》,J.Mach。学习。决议,20(2019),第1-23页·兹比尔1441.62216
[67] D.Tiapkin、A.Gasnikov和P.Dvurechensky,Wasserstein重心的随机鞍点优化,arXiv:20067632020。
[68] L.N.Vaserstein,空间可数乘积上的马尔可夫过程,描述大型自动机系统,Problemy Peredachi Informatsii,5(1969),第64-72页·Zbl 0273.60054号
[69] C.维拉尼,《最佳交通:新旧》,格兰德伦数学。威斯。338,施普林格,柏林,2008年·Zbl 1156.53003号
[70] J.Weed和F.Bach,《Wasserstein距离中经验测度收敛的夏普渐近和有限样本率》,伯努利,25(2019),第2620-2648页·Zbl 1428.62099号
[71] 谢颖,王晓霞,王瑞瑞,查浩,计算精确Wasserstein距离的快速近点方法,《人工智能中的不确定性》,PMLR,2020年,第433-453页。
[72] J.Ye、P.Wu、J.Z.Wang和J.Li,使用稀疏支持的Wasserstein重心快速离散分布聚类,IEEE Trans。信号处理。,65(2017年),第2317-2332页·Zbl 1414.94709号
[73] Y.Zemel和V.M.Panaretos,《瓦瑟斯坦空间中的弗雷切特均值和普鲁斯特分析》,伯努利,25(2019),第932-976页·Zbl 1431.62132号
[74] V.M.Zolotarev,随机变量空间中的度量距离及其分布,数学。苏联斯博尼克,30(1976),第373-402页·Zbl 0383.60022号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。