×

关于积分概率度量的经验估计。 (英语) Zbl 1295.62035号

小结:给定可测空间上定义的两个概率测度,即(mathbb{P})和(mathbb{Q}),积分概率度量(IPM)定义为\[\gamma_{mathcal F}(\mathbb{P},\mathbb2{Q})=\sup\left\{left|\int_{S} (f)d\mathbb公司{P}(P)-\int_{S}f d\mathbb{Q}\right|\,:\,f\in\mathcal{f}\right,\]其中,\(\mathcal{F}\)是\(S\)上的一类实值有界可测函数。通过适当地选择(mathcal{F}),可以得到(mathbb{P})和(mathbb2{Q})之间的各种常用距离,包括Kantorovich度量、Fortet-Mourier度量、双边界Lipschitz距离(也称为Dudley度量)、总变差距离和核距离。
在本文中,我们考虑从(mathbb{P})和(mathbb{Q})中i.i.d.抽取的有限个随机样本中估计(gamma{mathcal{F}})的问题。虽然上述距离不能以封闭形式计算每个(mathbb{P})和(mathbb{Q})的距离,但我们证明了它们的经验估计易于计算,并且强一致(除了总变差距离)。我们进一步分析了它们的收敛速度。基于这些结果,我们讨论了某些选择(mathcal{F})(以及相应的IPM)相对于其他选择的优势——特别是,与其他提到的距离相比,核距离具有三个有利的特性:计算成本低,经验估计以更快的速度收敛到总体值,并且收敛速度与空间的维数(d)无关(对于(S=mathbb{R}^{d}))。我们还通过将IPM及其经验估计值与二元分类问题联系起来,对其进行了新的解释:虽然类间条件分布的IPM是与二元分类器相关的最佳风险的负值,适当的二元分类器(例如,支持向量机、Lipschitz分类器等)的平滑度与这些类条件分布之间IPM的经验估计值成反比。

MSC公司:

62G05型 非参数估计
60磅05 拓扑空间上的概率测度
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ali,S.M.和Silvey,S.D.(1966年)。一种分布与另一种分布的一般散度系数。,英国皇家统计学会杂志,B辑(方法学)28131-142·Zbl 0203.19902号
[2] Aronszajn,N.(1950)。再生核理论。,事务处理。阿默尔。数学。Soc.68337-404·Zbl 0037.20701号 ·数字对象标识代码:10.2307/1990404
[3] Bartlett,P.和Mendelson,S.(2002年)。Rademacher和Gaussian复杂性:风险边界和结构结果。,机器学习研究杂志3463-482·Zbl 1084.68549号 ·doi:10.1162/153244303321897690
[4] Bartlett,P.L.、Bousquet,O.和Mendelson,S.(2005)。局部雷达的复杂性。,《统计年鉴》33,4,1497-1537·Zbl 1083.62034号 ·doi:10.1214/009053605000000282
[5] Beauzamy,B.(1985)。,Banach空间及其几何简介。荷兰霍兰德北部·Zbl 0585.4609号
[6] Berlinet,A.和Thomas-Agnan,C.(2004)。,概率统计中的再生核希尔伯特空间。Kluwer学术出版社,英国伦敦·Zbl 1145.6202号
[7] Bickel,P.J.(1969年)。p变量情形下斯米尔诺夫双样本检验的无分布版本。,《数理统计年鉴》40,1,1-23·Zbl 0179.48704号 ·doi:10.1214/aoms/1177697800
[8] Boucheron,S.、Lugosi,G.和Massart,P.(2000)。一个尖锐的集中不等式及其应用。,随机结构和算法16,3,277-292·Zbl 0954.60008号 ·doi:10.1002/(SICI)1098-2418(200005)16:3<277::AID-RSA4>3.0.CO;2-1
[9] Breiman,L.(1999)。预测游戏和电弧算法。,神经计算11,7,1493-1517。
[10] Cortes,C.和Vapnik,V.(1995年)。支持向量网络。,机器学习20,273-297·Zbl 0831.68098号
[11] Csiszár,I.(1967年)。概率分布差异和间接观测的信息型度量。,匈牙利数学科学研究所2,299-318·Zbl 0157.25802号
[12] Cucker,F.和Zhou,D.-X.(2007)。,学习理论:一种近似理论观点。剑桥大学出版社,英国剑桥·Zbl 1274.41001号
[13] Devroye,L.和Györfi,L.(1985)。,非参数密度估计:(L_1)视图。纽约威利·Zbl 0546.62015号
[14] Devroye,L.、Györfi,L.和Lugosi,G.(1996)。,模式识别的概率理论。纽约施普林格-弗拉格·Zbl 0853.68150号
[15] Dudley,R.M.(2002)。,真实分析和概率。剑桥大学出版社,英国剑桥·Zbl 1023.60001号
[16] Fedotov,A.A.、Harremoös,P.和Topsöe,F.(2003)。Pinsker不等式的改进。,IEEE传输。信息理论49,61491-1498·Zbl 1063.94017号 ·doi:10.1109/TIT.2003.811927
[17] Fukumizu,K.、Gretton,A.、Sun,X.和Schölkopf,B.(2008)。条件依赖的核心度量。《神经信息处理系统的进展》20,J.Platt、D.Koller、Y.Singer和S.Roweis主编,麻省理工学院出版社,马萨诸塞州剑桥,489-496。
[18] Gibbs,A.L.和Su,F.E.(2002年)。关于选择和界定概率度量。,《国际统计评论》70,3,419-435·Zbl 1217.62014年 ·doi:10.2307/1403865
[19] Gray,R.M.、Neuhoff,D.L.和Shields,P.C.(1975年)。Ornstein距离的推广及其在信息论中的应用。,《概率年鉴》3,315-328·Zbl 0304.94025号 ·doi:10.1214/aop/1176996402
[20] Gretton,A.、Borgwardt,K.、Rasch,M.、Schoelkopf,B.和Smola,A.(2012)。内核双样本测试。,JMLR第13、723-773页·兹比尔1283.62095
[21] Gretton,A.、Borgwardt,K.M.、Rasch,M.、Schölkopf,B.和Smola,A.(2007年)。两样本问题的核方法。《神经信息处理系统的进展》19,B.Schölkopf、J.Platt和T.Hoffman,麻省理工学院出版社,513-520·Zbl 1283.62095号
[22] Gretton,A.、Fukumizu,K.、Teo,C.H.、Song,L.、Schölkopf,B.和Smola,A.J.(2008)。独立性的核心统计测试。《神经信息处理系统的进展》20,J.Platt、D.Koller、Y.Singer和S.Roweis主编,麻省理工学院出版社,585-592。
[23] Khosravifard,M.、Fooladivanda,D.和Gulliver,T.A.(2007年)。(f)-发散中凸性和度量性质的冲突。,IEICE传输。基础E90-A,9,1848-1853。
[24] Kolmogorov,A.N.和Tihomirov,V.M.(1961年)\函数空间中集合的(epsilon)-熵和(epsilen)-容量。,美国数学学会翻译2,17,277-364·Zbl 0133.06703号
[25] Lindvall,T.(1992)。,耦合方法讲座。John Wiley&Sons,纽约·Zbl 0850.60019号
[26] 马萨特,P.(2000)。集中不等式在统计学中的一些应用。,Ann.工厂。科学。图卢兹数学。9 , 6, 245-303. ·Zbl 0986.62002号 ·doi:10.5802/afst.961
[27] McShane,E.J.(1934年)。功能范围的扩展。,美国数学学会公报40837-842·兹比尔0010.34606 ·doi:10.1090/S0002-9904-1934-05978-0
[28] Mendelson,S.(2002)。Glivenko-Cantelli类的Rademacher平均值和相变。,IEEE信息理论汇刊48,1,251-263·Zbl 1059.60027号 ·数字对象标识代码:10.1109/18.971753
[29] Müller,A.(1997)。积分概率度量及其函数生成类。,应用概率的进展29,429-443·Zbl 0890.60011号 ·doi:10.307/1428011
[30] Nguyen,X.、Wainwright,M.J.和Jordan,M.I.(2007年)。似然比和散度泛函的非参数估计。年,IEEE信息理论国际研讨会。
[31] Nguyen,X.、Wainwright,M.J.和Jordan,M.I.(2009年)。关于代理损失函数和(f)-发散。,《统计年鉴》37,2876-904·Zbl 1162.62060号 ·doi:10.1214/08-AOS595
[32] Nguyen,X.、Wainwright,M.J.和Jordan,M.I.(2010年)。利用凸风险最小化估计散度泛函和似然比。,IEEE信息理论汇刊56,115847-5861·Zbl 1366.62071号 ·doi:10.1109/TIT.2010.2068870
[33] Rachev,S.T.(1984)。关于概率测度空间中的一类最小泛函。,概率论及其应用29,41-48·Zbl 0531.60008号
[34] Rachev,S.T.(1985)。Monge-Kantorovich质量转移问题及其随机应用。,概率论及其应用29,647-676·Zbl 0581.60010号 ·数字对象标识代码:10.1137/129093
[35] Rachev,S.T.和Rüschendorf,L.(1998)。,大众运输问题。第一卷理论,第二卷应用。概率及其应用。柏林斯普林格·弗拉格·兹比尔0990.60500
[36] Rockafellar,R.T.(1970)。,凸分析。普林斯顿大学出版社,新泽西州普林斯顿·Zbl 0193.18401号
[37] Schölkopf,B.和Smola,A.J.(2002)。,用内核学习。麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1019.68094号
[38] Shawe-Taylor,J.和Cristianini,N.(2004)。,模式分析的核心方法。英国剑桥大学出版社·Zbl 0994.68074号
[39] Shorack,G.R.(2000)。,统计学家的概率。纽约施普林格-弗拉格·Zbl 0951.62005号 ·doi:10.1007/b98901
[40] 斯米尔诺夫(1939)。关于两个独立样本的经验分布曲线之间的差异的估计。,莫斯科大学数学公报2,3-26。莫斯科大学·Zbl 0023.24902号
[41] Srebro,N.、Sridharan,K.和Tewari,A.(2010年)。平滑、低噪音、速度快。在《神经信息处理系统进展》23中,J.Lafferty、C.K.I.Williams、J.Shawe-Taylor、R.Zemel和A.Culotta编辑,第2199-2207页。
[42] Sriperumbudur,B.(2011年)。基于希尔伯特空间嵌入测度的混合密度估计。年,《信息理论国际研讨会论文集》。1027-1030.
[43] Sriperumbudur,B.K.、Gretton,A.、Fukumizu,K.、Lanckriet,G.R.G.和Schölkopf,B.(2008)。概率测度的内射Hilbert空间嵌入。在,程序。第21届学习理论年会,R.Servedio和T.Zhang,Eds.111-122·Zbl 1242.60005号
[44] Sriperumbudur,B.K.、Gretton,A.、Fukumizu,K.、Schölkopf,B.和Lanckriet,G.R.G.(2010)。Hilbert空间嵌入与概率测度的度量。,机器学习研究杂志11,1517-1561·Zbl 1242.60005号
[45] Steinwart,I.和Christmann,A.(2008)。,支持向量机。斯普林格·兹比尔1203.68171
[46] Suquet,C.(2009)。再生核希尔伯特空间和随机测度。在,程序。2005年7月25日至30日在意大利卡塔尼亚举行的第五届国际会计准则委员会大会上,H.G.W.Begehr和F.Nicolosi,世界科学编辑,143-152·Zbl 1195.60072号
[47] Vajda,I.(1989)。,统计推断与信息理论。Kluwer学术出版社,波士顿·Zbl 0711.62002号
[48] Vallander,S.S.(1973)。计算直线上概率分布之间的Wasserstein距离。,理论概率论。申请。18 , 784-786. ·Zbl 0351.60009号 ·数字对象标识代码:10.1137/1118101
[49] van de Geer,S.(2000)。,M估计中的经验过程。剑桥大学出版社,英国剑桥·兹比尔0953.62049
[50] van der Vaart,A.W.和Wellner,J.A.(1996)。,弱收敛和经验过程。纽约施普林格-弗拉格·兹比尔0862.60002
[51] von Luxburg,U.和Bousquet,O.(2004)。基于Lipschitz函数的距离分类。,机器学习研究杂志5669-695·Zbl 1222.68326号
[52] Wang,Q.、Kulkarni,S.R.和Verdú,S.(2005)。基于数据相关分区的连续分布的散度估计。,IEEE传输。信息理论51,9,3064-3074·兹比尔1310.94055 ·doi:10.1109/TIT.2005.853314
[53] Wendland,H.(2005)。,分散数据近似。剑桥大学出版社,英国剑桥·Zbl 1075.65021号
[54] Whitney,H.(1934年)。闭集上可微函数的解析扩张。,美国数学学会学报36,63-89·Zbl 0008.24902号 ·doi:10.2307/1989708
[55] Zolotarev,V.M.(1983)。概率度量。,概率论及其应用28,278-302·Zbl 0533.60025号 ·数字对象标识代码:10.1137/1280025
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。