×

兹马思-数学第一资源

关于积分概率度量的经验估计。(英语) Zbl 1295.62035
摘要:给定可测空间\(S)上定义的两个概率测度\(\mathbb{P})和\(\mathbb{Q}\),积分概率度量(IPM)定义为\[\gamma{\mathcal F}(\mathbb{P},\mathbb{Q})=\sup\left\{\left |\int{S}F d\mathbb{P}-\int{S}F d\mathbb{Q}\右| \,:\,F\in\mathcal{F}\right\},\]其中\(\mathcal{F})是\(S\)上的一类实值有界可测函数。通过适当选择\(\mathcal{F}),可以得到\(\mathbb{P}\)和\(\mathbb{Q}\)之间的各种常用距离,包括Kantorovich度量、Fortet-Mourier度量、对偶有界Lipschitz距离(也称为Dudley度量)、总变差距离和核距离。
在本文中,我们考虑从从\(\mathbb{P}\)和\(\mathbb{Q})抽取的有限随机样本中估计\(\gamma{mathcal{F}\)的问题。虽然上述距离不能用闭式计算每个\(\mathbb{P}\)和\(\mathbb{Q}\),但我们证明了它们的经验估计量是容易计算的,并且是强一致的(除了总的变化距离)。我们进一步分析了它们的收敛速度。基于这些结果,我们讨论了某些选择的\(\mathcal{F}\)(因此相应的IPMs)相对于其他选择的优势-特别是,与其他提到的距离相比,核距离有三个有利的性质:它在计算上更便宜,经验估计以更快的速度收敛到总体值,并且收敛速度与空间的维数(d)无关(对于\(S=\mathbb{R}^{d}\)。我们还通过将IPM与二元分类问题联系起来,对IPMs及其经验估计量给出了一种新的解释:当类间条件分布的IPM是与二元分类器相关的最优风险的负值时,适当的二元分类器(如支持向量机、Lipschitz分类器等)的平滑度与这些类条件分布之间IPM的经验估计量成反比。

理学硕士:
62G05型 非参数估计
60B05型 拓扑空间上的概率测度
PDF格式 BibTeX公司 XML 引用
参考文献:
[1] Ali,S.M.和Silvey,S.D.(1966年)。从一个分布到另一个分布的散度系数的一般类。,英国皇家统计学会杂志,B辑(方法学)28131-142·Zbl 0203.19902
[2] 阿隆萨金(Aronszajn,N.)(1950年)。再生核理论。,反式。阿默尔。数学。Soc。68337-404·Zbl 0037.20701
[3] Bartlett,P.和Mendelson,S.(2002年)。Rademacher和Gaussian复杂性:风险边界和结构结果。,机器学习研究杂志3463-482·Zbl 1084.68549
[4] Bartlett,P.L.,Bousquet,O.和Mendelson,S.(2005年)。局部rademacher复杂性。,统计年鉴33,4,1497-1537·Zbl 1083.62034
[5] Beauzamy,B.(1985年)。,他们的空间和Banach介绍。北荷兰,荷兰·Zbl 0585.46009
[6] Berlinet,A.和Thomas Agnan,C.(2004年)。,概率统计中的再生核Hilbert空间。Kluwer学术出版社,伦敦,英国·Zbl 1145.62002
[7] 比克尔,P.J.(1969年)。p变量情形下smirnov双样本检验的无分布版本。,数理统计年鉴40,1,1-23·Zbl 0179.48704
[8] Boucheron,S.,Lugosi,G.,和Massart,P.(2000年)。一个尖锐的集中不等式及其应用。,随机结构和算法16,3277-292·Zbl 0954.60008
[9] 布雷曼,L.(1999年)。预测游戏和电弧算法。,神经计算11,7,1493-1517。
[10] Cortes,C.和Vapnik,V.(1995年)。支持向量网络。,机器学习20,273-297·邮政编码:0831.68098
[11] Csiszár,I.(1967年)。概率分布和间接观测差异的信息型测度。,匈牙利科学数学研究院2,299-318·中银0157.25802
[12] 库克,F.和周,D.-X.(2007)。,学习理论:一种近似理论观点。英国剑桥大学出版社·Zbl 1274.41001号
[13] Devroye,L.和Györfi,L.(1985年)。,非参数密度估计:\(LΒ1\)视图。威利,纽约·Zbl 0546.62015
[14] Devroye,L.,Györfi,L.,和Lugosi,G.(1996年)。,模式识别的概率理论。斯普林格,纽约·Zbl 0853.68150
[15] 达德利,R.M.(2002年)。,真实分析和概率。英国剑桥大学出版社·Zbl 1023.60001号
[16] Fedotov,A.A.,Harremoës,P.,和TopsëF.(2003年)。平斯克不等式的精化。,IEEE传输。信息论49,6,1491-1498·Zbl 1063.94017号
[17] Fukumizu,K.,Gretton,A.,Sun,X.和Schölkopf,B.(2008年)。条件依赖的核测度。年,《神经信息处理系统的进展》20,J.Platt,D.Koller,Y.Singer和S.Roweis编辑,麻省理工学院出版社,马萨诸塞州剑桥,489-496。
[18] Gibbs,A.L.和Su,F.E.(2002年)。关于概率度量的选择和定界。,国际统计评论70,3419-435·Zbl 1217.62014
[19] 格雷,R.M.,纽霍夫,D.L.,和希尔兹,P.C.(1975年)。(距离论)对超限信息论的应用。,概率年鉴3315-328·Zbl 0304.94025
[20] Gretton,A.,Borgwardt,K.,Rasch,M.,Schoelkopf,B.,和Smola,A.(2012年)。核双样本检验。,JMLR 13723-773·Zbl 1283.62095
[21] Gretton,A.,Borgwardt,K.M.,Rasch,M.,Schölkopf,B.,和Smola,A.(2007年)。两样本问题的核方法。神经信息处理系统的进展19,B.Schölkopf,J.Platt和T.Hoffman,麻省理工学院出版社,513-520·Zbl 1283.62095
[22] Gretton,A.,Fukumizu,K.,Teo,C.H.,Song,L.,Schölkopf,B.,和Smola,A.J.(2008年)。独立性的核统计检验。神经信息处理系统的进展20,J.Platt,D.Koller,Y.Singer和S.Roweis编辑,麻省理工学院出版社,585-592。
[23] Khosravifard,M.,Fooladivanda,D.和Gulliver,T.A.(2007年)。(f)-发散中凸性与度量性质的冲突。,IEICE传输。基础E90-A,91848-1853。
[24] (1961年,莫戈罗夫和科罗夫)\函数空间中集合的熵与容量。,美国数学学会翻译2,17,277-364·Zbl 0133.06703
[25] 林德瓦尔,T.(1992年)。,耦合方法讲座。约翰威利父子公司,纽约·Zbl 0850.60019
[26] Massart,P.(2000年)。集中不等式在统计学中的一些应用。,安。法科。科学。图卢兹数学。9,6,245-303·Zbl 0986.62002
[27] McShane,E.J.(1934年)。功能范围的扩展。,美国数学学会公报40837-842·Zbl 0010.34606
[28] Mendelson,S.(2002年)。Glivenko-Cantelli类的Rademacher平均值和相变。,IEEE信息理论汇刊48,1251-263·Zbl 1059.60027
[29] Müller,A.(1997年)。积分概率度量及其生成函数类。,应用概率的进展29429-443·6008ZB11
[30] Nguyen,X.,Wainwright,M.J.,和Jordan,M.I.(2007年)。似然比和散度泛函的非参数估计。年,IEEE信息理论国际研讨会。
[31] Nguyen,X.,Wainwright,M.J.,和Jordan,M.I.(2009年)。关于替代损失函数和\(f\)—发散。,统计年鉴37,2876-904·Zbl 1162.62060
[32] Nguyen,X.,Wainwright,M.J.,和Jordan,M.I.(2010年)。用凸风险最小化估计散度函数和似然比。,IEEE信息理论汇刊56,11,5847-5861·Zbl 1366.62071
[33] Rachev,S.T.(1984年)。关于概率测度空间中的一类最小泛函。,概率论及其应用29,41-48·中银0531.60008
[34] Rachev,S.T.(1985年)。Monge-Kantorovich质量转移问题及其随机应用。,概率论及其应用29647-676·Zbl 0581.60010
[35] Rachev,S.T.和Rüschendorf,L.(1998年)。,大众运输问题。第一卷理论,第二卷应用。概率及其应用。斯普林格·维拉格,柏林·Zbl 0990.60500
[36] Rockafellar,R.T.(1970年)。,凸分析。普林斯顿大学出版社,普林斯顿,新泽西州·18401ZB01号
[37] Schölkopf,B.和Smola,A.J.(2002年)。,用核学习。麻省理工学院出版社,剑桥,马萨诸塞州·Zbl 1019.68094
[38] Shawe Taylor,J.和Cristianini,N.(2004年)。,模式分析的核心方法。英国剑桥大学出版社·Zbl 0994.68074
[39] Shorack,G.R.(2000年)。,统计学家的概率。斯普林格,纽约·Zbl 0951.62005
[40] 斯米尔诺夫,N.(1939年)。关于两个独立样本的经验分布曲线间差异的估计。,莫斯科大学数学公报2,3-26。莫斯科大学·中银0023.24902
[41] (斯雷德,2010)。平滑,低噪音,速度快。在《神经信息处理系统的进展》23,J.Lafferty,C.K.I.Williams,J.Shawe Taylor,R.Zemel和A.Culotta,Eds.2199-2207。
[42] 斯里佩鲁姆布杜,B.(2011年)。基于测度Hilbert空间嵌入的混合密度估计。信息论国际研讨会论文集。1027-1030年。
[43] Sriperumbudur,B.K.,Gretton,A.,Fukumizu,K.,Lanckriet,G.R.G.,和Schölkopf,B.(2008年)。概率测度的内射Hilbert空间嵌入。在,程序。第21届学习理论年会,R.Servedio和T.Zhang,第111-122版·Zbl 1242.60005
[44] Sriperumbudur,B.K.,Gretton,A.,Fukumizu,K.,Schölkopf,B.,和Lanckriet,G.R.G.(2010年)。Hilbert空间嵌入与概率测度度量。,机器学习研究杂志11,1517-1561·Zbl 1242.60005
[45] Steinwart,I.和Christmann,A.(2008年)。,支持向量机。斯普林格·Zbl 1203.68171
[46] Suquet,C.(2009年)。再生核Hilbert空间与随机测度。在,程序。2005年7月25日至30日在意大利卡塔尼亚举行的第五届国际艾萨克大会,H.G.W.Begehr和F.Nicolosi主编,《世界科学》,143-152·Zbl 1195.60072
[47] Vajda,I.(1989年)。,统计推断与信息理论。Kluwer学术出版社,波士顿·Zbl 0711.62002
[48] 瓦尔兰德,S.S.(1973年)。计算线上概率分布之间的Wasserstein距离。,理论证明。申请。18784-786年·Zbl 0351.60009
[49] van de Geer,S.(2000年)。,M估计中的经验过程。英国剑桥大学出版社·Zbl 0953.62049
[50] van der Vaart,A.W.和Wellner,J.A.(1996年)。,弱收敛和经验过程。斯普林格,纽约·Zbl 0862.60002
[51] von Luxburg,U.和Bousquet,O.(2004年)。基于距离的Lipschitz函数分类。,机器学习研究杂志5669-695·Zbl 1222.68326
[52] Wang,Q.,Kulkarni,S.R.和VerdúS.(2005年)。基于数据相关分区的连续分布散度估计。,IEEE传输。信息论51,9,3064-3074·Zbl 1310.94055
[53] 温德兰,H.(2005年)。,散乱数据近似。英国剑桥大学出版社·Zbl 1075.65021
[54] 惠特尼H.(1934年)。可微集上定义的解析函数。,美国数学学会会刊36,63-89·Zbl 0008.24902
[55] 佐洛塔列夫,V.M.(1983年)。概率度量。,概率论及其应用28,278-302·中银0533.60025
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。