×

假设检验中基于距离和基于RKHS的统计的等效性。 (英语) Zbl 1281.62117号

摘要:我们提供了一个统一的框架,将两类用于双样本和独立性测试的统计数据联系起来:一方面,统计文献中的能量距离和距离协方差;另一方面,最大平均偏差(MMD),即机器学习中建立的分布嵌入到再生核希尔伯特空间(RKHS)之间的距离。如果能量距离是用一个负类型的半度量来计算的,那么可以定义一个正定核,称为距离核,使得MMD正好对应于能量距离。相反,对于任何正定核,我们可以将MMD解释为相对于某些负型半度量的能量距离。这种等价性很容易通过乘积空间上的核扩展到距离协方差。
我们确定测试统计与所有备选方案一致的概率分布类别。最后,我们研究了距离核族在两个样本和独立性测试中的性能:我们特别表明,统计中最常用的能量距离只是核族参数中的一个成员,从这个核族中的其他选择可以产生更强大的测试。

MSC公司:

62G10型 非参数假设检验
46号30 泛函分析在概率论和统计学中的应用
68T05型 人工智能中的学习和自适应系统
68问题32 计算学习理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alba Fernández,V.、Jiménez Gamero,M.D.和Muñoz García,J.(2008)。基于经验特征函数的两样本问题测试。计算。统计师。数据分析。52 3730-3748. ·Zbl 1452.62305号
[2] Anderson,N.H.、Hall,P.和Titterington,D.M.(1994)。使用基于核的密度估计测量两个多元概率密度函数之间差异的双样本检验统计。《多元分析杂志》。50 41-54. ·Zbl 0798.62055号 ·doi:10.1006/jmva.1994.1033
[3] Arcones,M.A.和Giné,E.(1992年)。在\(U \)和\(V \)统计的引导程序上。安。统计师。20 655-674. ·Zbl 0760.62018号 ·doi:10.1214/aos/1176348650
[4] 巴赫,F.R.和乔丹,M.I.(2002)。核独立成分分析。J.马赫。学习。决议3 1-48·兹比尔1088.68689 ·doi:10.11162/153244303768966085
[5] Baringhaus,L.和Franz,C.(2004年)。关于一个新的多元双样本检验。《多元分析杂志》。88 190-206. ·Zbl 1035.62052号 ·doi:10.1016/S0047-259X(03)00079-4
[6] Berg,C.、Christensen,J.P.R.和Ressel,P.(1984)。半群上的调和分析:正定理论和相关函数。数学研究生课文100。纽约州施普林格·Zbl 0619.43001号
[7] Berlinet,A.和Thomas-Agnan,C.(2004年)。概率统计中的再生核希尔伯特空间。Kluwer,伦敦·Zbl 1145.6202号
[8] Fukumizu,K.、Song,L.和Gretton,A.(2011年)。Kernel Bayes规则。《神经信息处理系统进展》(J.Shawe-Taylor、R.S.Zemel、P.Bartlett、F.C.N.Pereira和K.Q.Weinberger编辑)24 1737-1745。纽约州Red Hook市Curran Associates。
[9] Fukumizu,K.、Gretton,A.、Sun,X.和Schölkopf,B.(2008)。条件依赖的核心度量。神经信息处理系统进展20 489-496。麻省理工学院出版社,马萨诸塞州剑桥。
[10] Fukumizu,K.、Sriperumbudur,B.、Gretton,A.和Schoelkopf,B.(2009年)。群和半群上的特征核。神经信息处理系统进展21 473-480。纽约州Red Hook市Curran Associates。
[11] Gretton,A.、Fukumizu,K.和Sriperumbudur,B.K.(2009年)。讨论:布朗距离协方差。Ann.应用。统计数字3 1285-1294·Zbl 1454.62175号 ·doi:10.1214/09-AOAS312E
[12] Gretton,A.和Györfi,L.(2010年)。一致的非参数独立性测试。J.马赫。学习。第11号决议1391-1423·Zbl 1242.62033号
[13] Gretton,A.、Bousquet,O.、Smola,A.和Schölkopf,B.(2005年)。使用Hilbert-Schmidt规范测量统计相关性。《算法学习理论》(S.Jain、H.U.Simon和E.Tomita主编)。计算机科学课堂讲稿3734 63-77。柏林施普林格·Zbl 1168.62354号 ·doi:10.1007/11564089
[14] Gretton,A.、Borgwardt,K.、Rasch,M.、Schölkopf,B.和Smola,A.(2007年)。两样本问题的核方法。在NIPS 513-520中。麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1283.62095号
[15] Gretton,A.、Fukumizu,K.、Teo,C.H.、Song,L.、Schölkopf,B.和Smola,A.(2008年)。独立性的核统计检验。神经信息处理系统进展20 585-592。麻省理工学院出版社,马萨诸塞州剑桥。
[16] Gretton,A.、Fukumizu,K.、Harchaoui,Z.和Sriperumbudur,B.(2009年)。快速、一致的内核双样本测试。神经信息处理系统进展22。纽约州Red Hook市Curran Associates。
[17] Gretton,A.、Borgwardt,K.M.、Rasch,M.J.、Schölkopf,B.和Smola,A.(2012a)。内核两样本测试。J.马赫。学习。第13 723-773号决议·Zbl 1283.62095号
[18] Gretton,A.、Sriperumbudur,B.、Sejdinovic,D.、Strathmann,H.、Balakrishnan,S.、Pontil,M.和Fukumizu,K.(2012年B)。大规模双样本测试的最佳内核选择。神经信息处理系统进展25 1214-1222。纽约州Red Hook市Curran Associates。
[19] Lyons,R.(2013)。度量空间中的距离协方差。安·普罗巴伯。41 3284-3305. ·兹比尔1292.62087 ·doi:10.1214/12-AOP803
[20] Müller,A.(1997)。积分概率度量及其函数生成类。申请中的预付款。普罗巴伯。29 429-443. ·Zbl 0890.60011号 ·doi:10.2307/1428011
[21] Reed,M.和Simon,B.(1980年)。现代数学物理方法。I:功能分析,第二版,圣地亚哥学术出版社·Zbl 0459.46001号
[22] Schölkopf,B.、Smola,A.J.和Müller,K.R.(1997)。核主成分分析。ICANN(W.Gerstner、A.Germond、M.Hasler和J.D.Nicoud编辑)。计算机科学课堂讲稿1327 583-588。柏林施普林格。
[23] Sejdinovic,D.、Gretton,A.、Sriperumbudur,B.和Fukumizu,K.(2012)。使用两两距离和相关核进行假设检验。机器学习国际会议(ICML)1111-1118。纽约Omnipress。
[24] Smola,A.J.、Gretton,A.、Song,L.和Schölkopf,B.(2007年)。分布的希尔伯特空间嵌入。算法学习理论会议记录(ALT)4754 13-31。柏林施普林格·Zbl 1142.68407号 ·doi:10.1007/978-3-540-75225-75
[25] Sriperumbudur,B.(2011年)。基于希尔伯特空间嵌入测度的混合密度估计。信息理论国际研讨会论文集1027-1030。IEEE,新泽西州皮斯卡塔韦。
[26] Sriperumbudur,B.K.,Fukumizu,K.和Lanckriet,G.R.G.(2011)。测度的普遍性、特征核和RKHS嵌入。J.马赫。学习。第12号决议2389-2410·兹比尔1280.68198
[27] Sriperumbudur,B.、Gretton,A.、Fukumizu,K.、Lanckriet,G.和Schölkopf,B.(2008)。概率测度的内射Hilbert空间嵌入。在学习理论会议论文集(COLT)111-122。Omnipress,纽约·Zbl 1242.60005号
[28] Sriperumbudur,B.、Fukumizu,K.、Gretton,A.、Lanckriet,G.和Schoelkopf,B.(2009年)。概率分布RKHS嵌入的核选择和分类。神经信息处理系统进展22。纽约州Red Hook市Curran Associates。
[29] Sriperumbudur,B.K.、Gretton,A.、Fukumizu,K.、Schölkopf,B.和Lanckriet,G.R.G.(2010)。Hilbert空间嵌入和概率度量。J.马赫。学习。第11号决议1517-1561·Zbl 1242.60005号
[30] Sriperumbudur,B.K.、Fukumizu,K.、Gretton,A.、Schölkopf,B.和Lanckriet,G.R.G.(2012)。关于积分概率度量的经验估计。电子。《美国联邦法律大全》第6卷第1550-1599页·Zbl 1295.62035号 ·doi:10.1214/12-EJS722
[31] Steinwart,I.和Christmann,A.(2008年)。支持向量机。纽约州施普林格·兹比尔1203.68171
[32] Székely,G.和Rizzo,M.(2004)。高维均匀分布测试。国际统计局5。
[33] Székely,G.J.和Rizzo,M.L.(2005)。多元正态性的新检验。《多元分析杂志》。93 58-80. ·Zbl 1087.62070号 ·doi:10.1016/j.jmva.2003.12.002
[34] Székely,G.J.、Rizzo,M.L.和Bakirov,N.K.(2007年)。通过距离相关性测量和测试相关性。安。统计师。35 2769-2794. ·Zbl 1129.62059号 ·doi:10.1214/0090536007000000505
[35] Székely,G.J.和Rizzo,M.L.(2009)。布朗距离协方差。Ann.应用。统计数字3 1236-1265·Zbl 1196.62077号 ·doi:10.1214/09-AOAS312
[36] Zhang,K.、Peters,J.、Janzing,D.和Schoelkopf,B.(2011年)。基于核的条件独立性检验及其在因果发现中的应用。人工智能不确定性会议记录(UAI)804-813。俄勒冈州科瓦利斯AUAI出版社。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。