×

独立度量空间中相等分布的双样本检验:基于最大平均差异的新方法。 (英语) Zbl 07577512号

摘要:本文基于在可分离度量空间中生成的两个独立样本,开发了检验两个分布相等性的统计方法。这些方法广泛适用于识别在广泛的研究或工业领域(包括生物学、生物信息学、医学、材料科学等)收集的两个复杂数据集(例如,高维数据或功能数据)的相似性或差异性。最近,针对上述两样本问题提出了一种基于最大平均偏差(MMD)的方法,并进行了一些有趣的测试。然而,这些基于MMD的测试的主要理论和数值结果取决于非常有限的假设,即两个样本具有相同的样本大小。此外,当违反等样本量假设时,这些测试通常通过置换来实现。在实际数据分析中,这种样本大小相等的假设很难满足,并且放弃一些观察结果往往意味着失去了宝贵的信息。了解基于MMD的测试是否可以在不使用置换的情况下进行,也是一个有趣的问题。在本文中,我们进一步研究了这种基于MMD的方法,去掉了等样本量假设。我们建立了MMD检验统计量的渐近零分布和替代分布及其根一致性。我们提出了近似零分布的方法,从而实现简单快速。基于人工数据和来自两个不同应用领域的两个真实数据集的数值实验表明,在控制I型误差水平和功率方面,所得测试的性能优于或不低于几个现有竞争对手。

MSC公司:

62H15型 多元分析中的假设检验
62G10型 非参数假设检验
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] ALON,U.、BARKAI,N.、NOTTERMAN,D.A.、GISH,K.、YBARRA,S.、MACK,D.和LEVINE,A.J.(1999)。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。美国国家科学院院刊96 6745-6750.
[2] BAI,Z.和SARANADASA,H.(1996年)。高维的影响:以一个两样本问题为例。中国统计局6 311-329. ·兹比尔0848.62030
[3] BICKEL,P.(1969年)。p变量情况下Smirnov双样本检验的无分布版本。数理统计年报40 1-23. ·Zbl 0179.48704号
[4] BORGWARDT,K.M.、GRETTON,A.、RASCH,M.J.、KRIEGEL,H.-P.、SCHÖLKOPF,B.和SMOLA,A.(2006年)。利用核最大均值差异整合结构化生物数据。生物信息学(ISMB)22 e49-e57。
[5] CHEN,F.、MEINTANIS,S.G.和ZHU,L.(2019年)。关于检验均匀性、对称性和独立性的一些特征和多维标准。多变量分析杂志173 125-144. ·Zbl 1473.62186号
[6] CHEN,S.X.和QIN,Y.-L.(2010)。高维数据的双样本测试及其在基因测试中的应用。统计年刊38 808-835. ·Zbl 1183.62095号
[7] DONG,K.、PANG,H.、TONG,T.和GENTON,M.(2016)。基于收缩率的对角Hotelling高维小样本数据测试。多变量分析杂志143 127-142. ·Zbl 1328.62351号
[8] DUA,D.和GRAFF,C.(2019年)。UCI机器学习库。加州大学欧文分校信息与计算机科学学院。
[9] FRIEDMAN,J.和RAFSKY,L.(1979年)。Wald-Wolfowitz和Smirnov双样本检验的多元推广。统计年鉴7 697-717. ·Zbl 0423.62034号
[10] GRETTON,A.、BORGWARDT,K.M.、RASCH,M.、SCHÖLKOPF,B.和SMOLA,A.J.(2007年)。用于比较分布的内核方法。第二十二届人工智能会议记录(AAAI-07)1637-1641.
[11] GRETTON,A.、BORGWARDT,K.M.、RASCH,M.、SCHLKOPF,B.和SMOLA,A.J.(2007)。双样本问题的核方法神经信息处理系统的进展15513-520. 麻省理工学院出版社。
[12] GRETTON,A.、BORGWARDT,K.M.、RASCH,M.J.、SCHLKOPF,B.和SMOLA,A.(2012)。内核二样本测试。机器学习研究杂志13 723-773. ·Zbl 1283.62095号
[13] GRETTON,A.、FUKUMIZU,K.、HARCHAOUI,Z.和SRIPERUMBUDUR,B.K.(2009)。快速、一致的内核双样本测试。神经信息处理系统的进展22673-681. Curran Associates公司。
[14] HOTELLING,H.(1951年)。多元离散度的广义t检验和度量。第二届伯克利数理统计与概率研讨会论文集23-41. ·Zbl 0044.14801号
[15] REDDI,S.、RAMDAS,A.、POCZOS,B.、SINGH,A.和WASSERMAN,L.(2015)。关于均值漂移方案下线性时间两样本试验的高维幂。第18届国际人工智能与统计会议记录38 772-780.
[16] RIZZO,M.和SZéKELY,G.(2019年)。能量:电子统计:通过数据能量R包版本1.7-6的多元推断。
[17] SARKAR,S.和GHOSH,A.K.(2018年)。基于点间距平均值的一些高维两样本测试。斯达7 e187。
[18] SCHLKOPF,B.、TSUDA,K.和VERT,J.(2004)。计算生物学中的核心方法麻省理工学院出版社,马萨诸塞州剑桥。
[19] Serfling,R.J.(1980)。数理统计的逼近定理纽约威利·Zbl 0538.62002号
[20] SHAWE-TAYLOR,J.、WILLIAMS,C.、CRISTIANINI,N.和KANDOLA,J.(2005)。关于Gram矩阵的本征谱和核PCA的推广误差。IEEE传输。Inf.理论51 2510-2522. ·Zbl 1310.15076号
[21] SMOLA,A.、GRETTON,A.、SONG,L.和SCHLKOPF,B.(2007)。分布的希尔伯特空间嵌入。算法学习理论国际会议论文集4754 13-31. ·Zbl 1142.68407号
[22] SZéKELY,G.J.和RIZZO,M.L.(2004)。高维均匀分布测试。InterStat公司11月。
[23] R核心团队(2021)。R: 统计计算语言和环境R统计计算基金会,奥地利维也纳。
[24] 张建堂(2005)。Chi-Squared型混合物的近似和渐近分布及其应用。美国统计协会杂志100 273-285. ·兹比尔1117.62460
[25] ZHANG,J.-T.(2013)。功能数据的方差分析CRC出版社。
[26] 张杰东、郭杰、周斌和程敏勇(2020)。基于\[{L^2}\]-范数的高维简单双样本检验。美国统计协会杂志115 1011-1027. ·Zbl 1445.62123号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。