×

通过回归进行全球和本地双样本测试。 (英语) Zbl 1435.62199号

本文的目的是报告全局和局部测试,以确定两个样本是否来自不同的多元分布。此类测试在各种机器学习领域都有应用,例如检测健康组织和癌组织的差异、数据库属性匹配以及许多其他分类和回归问题。在两个总体的均值只有差异的条件下,证明了基于Fisher LDA的回归检验与Hotelling的回归检验具有相同的局部最优性\(T^2)测试。进行了模拟研究,以检验所建议测试的经验性能。拟议测试的经验性能在哈勃太空望远镜的数据集上得到了验证:结果表明,拟议的方法可以识别具有恒星形成星系特定特征的星系。

MSC公司:

62H15型 多元分析中的假设检验
62G10型 非参数假设检验
6220国集团 非参数推理的渐近性质
85甲15 星系和恒星结构
62H30型 分类和区分;聚类分析(统计方面)
62J05型 线性回归;混合模型
第62页,第35页 统计学在物理学中的应用
62华氏35 多元分析中的图像分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anderson,J.A.(1972年)。单独样本逻辑判别。,生物特征,59(1):19-35·Zbl 0231.62080号 ·doi:10.1093/biomet/59.1.19
[2] Anderson,N.H.、Hall,P.和Titterington,D.M.(1994)。使用基于核的密度估计测量两个多元概率密度函数之间差异的双样本检验统计。,多元分析杂志,50(1):41-54·Zbl 0798.62055号 ·doi:10.1006/jmva.1994.1033
[3] Anderson,T.W.(2003)。,多元统计分析导论,第3卷。纽约:Wiley-Interscience·Zbl 1039.62044号
[4] Ayano,T.(2012)。回归函数更平滑的k-最近邻估计的收敛速度。,统计规划与推断杂志,142(9):2530-2536·Zbl 1428.62149号 ·doi:10.1016/j.jspi.2012.03.012
[5] Baraud,Y.(2002)。信号检测中的非症状最小最大检测率。,伯努利,8(5):577-606·Zbl 1007.62042号
[6] Baringhaus,L.和Franz,C.(2004年)。在一个新的多元双样本检验中。,多元分析杂志,88(1):190-206·Zbl 1035.62052号 ·doi:10.1016/S0047-259X(03)00079-4
[7] Biau,G.(2012)。随机森林模型分析。,机器学习研究杂志,13(4月):1063-1095·兹比尔1283.62127
[8] Biau,G.和Devroye,L.(2015)。,最近邻法讲座。斯普林格·Zbl 1330.68001号
[9] Bickel,P.J.和Li,B.(2007年)。未知流形上的局部多项式回归。,课堂讲稿-专题系列,第177-186页。
[10] Bolthausen,E.(1984年)。组合中心极限定理中余数的估计。,Zeitschrift für Wahrscheinlichkeits theorye und verwandte Gebiete,66(3):379-386·Zbl 0563.60026号 ·doi:10.1007/BF00533704
[11] Breiman,L.(2001)。随机森林。,机器学习,45(1):5-32·兹比尔1007.68152 ·doi:10.1023/A:1010933404324
[12] Bühlmann,P.和Van De Geer,S.(2011)。,高维数据统计:方法、理论和应用。施普林格科技与商业媒体·Zbl 1273.62015年
[13] Bunea,F.和Barbu,A.(2009年)。基于正则似然优化的病例对照研究中的降维和变量选择。,《电子统计杂志》,3:1257-1287·Zbl 1326.62161号 ·doi:10.1214/09-EJS537
[14] Cazáis,F.和Lhéritier,A.(2015)。超越两个样本测试:在高维空间中定位数据差异。年,IEEE国际数据科学和高级分析会议(DSAA),2015年,第1-10页。电气与电子工程师协会。
[15] Chen,X.和Ishwaran,H.(2012)。基因组数据分析的随机森林。,基因组学,99(6):323-329。
[16] Coifman,R.R.和Lafon,S.(2006年)。扩散贴图。,应用和计算谐波分析,21(1):5-30·Zbl 1095.68094号 ·doi:10.1016/j.acha.2006.04.006
[17] Coifman,R.R.、Lafon,S.、Lee,A.B.、Maggioni,M.、Nadler,B.、Warner,F.和Zucker,S.W.(2005)。几何扩散作为调和分析和数据结构定义的工具:扩散图。,美国国家科学院院刊,102(21):7426-7431·Zbl 1405.42043号 ·doi:10.1073/pnas.0500334102
[18] 康塞利斯,C.J.(2003)。星系恒星光分布与其形成历史的关系。,天体物理学杂志增刊系列,147(1):1。
[19] Conselice,C.J.(2014)。星系结构在宇宙时间内的演化。,天文学和天体物理学年鉴,52:291-337。
[20] 卡特勒·D·R、爱德华兹·T·C、比尔德·K·H、卡特勒·A、赫斯·K·T、吉布森·J和劳勒·J·J(2007)。用于生态学分类的随机森林。,生态学,88(11):2783-2792。
[21] Devroye,L.、Györfi,L.和Lugosi,G.(2013)。,模式识别概率理论,第31卷。施普林格科技与商业媒体·Zbl 0853.68150号
[22] Díaz-Uriarte,R.和De Andres,S.A.(2006年)。使用随机森林对微阵列数据进行基因选择和分类。,BMC生物信息学,7(1):3。
[23] Duong,T.(2013)。与非参数双样本测试的局部显著差异。,非参数统计杂志,25(3):635-645·Zbl 1416.62243号 ·doi:10.1080/10485252.2013.810217
[24] Fokianos,K.(2008)。通过惩罚logistic回归比较两个样本。,《电子统计杂志》,2:564-580·Zbl 1320.62070号 ·doi:10.1214/07-EJS078
[25] Freeman,P.、Izbicki,R.、Lee,A.、Newman,J.、Conselice,C.、Koekemoer,A.、Lotz,J.和Mozena,M.(2013年)。用于检测高红移扰动星系形态的新图像统计。,皇家天文学会月刊,434(1):282-295。
[26] Friedman,J.、Hastie,T.和Tibshirani,R.(2009)。,统计学习的要素。纽约州施普林格·Zbl 1273.62005年
[27] Friedman,J.H.(2003)。关于多元拟合优度和双样本检验。,eConf,30908(SLAC-PUB-10325):311-313。
[28] Gagnon-Bartsch,J.和Shem-Tov,Y.(2016)。分类置换检验:多元分布相等性的非参数检验。,arXiv预打印arXiv:1611.06408·Zbl 1434.62061号 ·doi:10.1214/19-AOAS1241
[29] González-Manteiga,W.和Cao,R.(1993)。用非参数回归估计检验一般线性模型的假设。,测试,2(1-2):161-188·Zbl 0811.62044号 ·doi:10.1007/BF02562674
[30] González-Manteiga,W.和Crujeiras,R.M.(2013)。回归模型良好性测试的最新综述。,测试,22(3):361-411·Zbl 1273.62086号
[31] Gretton,A.、Borgwardt,K.M.、Rasch,M.J.、Schölkopf,B.和Smola,A.(2012年)。内核两样本测试。,机器学习研究杂志,13(3月):723-773·Zbl 1283.62095号
[32] Györfi,L.、Kohler,M.、Krzyzak,A.和Walk,H.(2002)。,非参数回归的无分布理论。施普林格科技与商业媒体·Zbl 1021.62024号
[33] Hamza,M.和Larocque,D.(2005年)。基于分类树的集成方法的实证比较。,统计计算与模拟杂志,75(8):629-643·Zbl 1075.62051号 ·doi:10.1080/00949650410001729472
[34] Hardle,W.和Mammen,E.(1993年)。比较非参数回归拟合与参数回归拟合。,统计年鉴,21(4):1926-1947·兹伯利0795.62036 ·doi:10.1214/aos/1176349403
[35] Hart,J.(2013)。,非参数平滑和缺乏拟合测试。施普林格科技与商业媒体·Zbl 0886.62043号
[36] Hediger,S.、Michel,L.和Näf,J.(2019年)。关于使用随机森林进行双样本测试。,arXiv预打印arXiv:1903.06287·Zbl 07512628号
[37] Hochberg,Y.(1988)。一个更清晰的Bonferroni程序,用于多项重要测试。,生物特征,75(4):800-802·Zbl 0661.62067号 ·doi:10.1093/biomet/75.4.800
[38] Hu,J.和Bai,Z.(2016)。回顾了20年来高维平均向量和协方差矩阵显著性的朴素检验。,科学中国数学,59(12):2281-2300·Zbl 1360.62290号 ·doi:10.1007/s11425-016-0131-0
[39] Ingster,Y.I.(1987)。关于(L_p)度量中分布密度的非参数假设的Minimax检验。,概率论及其应用,31(2):333-337·Zbl 0629.62049号 ·数字对象标识代码:10.1137/1131042
[40] Keziou,A.和Leoni-Aubin,S.(2005)。半参数双样本密度比模型的均匀性检验。,Comptes Rendus Mathématique,340(12):905-910·Zbl 1065.62082号 ·doi:10.1016/j.crma.2005.04.034
[41] Kim,I.、Ramdas,A.、Singh,A.和Wasserman,L.(2019)。分类准确度作为两个样本测试的代表。,arXiv预打印arXiv:1602.02210v2·Zbl 1461.62100号
[42] Kpotufe,S.(2011年)。k-NN回归适用于局部内在维数。在《神经信息处理系统的进展》中,第729-737页。
[43] Kpotufe,S.和Garg,V.(2013年)。核回归中对局部光滑性和维数的适应性。《神经信息处理系统的进展》,第3075-3083页。
[44] Lehmann,E.L.和Romano,J.P.(2006)。,测试统计假设。施普林格科技与商业媒体·2018年6月17日
[45] Lopez-Paz,D.和Oquab,M.(2016)。重温分类器双样本测试。,arXiv预打印arXiv:1610.06545。
[46] Lotz,J.M.、Primack,J.和Madau,P.(2004)。星系形态分类的一种新的非参数方法。,《天文学杂志》,128(1):163。
[47] Mondal,P.K.、Biswas,M.和Ghosh,A.K.(2015)。在基于最近邻的高维双样本测试中。,多元分析杂志,141:168-178·Zbl 1323.62037号 ·doi:10.1016/j.jmva.2015.07.002
[48] Ojala,M.和Garriga,G.C.(2010年)。研究分类器性能的置换测试。,机器学习研究杂志,11(6月):1833-1863·Zbl 1242.62035号
[49] Olivetti,E.、Greiner,S.和Avesani,P.(2015)。基于分类器诊断评估的统计独立性。,脑信息学,2(1):13-19。
[50] Prentice,R.L.和Pyke,R.(1979年)。Logistic疾病发病率模型和病例对照研究。,《生物特征》,66(3):403-411·Zbl 0428.62078号 ·doi:10.1093/biomet/66.3.403
[51] Qin,J.和Zhang,B.(1997)。基于病例对照数据的logistic回归模型的有效性检验。,生物特征,84(3):609-618·兹比尔0888.62045 ·doi:10.1093/生物技术/84.3609
[52] Ramdas,A.、Reddi,S.J.、Poczos,B.、Singh,A.和Wasserman,L.(2015)。基于核和距离的高维两样本测试的适应性和计算统计权衡。,arXiv预打印arXiv:1508.00655。
[53] Rosenblatt,J.、Gilron,R.和Mukamel,R.(2016)。信号检测的最佳对比分类。,arXiv预打印arXiv:1608.08873。
[54] Scott,A.J.和Wild,C.(2001)。广义病例对照研究的最大可能性。,统计规划与推断杂志,96(1):3-27·Zbl 0976.62105号 ·doi:10.1016/S0378-3758(00)00317-7
[55] Snyder,G.F.、Torrey,P.、Lotz,J.M.、Gener,S.、McBride,C.K.、Vogelsberger,M.、Pillepih,A.、Nelson,D.、Sales,L.V.和Sijacki,D.(2015)。在(z=0).的illustris模拟中的星系形态和恒星形成。,《皇家天文学会月刊》,454(2):1886-1908。
[56] Sugiyama,M.、Suzuki,T.、Itoh,Y.、Kanamori,T.和Kimura,M.(2011年)。最小二乘双样本检验。,神经网络,24(7):735-751·Zbl 1414.62311号 ·doi:10.1016/j.neunet.2011.04.003
[57] Székely,G.J.和Rizzo,M.L.(2004)。高维等分布测试。,国际统计局,5:1-6。
[58] Thas,O.(2010)。,比较分配。斯普林格·Zbl 1234.62014年
[59] Tsybakov,A.B.(2009)。,非参数估计简介。从2004年法文原件修订和扩展。弗拉基米尔·扎亚茨译。统计学中的斯普林格系列。纽约:斯普林格。
[60] Van de Geer,S.A.(2008年)。高维广义线性模型与套索。,《统计年鉴》,36(2):614-645·Zbl 1138.62323号 ·doi:10.1214/00905360700000929
[61] Wager,S.和Walther,G.(2015年)。回归树的自适应集中,及其在随机森林中的应用。,arXiv预打印arXiv:153.06388。
[62] Wang,C.和Carroll,R.(1993)。关于逻辑病例对照研究中的稳健估计。,Biometrika,80(1):237-241·Zbl 0770.62024号 ·doi:10.1093/biomet/80.1.237
[63] Wang,S.和Carroll,R.J.(1999)。回顾性抽样问题的高精度方法。,生物特征,86(4):881-897·Zbl 0956.62013.中 ·doi:10.1093/biomet/86.4.881
[64] Wasserman,L.(2006)。,所有非参数统计。施普林格科技与商业媒体·Zbl 1099.62029号
[65] Weihrather,G.(1993)。针对非参数备选方案测试线性回归模型。,梅特里卡,40(1):367-379·Zbl 0785.62049号 ·doi:10.1007/BF02613703
[66] Yang,Y.和Barron,A.(1999)。最小最大收敛速度的信息论确定。,统计年鉴,27(5):1564-1599·Zbl 0978.62008号 ·doi:10.1214/aos/1017939142
[67] Zelnik-Manor,L.和Perona,P.(2005)。自校正谱聚类。摘自《神经信息处理系统的进展》,第1601-1608页。
[68] Zhang,C.和Dette,H.(2004)。非参数回归测试之间的功率比较。,统计与概率快报,66(3):289-301·Zbl 1102.62049号 ·doi:10.1016/j.spl.2003.11.005
[69] 郑建新(1996)。通过非参数估计技术对函数形式进行一致性检验。,计量经济学杂志,75(2):263-289·Zbl 0865.62030号 ·doi:10.1016/0304-4076(95)01760-7
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。