×

双重数据堆积可实现完美分类。 (英语) Zbl 1493.62365号

摘要:数据堆是指将每个类的数据向量训练到单个点进行分类的现象。虽然这一有趣的现象是理解高维歧视的许多独特特性的关键,但数据堆积的理论基础还远未建立。在这项工作中,研究了峰值协方差模型下数据堆积的高维渐近性,揭示了其与著名的脊线分类器的密切联系。特别地,通过将脊判别向量投影到由领先样本主成分方向和最大数据堆积向量所跨越的子空间上,我们证明了负脊判别向量可以渐近地实现独立测试数据的数据堆积,本质上可以实现完美的分类。第二个数据堆积方向纯粹是从训练数据中获得的,并且具有最大性质。此外,渐近完美分类只发生在第二个数据堆积方向上。

MSC公司:

62H25个 因子分析和主成分;对应分析
62H30型 分类和歧视;聚类分析(统计方面)
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Ahn,J.和Marron,J.S.(2010年)。用于区分的最大数据堆积方向。生物特征97 254-259·Zbl 1182.62134号 ·doi:10.1093/biomet/asp084
[2] Ahn,J.、Marron,J.S.、Muller,K.M.和Chi,Y.-Y(2007)。高维、低样本的几何表示在温和的条件下仍然有效。生物特征94 760-766. ·Zbl 1135.62039号 ·doi:10.1093/biomet/asm050
[3] Alon,U.、Barkai,N.、Notterman,D.A.、Gish,K.、Ybara,S.、Mack,D.和Levine,A.J.(1999)。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。美国国家科学院院刊96 6745-6750.
[4] Aosima,M.和Yata,K.(2019年)。基于距离的分类器,用于高维、强峰值特征值模型的数据转换。统计数学研究所年鉴71 473-503. ·Zbl 1420.62267号
[5] Aosima,M.、Shen,D.、Shen、H.、Yata,K.、Zhou,Y.-H.和Marron,J.(2018)。高维低样本量渐近线的调查。澳大利亚和新西兰统计杂志60 4-19. ·Zbl 1462.62368号
[6] Bai,J.和Ng,S.(2002年)。确定近似因子模型中的因子数。计量经济学70 191-221. ·Zbl 1103.91399号 ·数字对象标识代码:10.1111/1468-0262.00273
[7] Bartlett,P.L.、Long,P.M.、Lugosi,G.和Tsigler,A.(2020年)。线性回归中的良性过拟合。美国国家科学院院刊117 30063-30070. ·Zbl 1485.62085号
[8] Bhattacharjee,A.、Richards,W.G.、Staunton,J.、Li,C.、Monti,S.、Vasa,P.、Ladd,C.,Beheshti,J.,Bueno,R.、Gillette,M.等人(2001年)。通过mRNA表达谱对人肺癌进行分类,可以发现不同的腺癌亚类。美国国家科学院院刊98 13790-13795.
[9] Bradley,R.C.(2005)。强混合条件的基本特性。调查和一些开放性问题。可能性。调查2 107-144. ·Zbl 1189.60077号 ·数字对象标识代码:10.1214/15495780510000104
[10] Christensen,B.C.,Houseman,E.A.,Marsit,C.J.,Zheng,S.,Wrensch,M.R.,Wiemels,J.L.,Nelson,H.H.,Karagas,M.R.,Padbury,J.F.,Bueno,R.,Sugarbaker,D.J.,Yeh,R.-F.,Wiencke,J.K.和Kelsey,K.T.(2009年)。衰老和环境暴露改变组织特异性DNA甲基化,这取决于CpG岛的环境。PLOS遗传学5 e1000602。
[11] Cohen,G.、Afshar,S.、Tapson,J.和van Schaik,A.(2017年)。EMNIST:MNIST对手写信件的扩展。arXiv预印本arXiv:1702.05373.
[12] Delaigle,A.和Hall,P.(2012年)。实现功能数据的近乎完美的分类。英国皇家统计学会杂志:B辑(统计方法)74 267-286. ·Zbl 1411.62164号
[13] Di Pillo,P.J.(1976年)。偏差在判别分析中的应用。统计学传播学-理论与方法5 843-854. ·Zbl 0439.62042号 ·doi:10.1080/03610927608827401
[14] Fan,J.、Wang,K.、Zhong,Y.和Zhu,Z.(2021)。稳健的高维因子模型及其在统计机器学习中的应用。统计科学36 303-327. ·Zbl 07368239号
[15] Fisher,R.A.(1936年)。在分类问题中使用多重测量。优生学年鉴7 179-188.
[16] Friedman,J.H.(1989)。正则判别分析。美国统计协会杂志84 165-175. ·doi:10.1080/01621459.1989.10478752
[17] Glaab,E.、Bacardit,J.、Garibaldi,J.M.和Krasnogor,N.(2012年)。使用基于规则的机器学习对候选疾病基因进行排序,并对癌症基因表达数据进行样本分类。公共科学图书馆7 e39932。
[18] Gravier,E.、Pierron,G.、Vincent-Salomon,A.、gruel,N.、Raynal,V.、Savignoni,A.、De Rycke,Y.、Pierga,J.-Y.、Lucchesi,C.、Reyal,F.、Fourquet,A.、Roman-Roman,S.、Radvanyi,F.,Sastre-Garau,X.、Asselain,B.和Delatter,O.(2010)。T1T2结节阴性乳腺癌患者的预后DNA特征。基因、染色体与癌症49 1125-1125.
[19] Guo,Y.、Hastie,T.和Tibshirani,R.(2007)。正则化线性判别分析及其在微阵列中的应用。生物统计学8 86-100. ·Zbl 1170.62382号
[20] Hall,P.、Marron,J.S.和Neeman,A.(2005年)。高维、低样本数据的几何表示。英国皇家统计学会杂志:B辑(统计方法)67 427-444·Zbl 1069.62097号
[21] Hastie,T.、Montanari,A.、Rosset,S.和Tibshirani,R.J.(2019年)。高维无脊最小二乘插值的惊喜。arXiv预打印arXiv:1903.08560.
[22] Hellton,K.H.和Thoresen,M.(2017年)。何时以及为什么主成分得分是可视化高维数据的好工具?斯堪的纳维亚统计杂志44 581-597. ·Zbl 06774137号 ·doi:10.1111/sjos.12264
[23] Holzmüller,D.(2020年)。无岭回归中双下降峰的普遍性。arXiv预印arXiv:2010.01851.
[24] Ishii,A.、Yata,K.和Aoshima,M.(2019)。强峰值特征值模型下的高维平均向量推断。日本统计与数据科学杂志2 105-128. ·Zbl 1430.62115号
[25] Jeffery,I.B.、Higgins,D.G.和Culhane,A.C.(2006年)。比较和评估从微阵列数据生成差异表达基因列表的方法。BMC生物信息学7 1-16.
[26] Jung,S.(2018)。监督降维的连续方向。计算统计与数据分析125 27 - 43. ·Zbl 1469.62088号 ·doi:10.1016/j.csda.2018.03.015
[27] Jung,S.、Lee,M.H.和Ahn,J.(2018)。关于高维主成分的数量。生物特征105 389-402. ·Zbl 07072419号
[28] Jung,S.和Marron,J.S.(2009年)。PCA在高维、低样本量环境中的一致性。统计年鉴37 4104-4130. ·Zbl 1191.62108号 ·doi:10.1214/09-AOS709
[29] Kobak,D.、Lomond,J.和Sanchez,B.(2020年)。由于隐式岭正则化,实际高维数据的最优岭惩罚可以为零或负。机器学习研究杂志21 1-16·Zbl 1525.68116号
[30] Kolmogorov,A.N.和Rozanov,Y.A.(1960)。平稳高斯过程的强混合条件。概率论及其应用5 204-208. ·Zbl 0106.12005号 ·数字对象标识代码:10.1137/1105018
[31] LeCun,Y.、Cortes,C.和Burges,C.(2010年)。MNIST手写数字数据库。ATT实验室[在线]。可用:http://yann.lecun.com/exdb/mnist2
[32] Lee,M.H.、Ahn,J.和Jeon,Y.(2013)。自适应数据堆积的HDLSS鉴别。计算与图形统计杂志22 433-451. ·doi:10.1080/10618600.2012.681235
[33] Naderi,A.、Teschendorf,A.、Barbosa Morais,N.、Pinder,S.、Green,A.、Powe,D.、Robertson,J.、Aparicio,S.、Ellis,I.、Brenton,J.等人(2007年)。在独立数据集中预测乳腺癌生存率的基因表达特征。癌基因26 1507-1516.
[34] Passmier,D.和Yao,J.(2014)。估计高维情况下可能相等的峰值数量。J.多变量。分析。127 173-183. ·Zbl 1293.62044号
[35] Qiao,X.、Zhang,H.H.、Liu,Y.、Todd,M.J.和Marron,J.S.(2010)。加权距离加权判别及其渐近性质。美国统计协会杂志105 401-414. ·Zbl 1397.62227号
[36] Rahimi,A.和Recht,B.(2007年)。大型内核机的随机特性。神经信息处理系统研究进展20 1177-1184.
[37] Shipp,M.A.、Ross,K.N.、Tamayo,P.、Weng,A.P.、Kutok,J.L.、Aguiar,R.C.、Gaasenbeek,M.、Angelo,M.,Reich,M.和Pinkus,G.S.等人(2002年)。通过基因表达谱和监督机器学习预测弥漫性大B细胞淋巴瘤预后。自然医学8 68-74.
[38] Singh,D.、Febbo,P.G.、Ross,K.、Jackson,D.G.、Manola,J.、Ladd,C.、Tamayo,P.、Renshaw,A.A.、D'Amico,A.V.、Richie,J.P.等人(2002年)。基因表达与前列腺癌临床行为相关。癌细胞1 203-209.
[39] Tsigler,A.和Bartlett,P.L.(2020年)。岭回归中的良性过拟合。arXiv预打印arXiv:2009.14286.
[40] Wu,D.和Xu,J.(2020)。关于超参数线性回归中的最优加权正则化。arXiv预打印arXiv:2006.05800.
[41] Yata,K.和Aoshima,M.(2012年)。有效的主成分分析用于高维、低样本数据,并通过几何表示进行降噪。多变量分析杂志105 193 - 215. ·Zbl 1236.62065号 ·doi:10.1016/j.jmva.2011.09.002
[42] Yata,K.和Aoshima,M.(2020年)。高维混合模型主成分得分的几何一致性及其应用。斯堪的纳维亚统计杂志47 899-921. ·Zbl 1454.62188号 ·doi:10.1111/sjos.12432
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。