×

一种用于高维稀疏二次判别分析的凸优化方法。 (英文) Zbl 1475.62178号

摘要:本文研究了高维稀疏二次判别分析(QDA),旨在建立分类误差的最优收敛速度。建立了极小极大下界,以证明构造一致的高维QDA规则的必要性,如判别方向上的稀疏条件和微分图。
然后,在稀疏性假设下,我们提出了一种基于约束凸优化的分类算法SDAR。得到了极小极大上界和下界,并且证明了该分类规则在一组参数空间上同时是速率最优的,直至对数因子。仿真研究表明,SDAR在数值上表现良好。通过对前列腺癌数据和结肠组织数据的分析,也说明了该算法。在高斯环境下为两组高维QDA开发的方法和理论也扩展到了多组分类和高斯copula模型下的分类。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H20个 关联度量(相关性、典型相关性等)
62甲12 多元分析中的估计
62C20个 统计决策理论中的Minimax过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alon,Y.、Barkai,N.、Notterman,DA、Gish,K.、Ybara,S.、Mack,D.和Levine,AJ。(1999). 通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。美国国家科学院96(12) 6745-6750. ·doi:10.1073/pnas.96.12.6745
[2] Anderson,T.W.(2003)。多元统计分析导论,第3版。概率统计中的威利级数Wiley Interscience,新泽西州霍博肯·Zbl 1039.62044号
[3] Azizyan,M.、Singh,A.和Wasserman,L.(2013)。具有稀疏平均分离的高维高斯混合的极小极大理论。神经信息处理系统研究进展2139-2147.
[4] Bandyopadhyay,S.、Mehta,M.、Kuo,D.、Sung,M.-K.、Chuang,R.、Jaehnig,E.J.、Bodenmiller,B.、Licon,K.、Copeland,W.等人(2010年)。基因网络的重组以应对DNA损伤。科学类330 1385-1389.
[5] Barber,R.F.和Kolar,M.(2018年)。火箭:对于超椭圆图形模型,通过\[\underline{\text{Ke}}\]ndall的\[\underline{\text{t}}\]au的\[\underline{\text{ro}}\]bust\[\underline{\text{c}}\]冲突间隔。安。统计师。46 3422-3450. ·Zbl 1410.62059号 ·doi:10.1214/17-AOS1663
[6] Bickel,P.J.和Levina,E.(2004)。Fisher线性判别函数的一些理论,“朴素贝叶斯”,以及当变量比观测值多时的一些替代方法。伯努利10 989-1010. ·Zbl 1064.62073号 ·doi:10.3150/bj/1106314847
[7] Cai,T.和Liu,W.(2011)。稀疏线性判别分析的一种直接估计方法。J.Amer。统计师。协会。106 1566-1577. ·Zbl 1233.62129号 ·doi:10.198/jasa/2011.tm1199
[8] Cai,T.T.,Liang,T.和Zhou,H.H.(2015)。高维高斯分布样本协方差矩阵的对数行列式律和差分熵的最优估计。《多元分析杂志》。137 161-172. ·Zbl 1329.62255号 ·doi:10.1016/j.jmva.2015.02.003
[9] Cai,T.T.,Ma,J.和Zhang,L.(2019年)。CHIME:使用EM算法对高维高斯混合数据进行聚类及其优化。安。统计师。47 1234-1267. ·Zbl 1428.62182号 ·doi:10.1214/18-AOS1711
[10] Cai,T.T.和Zhang,L.(2018)。高维高斯copula回归:自适应估计和统计推断。统计师。西尼卡28 963-993. ·Zbl 1390.62099号
[11] Cai,T.T.和Zhang,L.(2019年)。高维线性判别分析:最优化、自适应算法和缺失数据。J.R.统计社会服务。B.统计方法。81 675-705. ·Zbl 1428.62267号
[12] Cai,T.T和Zhang,L.(2021)。补充“高维稀疏二次判别分析的凸优化方法”https://doi.org/10.1214/20-AOS2012SUPP网站
[13] Candes,E.和Romberg,J.(2005)。l1-magic:通过凸规划恢复稀疏信号。
[14] Carmon,Y.、Raghunathan,A.、Schmidt,L.、Duchi,J.C.和Liang,P.S.(2019)。未标记的数据提高了对抗性鲁棒性。神经信息处理系统研究进展11192-11203.
[15] Churchill,G.A.和Iacobucci,D.(2006年)。市场营销研究:方法论基础纽约德莱顿出版社。
[16] Dan,C.、Wei,Y.和Ravikumar,P.(2020年)。对抗性稳健高斯分类的清晰统计保证。预印本。可在arXiv:2006.16384上查阅。
[17] Deng,Z.、Kammoun,A.和Thrampoulidis,C.(2019年)。一种用于高维二元线性分类的双重下降模型。预印本。arXiv:1911.05822提供。
[18] Dettling,M.(2004)。BagBoosting用于基因表达数据的肿瘤分类。生物信息学20(18) 3853-3593. ·doi:10.1093/bioinformatics/bth447
[19] Efron,B.(2010年)。大尺度推断:估计、测试和预测的经验贝叶斯方法,剑桥大学出版社,纽约·Zbl 1277.62016年
[20] Han,F.和Liu,H.(2017)。跨椭圆分布中潜在广义相关矩阵估计的统计分析。伯努利23 23-57. ·Zbl 1359.62186号 ·doi:10.3150/15-BEJ702
[21] Han,F.、Zhao,T.和Liu,H.(2013)。CODA:高维copula判别分析。J.马赫。学习。物件。14 629-671. ·Zbl 1320.62145号
[22] Hastie,T.、Tibshirani,R.和Friedman,J.(2009)。统计学学习的要素:数据挖掘、推断和预测,第2版。统计学中的施普林格系列。斯普林格,纽约·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[23] Hill,S.M.、Heiser,L.M.、Cokelaer,T.、Unger,M.、Nesser,N.K.、Carlin,D.E.、Zhang,Y.、Sokolov,A.、Paull,E.O.等人(2016年)。推断因果分子网络:通过基于社区的努力进行经验评估。自然方法13 310-318.
[24] Inam,F.、Inam,A.、Mian,M.A.、Sheikh,A.和Awan,H.M.(2018年)。巴基斯坦组织可持续性破产预测:使用人工神经网络、logit回归和判别分析。《经济学杂志》。科学管理员.
[25] Jiang,B.、Wang,X.和Leng,C.(2018)。稀疏二次判别分析的一种直接方法。J.马赫。学习。物件。19第31、37号论文·Zbl 1466.62353号
[26] Jombart,T.、Devillard,S.和Balloux,F.(2010年)。主成分判别分析:一种分析遗传结构群体的新方法。BMC基因。11 94.
[27] Ju,F.、Sun,Y.、Gao,J.、Hu,Y.和Yin,B.(2019年)。张量数据向量表示的概率线性判别分析。IEEE传输。神经网络。学习。系统。30 2938-2950.
[28] Kini,G.和Thrampoulidis,C.(2020)。二元分类中双重下降的分析研究:损失的影响。预印。可在arXiv:200111572获得。
[29] Koçhan,N.、TüTüncü,G.Y.、Smyth,G.K.、Gadolfo,L.C.和Giner,G.(2019)。qtQDA:高维RNA-seq数据的分位数转换二次判别分析。生物Rxiv751370
[30] Li,H.-D.,Xu,Q.-S.和Liang,Y.-Z.(2018)。libPLS:偏最小二乘回归和线性判别分析的集成库。化学。智力。实验室系统。176 34-43.
[31] Li,Q.和Shao,J.(2015)。高维数据的稀疏二次判别分析。统计师。西尼卡25 457-473. ·Zbl 06503804号
[32] Lin,Y.和Jeon,Y.(2003)。通过半参数模型进行判别分析。生物特征90 379-392. ·Zbl 1034.62054号 ·doi:10.1093/biomet/90.22.379
[33] Liu,H.、Han,F.、Yuan,M.、Lafferty,J.和Wasserman,L.(2012)。高维半参数高斯copula图形模型。安。统计师。40 2293-2326. ·兹比尔1297.62073 ·doi:10.1214/12-AOS1037
[34] Mai,Q.和Zou,H.(2015)。稀疏半参数判别分析。《多元分析杂志》。135 175-188. ·兹比尔1307.62166 ·doi:10.1016/j.jmva.2014.12.009
[35] Mai,Q.、Zou,H.和Yuan,M.(2012)。超高维稀疏判别分析的直接方法。生物特征99 29-42. ·Zbl 1437.62550号 ·doi:10.1093/biomet/asr066
[36] Mammen,E.和Tsybakov,A.B.(1999年)。平滑判别分析。安。统计师。27 1808-1829. ·Zbl 0961.62058号 ·doi:10.1214/aos/1017939240
[37] Mignacco,F.、Krzakala,F.,Lu,Y.M.和Zdeborová,L.(2020年)。正则化在高维噪声高斯混合分类中的作用。ICML公司2020
[38] Neykov,M.、Ning,Y.、Liu,J.S.和Liu,H.(2018)。置信区统一理论和高维估计方程的测试。统计师。科学。33 427-443. ·Zbl 1403.62101号 ·doi:10.1214/18-STS661
[39] Schmidt,L.、Santurkar,S.、Tsipras,D.、Talwar,K.和Madry,A.(2018年)。对抗性强的泛化需要更多的数据。神经信息处理系统研究进展5014-5026.
[40] Singh,D.,Febbo,PG.,Ross,K.,Jackson,D.,Manola,J.,Ladd,C.,Tamayo,P.,Renshaw,A.,D'Amico,A.,Richie,JP.,Lander,ES,Loda,M.,Kantoff,P..,Golub,TR.和Sellers,WR。(2002). 基因表达与前列腺癌临床行为相关。癌细胞1(2) 203-209. ·doi:10.1016/s1535-6108(02)00030-2
[41] Tsybakov,A.B.(2009年)。非参数估计简介.统计学中的施普林格系列。斯普林格,纽约·Zbl 1176.62032号 ·doi:10.1007/b13794
[42] Vershynin,R.(2010年)。随机矩阵的非渐近分析简介,剑桥大学出版社,纽约。
[43] Wright,J.、Yang,A.Y.、Ganesh,A.、Sastry,S.S.和Ma,Y.(2009)。基于稀疏表示的鲁棒人脸识别。IEEE传输。模式分析。机器。智力。31 210-227。
[44] Xia,Y.,Cai,T.和Cai,T-T.(2015)。测试差分网络及其在基因-基因相互作用检测中的应用。生物特征102 247-266. ·Zbl 1452.62392号 ·doi:10.1093/biomet/asu074
[45] Xu,M.、Zhang,D.和Wu,W.B.(2014)\高维数据的[{L^2}\]渐近性。预印。可从arXiv:1405.7244获取。
[46] Xue,L.和Zou,H.(2012)。基于正则秩的高维非正态图形模型估计。安。统计师。40 2541-2571. ·Zbl 1373.62138号 ·doi:10.1214/12-AOS1041
[47] Zhao,S.D.、Cai,T.T.和Li,H.(2014)。微分网络的直接估计。生物特征101 253-268. ·Zbl 1452.62865号 ·doi:10.1093/biomet/asu009
[48] Zhao,Y.和Wegkamp,M.(2014)。半参数高斯copula分类。预印本。可在arXiv购买:1411.2944
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。