×

条件严格凸损失下超高维稀疏数据的非参数筛选。 (英语) Zbl 1421.62044号

摘要:确定性筛选技术被认为是处理超高维变量选择问题的有力工具,其中维数(p)和样本量(n)可以满足某些(a>0)的NP维数(log p=O(n^{a})[J.风扇J.吕、J.R.Stat.Soc.、Ser。B、 统计方法。70,第5期,849–911(2008年;Zbl 1411.62187号)]. 本论文旨在同时解决确定性筛选程序的“普遍性”和“有效性”问题。对于“普遍性,“我们从损失函数的角度为非参数筛选方法开发了一个通用统一的框架。考虑一个损失函数来测量响应变量和协变量的潜在非参数函数的散度。我们新提出了一类损失函数,称为条件严格凸损失,它包含,但不限于单参数指数族的负对数似然损失、二元分类的指数损失和分位数回归损失。将在这类损失函数中建立可靠的筛选特性和模型选择大小控制。对于“有效性”,我们重点研究了条件严格凸损失下的良好非参数筛选(Goffins)方法。有趣的是,与相关文献相比,我们可以获得更好的包含真实模型的收敛概率。大量的仿真研究和一些真实的科学数据示例进一步证明了我们提出的方法的优越性能。

MSC公司:

62G09号 非参数统计重采样方法
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anderson,M.J.和Robinson,J.(2001)。线性模型的置换测试。澳大利亚。N.Z.J.统计43 75-88·Zbl 0992.62043号 ·doi:10.1111/1467-842X.00156
[2] Barut,E.、Fan,J.和Verhasselt,A.(2016)。有条件的确定独立性筛选。J.Amer。统计师。协会111 1266-1277。
[3] Brègman,L.M.(1967)。一种寻找凸集公共点的松弛方法及其在凸规划问题求解中的应用。Ž. 维奇岛。材料材料Fiz.7 620-631·兹比尔0186.23807
[4] Buldygin先生,V.和Kozachenko,Y.(2000年)。随机变量和随机过程的度量表征。。数学专题论文的翻译188。
[5] Candès,E.和Tao,T.(2007年)。Dantzig选择器:当\(p)远大于\(n)时的统计估计。统计年鉴35 2313-2404·Zbl 1139.62019号
[6] Chang,J.、Tang,C.Y.和Wu,Y.(2013)。边际经验似然和确定独立性特征筛选。统计年鉴41 2123-2148·Zbl 1277.62109号 ·doi:10.1214/13-AOS1139
[7] de Boor,C.(1978)。花键实用指南。应用数学科学27。纽约州施普林格·Zbl 0406.41003号
[8] Fan,J.和Fan,Y.(2008)。使用特征退火独立性规则的高维分类。统计年鉴36 2605-2637·Zbl 1360.62327号 ·doi:10.1214/07-AOS504
[9] Fan,J.、Feng,Y.和Song,R.(2011)。稀疏超高维可加模型中的非参数独立筛选。J.Amer。统计师。协会106 544-557·Zbl 1232.62064号 ·doi:10.198/jasa/2011.tm09779
[10] Fan,J.、Feng,Y.和Tong,X.(2012)。高维空间中的分类之路:正则化最优仿射鉴别算子。J.R.统计社会服务。B.统计方法74 745-771·Zbl 1411.62167号
[11] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96 1348-1360·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[12] Fan,J.和Lv,J.(2008)。确保超高维特征空间的独立筛选。J.R.统计社会服务。B.统计方法70 849-911·Zbl 1411.62187号
[13] Fan,J.、Ma,Y.和Dai,W.(2014)。稀疏超高维变系数模型中的非参数独立筛选。J.Amer。统计师。协会109 1270-1284·Zbl 1368.62095号 ·doi:10.1080/01621459.2013.879828
[14] Fan,J.、Samworth,R.和Wu,Y.(2009年)。超高维特征选择:超越线性模型。J.马赫。学习。2013-2038年第10号决议·Zbl 1235.62089号
[15] Fan,J.和Song,R.(2010年)。具有NP-维数的广义线性模型中的确定独立筛选。《统计年鉴》38 3567-3604·Zbl 1206.68157号 ·doi:10.1214/10-AOS798
[16] Freund,Y.和Schapire,R.E.(1997年)。在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学55 119-139·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[17] Gao,Q.,Wu,Y.,Zhu,C.和Wang,Z.(2008)。固定设计广义线性模型中最大拟似然估计的渐近正态性。J.系统。科学。综合体21 463-473·Zbl 1206.62130号 ·doi:10.1007/s11424-008-9128-4
[18] Gordon,G.等人(2002年)。使用肺癌和间皮瘤中的基因表达比率将微阵列数据转换为临床相关癌症诊断测试。癌症研究62 4963-4967。
[19] Han,X.(2019)。补充“超高维稀疏数据条件严格凸损失下的非参数筛选”DOI:10.1214/18-AOS1738SUPP·兹比尔1421.62044
[20] He,X.,Wang,L.和Hong,H.G.(2013)。高维异质数据的分位数自适应无模型变量筛选。统计年鉴41 342-369·Zbl 1295.62053号 ·doi:10.1214/13-AOS1087
[21] Heyde,C.C.(1997)。拟似然及其应用:最优参数估计的一般方法。纽约州施普林格·Zbl 0879.62076号
[22] Koenker,R.(2005)。分位数回归。计量经济学社会专题38。剑桥大学出版社,剑桥·Zbl 1111.62037号
[23] Laurent,B.和Massart,P.(2000年)。通过模型选择对二次函数进行自适应估计。《统计年鉴》28 1302-1338·Zbl 1105.62328号 ·doi:10.1214/aos/1015957395
[24] Li,R.,Zhong,W.和Zhu,L.(2012)。通过距离相关学习进行特征筛选。J.Amer。统计师。协会107 1129-1139·Zbl 1443.62184号 ·doi:10.1080/01621459.2012.695654
[25] Li,G.,Peng,H.,Zhang,J.和Zhu,L.(2012)。基于稳健秩相关的筛选。《统计年鉴》40 1846-1877·Zbl 1257.62067号 ·doi:10.1214/12-AOS1024
[26] Mai,Q.和Zou,H.(2015)。融合Kolmogorov滤波器:一种非参数无模型筛选方法。美国国家统计局43 1471-1497·Zbl 1431.62216号 ·doi:10.1214/14-AOS1303
[27] Meier,L.、van de Geer,S.和Bühlmann,P.(2009)。高维加性建模。统计年鉴37 3779-3821·Zbl 1360.62186号 ·doi:10.1214/09-AOS692
[28] Song,R.、Lu,W.、Ma,S.和Jeng,X.J.(2014)。高维生存数据的删失秩独立筛选。生物特征101 799-814·Zbl 1306.62207号 ·doi:10.1093/biomet/asu047
[29] Stone,C.J.(1986)。广义加性模型的降维原理。《统计年鉴》.14 590-606·Zbl 0603.62050号 ·doi:10.1214/aos/1176349940
[30] Tibshirani,R.(1996)。通过套索回归收缩和选择。J.罗伊。统计师。Soc.序列号。B58 267-288·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[31] 翁H、冯Y和乔X(2017)。超高维线性回归模型中保留后的正则化。统计师。西尼卡。新闻界·Zbl 1412.62098号
[32] Zhang,C.-H.(2010)。极小极大凹惩罚下的几乎无偏变量选择。美国国家统计局38 894-942·Zbl 1183.62120号 ·doi:10.1214/09-AOS729
[33] Zhang,C.,Jiang,Y.和Shang,Z.(2009)。参数和非参数估计回归和分类中Bregman散度的新方面。加拿大。《统计学杂志》37 119-139·Zbl 1170.62037号 ·doi:10.1002/cjs.10005
[34] Zhao,S.D.和Li,Y.(2012)。具有超高维协变量的Cox模型的原则确定独立性筛选。《多元分析杂志》105 397-411·Zbl 1233.62173号 ·doi:10.1016/j.jmva.2011.08.002
[35] Zhu,L.-P、Li,L.、Li,R.和Zhu,L.-X.(2011)。超高维数据的无模型特征筛选。J.Amer。统计师。协会106 1464-1475·Zbl 1233.62195号 ·doi:10.1198/jasa.2011.tm10563
[36] 邹华(2006)。自适应套索及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[37] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。J.R.统计社会服务。B.统计方法67 301-320·Zbl 1069.62054号 ·doi:10.1111/j.1467-9868.2005.00503.x
[38] 邹浩和李若明(2008)。非凹陷惩罚似然模型中的一步稀疏估计。统计年鉴36 1509-1533·Zbl 1142.62027号 ·doi:10.1214/0090536007000000802
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。