×

基于Copula的偏相关筛选:一种联合稳健的方法。 (英文) Zbl 1467.62081号

在大数据分析的背景下,为了降低分析的维数,对变量进行初步筛选是必要的步骤。特别是,当在回归框架中工作时,从可能非常大的潜在预测因子列表中选择几个重要的预测因子是至关重要的。
本文基于copula定义了一个相关系数,其目的是捕捉两个随机变量之间的非线性关系。建立了经验估计的收敛性,并研究了其对变量筛选的鲁棒性。仿真研究和两个实际应用的说明证实了这一理论。

MSC公司:

62小时05 多元概率分布的表征与结构理论;连接线
62H20个 关联度量(相关性、典型相关性等)
62G32型 极值统计;尾部推断
60层10 大偏差
62兰特 大数据和数据科学的统计方面
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司

参考文献:

[1] Barut,E.、Fan,J.和Verhasselt,A.(2016)。有条件的确定独立性筛选。《美国统计协会杂志》111,1266-1277。
[2] Billingsley,P.(1999)。概率测度的收敛性。第2版,威利,纽约·Zbl 0944.60003号
[3] Boulesteix,A.L.、Porzelius,C.和Daumer,M.(2008)。基于微阵列的分类和临床预测:关于组合分类和附加预测值。生物信息学241698-1706。
[4] Chang,J.、Tang,C.Y.和Wu,Y.(2013)。边际经验似然和确定独立性特征筛选。《统计年鉴》41,2123-2148·Zbl 1277.62109号
[5] Chang,J.、Tang,C.Y.和Wu,Y.(2016)。通过边际经验似然对非参数和半参数模型进行局部独立性特征筛选。《统计年鉴》44,515-539·Zbl 1486.62082号
[6] Cheng,Y.和Fine,J.P.(2008)。基于双变量竞争风险数据的特定原因交叉风险比的非参数估计。生物特征95233-240·Zbl 1437.62413号
[7] Cheng,Y.和Li,J.(2015)。用删失结果和删失预测因子进行时间依赖性诊断准确性分析。《统计规划与推断杂志》156,90-102·Zbl 1432.62358号
[8] Cheng,M.、Honda,T.、Li,J.和Peng,H.(2014)。超高维纵向数据的非参数独立性筛选和结构识别。《统计年鉴》42,1819-1849年·Zbl 1305.62169号
[9] Chiang,A.P.、Beck,J.S.、Yen,H.J.等人(2006年)。利用SNP阵列进行纯合度映射,将E3泛素连接酶TRIM32确定为BardetBiedl综合征基因(BBS11)。《国家科学院院刊》103,6287-6292。
[10] Chu,W.,Li,R.和Reimherr,M.(2016)。具有超高维纵向数据的时变系数模型的特征筛选。应用统计年鉴10,596-617·Zbl 1400.62255号
[11] DeSantis,C.E.、Ma,J.、Sauer,A.G.、Newman,L.A.和Jemal,A.(2017)。2017年乳腺癌统计数据,各州死亡率的种族差异。CA:《临床医生癌症杂志》67,439-448。哈佛。
[12] Fan,J.和Lv,J.(2008)。确保超高维特征空间的独立筛选。英国皇家统计学会杂志,B辑(统计方法)70,849-911·Zbl 1411.62187号
[13] Fan,J.、Feng,Y.和Song,R.(2011)。稀疏超高维可加模型中的非参数独立筛选。《美国统计协会杂志》106,544-557·Zbl 1232.62064号
[14] Fan,J.、Ma,Y.和Dai,W.(2014)。稀疏超高维变系数模型中的非参数独立筛选。美国统计协会杂志,1091270-1284·Zbl 1368.62095号
[15] Fan,J.和Song,R.(2010年)。具有NP-维数的广义线性模型中的确定独立筛选。《统计年鉴》38,3567-3604·Zbl 1206.68157号
[16] He,X.,Wang,L.和Hong,H.(2013)。高维异质数据的分位数自适应无模型变量筛选。《统计年鉴》41,342-369·Zbl 1295.62053号
[17] Huang,T.、McKeague,I.和Qian,M.(2019年)。生存结果高维预测因子的边缘筛查。《中国统计》292105-2139·Zbl 1434.62213号
[18] Hong,H.和Li,Y.(2018)。超高维协变量的特征选择与生存结果:选择性综述。应用数学——中国大学学报32,379-396·兹比尔1399.62178
[19] 446夏和李
[20] Iglewicz,B.和Hoaglin,D.(1993年)。如何检测和处理异常值。ASQC质量控制基本参考:统计技术第16卷。(E.F.Mykytka博士编辑)ASQC质量出版社,密尔沃基。
[21] Koenker,R.(2005)。分位数回归。剑桥大学出版社,纽约·Zbl 1111.62037号
[22] Kosorok,M.R.(2008年)。经验过程和半参数推断导论。纽约州施普林格·Zbl 1180.62137号
[23] Li,G.,Li,Y.和Tsai,C.L.(2015)。分位数相关性和分位数自回归建模。美国统计协会期刊110246-261·Zbl 1373.62286号
[24] Li,G.,Peng,H.,Zhang,J.和Zhu,L.(2012)。基于稳健秩相关的筛选。《统计年鉴》401846-1877·Zbl 1257.62067号
[25] Li,J.,Zheng,Q.,Peng,L.和Huang,Z.(2016)。生存影响指数和超高维无模型筛选与生存结果。生物统计学72,1145-1154·Zbl 1390.62281号
[26] Li,R.,Zhong,W.和Zhu,L.(2012)。通过距离相关学习进行特征筛选。《美国统计协会杂志》107,1129-1139·兹比尔1443.62184
[27] Liu,J.,Li,R.和Wu,R.(2014)。具有超高维协变量的变系数模型的特征选择。《美国统计协会杂志》109,266-274·Zbl 1367.62048号
[28] Ma,X.和Zhang,J.(2016)。通过分位数相关性进行稳健的无模型特征筛选。多元分析杂志143,472-480·Zbl 1328.62249号
[29] Ma,S.,Li,R.和Tsai,C.(2017)。通过分位数部分相关进行变量筛选。《美国统计协会杂志》112,650-663。
[30] Nadaraya,E.A.(1964年)。关于估计回归。概率论及其应用9,141-142。
[31] Nelsen,R.B.(2007年)。Copulas简介。施普林格科技与商业媒体·兹比尔1152.62030
[32] Scheetz,T.E.,Kim,K.Y.A.,Swiderski,R.E.等人(2006年)。哺乳动物眼睛中基因表达的调节及其与眼病的相关性。《美利坚合众国国家科学院院刊》103,14429-14434。
[33] Song,R.、Lu,W.、Ma,S.和Jeng,X.J.(2014)。高维生存数据的删失秩独立筛选。生物特征101799-814·Zbl 1306.62207号
[34] Van t Veer,L.J.,Dai,H.,Van de Vijver,M.J.等人(2002年)。基因表达谱预测乳腺癌的临床结局。《自然》415,530-536。
[35] van der Vaart,A.W.和Wellner,J.A.(1996)。弱收敛和经验过程。纽约州施普林格·Zbl 0862.60002号
[36] Watson,G.S.(1964年)。平滑回归分析。桑赫亚:《印度统计杂志》,A26系列,359-372·Zbl 0137.13002号
[37] Wu,Y.和Yin,G.(2015)。超高维异质数据的条件量子筛选。生物特征102,65-76·Zbl 1345.62097号
[38] Xia,X.,Li,J.和Fu,B.(2019年)。超高维变系数模型的条件分位数相关学习及其在生存分析中的应用。中国统计局29,645-669·Zbl 1421.62071号
[39] Xia,X.,Jiang,B.,Li,J.和Zhang,W.(2016)。生存分析中的低维混杂调整和高维惩罚估计。终身数据分析22,547-569·Zbl 1372.62089号
[40] Xia,X.,Yang,H.和Li,J.(2016)。广义变系数模型的特征筛选及其在二分响应中的应用。计算统计与数据分析·Zbl 1466.62220号
[41] Yu,T.、Li,J.和Ma,S.(2012)。调整生物标记物排序中的混杂因素:基于模型的ROC方法。生物信息学简介13,513-523。
[42] Yue,M.和Li,J.(2017)。改进超高维数据的筛选,包括删失生存结果和不同系数。国际生物统计杂志13,16。
[43] Zhao,D.S.和Li,Y.(2012)。具有超高维协变量的Cox模型的原理确独立性筛选。多元分析杂志105,397-411·Zbl 1233.62173号
[44] 郑琦、彭磊和何晓霞(2015)。超高维数据的全球自适应分位数回归。《统计学年鉴》43,2225-2258·Zbl 1327.62424号
[45] 朱,L.,李,L.、李,R.和朱,L.X.(2011)。超高维数据的无模型特征筛选。《美国统计协会杂志》106,1464-1475·Zbl 1233.62195号
[46] 夏晓超
[47] 华中农业大学理学院狮子山1号逸夫大厦A303
[48] 中国湖北省武汉市洪山区街道,430070。
[49] 电子邮件:夏晓chao@126.com
[50] 李嘉良
[51] 新加坡国立大学统计与应用概率系,6科学
[52] 新加坡第二大道,117546号。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。