×

具有异常响应的数据的稳健高维回归。 (英语) 兹比尔1469.62424

摘要:响应变量的准确性对回归模型的训练至关重要。在某些情况下,包括高维情况下,响应观测往往不准确,这将通过直接拟合传统模型导致估计值有偏差。为了分析高维情况下具有异常响应的数据,在本工作中,我们采用(伽马)-散度来进行变量选择和估计方法。该方法对异常响应具有良好的鲁棒性,并且不需要对异常数据的比例进行建模。它是通过一种有效的坐标下降算法来实现的。在维数(p)可以随着样本量(n)指数级快速增长的情况下,我们严格地建立了变量选择一致性和估计界。通过数值模拟和实际数据应用,验证了该方法的性能。

MSC公司:

62兰特 大数据和数据科学的统计方面
62G08号 非参数回归和分位数回归
62G35型 非参数稳健性
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Aggarwal,C.,Yu,P.(2001)。高维数据的异常检测。2001年ACM SIGMOD国际数据管理会议记录(第37-46页)。
[2] Al-Zahrani,K。;库克,D。;范德海登,B。;Sabourin,L.,通过转录组分析评估雄激素受体和Sox10作为三阴性乳腺癌亚型独立标记物的疗效,Oncotarget,9,70,3348-3359(2018)·doi:10.18632/目标26072
[3] A.卡梅隆。;Trivedi,P.,计数数据的回归分析(2013),剑桥:剑桥大学出版社,剑桥·Zbl 1301.62003号 ·doi:10.1017/CBO9781139013567
[4] 陈,B。;Tang,H。;陈,X。;张,G。;Wang,Y。;谢,X。;Liao,N.,转录组学分析确定三阴性和非三阴性乳腺癌之间的关键差异表达基因和临床结果,癌症管理与研究,11,179-190(2019)·doi:10.2147/CMAR。187151元
[5] Copas,J.,污染数据的二元回归模型,《皇家统计学会杂志:B辑》,50,2,225-265(1988)
[6] 科普兰,K。;Checkoway,H。;A.麦克迈克尔。;Holbrook,R.,相对风险估计中因错误分类而产生的偏差,《美国流行病学杂志》,105,5,488-495(1977)·doi:10.1093/oxfordjournals.aje.a112408
[7] Dezeure,R。;Bühlmann,P。;Meier,L。;Meinshausen,N.,《高维推断:置信区间、p值和r软件hdi》,《统计科学》,30,4,533-558(2015)·Zbl 1426.62183号 ·doi:10.1214/15-STS527
[8] 范,J。;Li,R.,通过非一致惩罚似然进行变量选择及其预言性质,美国统计协会杂志,96,456,1348-1360(2001)·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[9] 范,J。;Lv,J.,NP维度的非凹惩罚似然,IEEE信息理论汇刊,57,8,54-67(2011)·Zbl 1365.62277号 ·doi:10.1109/TIT.2011.2158486
[10] 福克斯,W。;I.史密斯。;Reis-Filho,J.,三阴性乳腺癌,《新英格兰医学杂志》,363,20,1938-1948(2010)·doi:10.1056/NEJMra1001389
[11] 弗莱奈,B。;Verleysen,M.,《标签噪声存在下的分类:一项调查》,IEEE神经网络和学习系统汇刊,25,5,845-869(2013)·doi:10.10109/TNNLS/2013.2292894
[12] 藤泽,H。;Eguchi,S.,《对重污染具有小偏差的稳健参数估计》,《多元分析杂志》,99,9,2053-2081(2008)·Zbl 1169.62010号 ·doi:10.1016/j.jmva.2008.02.004
[13] Ghosh,A。;Basu,A.,广义线性模型中的稳健估计:密度幂散度方法,Test,25,2,269-290(2016)·Zbl 1342.62126号 ·doi:10.1007/s11749-015-0445-3
[14] Grace,Y.,《计量误差或错误分类策略、方法和应用的统计分析》(2017),纽约:Springer,纽约·Zbl 1377.62012年
[15] 郭杰。;龚,G。;Zhang,B.,通过综合分析筛选和识别三阴性乳腺癌的潜在生物标记物,《肿瘤学报告》,38,4,2219-2228(2017)·doi:10.3892或2017.5911
[16] 哈蒙德,M。;Elizabeth,H。;海耶斯,D。;道塞特,M。;Allred,D。;Hagerty,K。;巴德夫,S。;菲茨吉本斯,P。;弗朗西斯,G。;Goldstein,N。;Hayes,M.,美国临床肿瘤学学会/美国病理学家学院乳腺癌雌激素和孕激素受体免疫组织化学检测指南建议,病理学和实验医学档案,131,1,18(2010)
[17] Hayashi,K.,一种基于协变量的不对称错误标记概率的提升方法,计算统计,27,2,203-218(2012)·兹比尔1304.65037 ·doi:10.1007/s00180-011-0250-8
[18] 洪,H。;Jou,Z。;Huang,S.,无需建模误标概率的稳健误标logistic回归,生物统计学,74,1,145-154(2018)·Zbl 1415.62107号 ·doi:10.1111/biom.12726
[19] 杰西卡,K。;尼古拉斯,W。;Titus,J。;Niels,G.,用于三阴性乳腺癌靶向免疫治疗的肿瘤特异性抗原库的大规模电子识别,Oncotarget,10,26,2515-2529(2019)·doi:10.18632/目标26808
[20] Jung,H。;Lee,S。;Kim,J。;Ahn,J。;Park,Y。;Im,Y.,《科学报告》,6,33-35(2016),他汀类药物通过修复DUSP4缺陷影响ETS1过度表达的三阴性乳腺癌细胞
[21] 川岛,T。;Fujisawa,H.,通过\(\gamma\)-散度的稳健和稀疏回归,熵,19,11608(2017)·doi:10.3390/e19110608
[22] O.小森。;Eguchi,S。;池田,S。;冈村,H。;Ichinokawa,M。;Nakayama,S.,《生态数据的非对称logistic回归模型》,《生态学与进化方法》,7,2,249-260(2016)·doi:10.1111/2041-210X.12473
[23] Li,Z.,雄激素受体在三阴性乳腺癌中的表达及其临床意义,《癌症》,9,1,585-590(2017)
[24] Lopes,M。;Veríssimo,A。;Carrasquinha,E。;卡西米罗,S。;北卡罗来纳州比伦文克尔。;Vinga,S.,三阴性乳腺癌数据中的集合异常值检测和基因选择,BMC生物信息学,19,1,168(2018)·doi:10.1186/s12859-018-2149-7
[25] Minnier,J。;田,L。;Cai,T.,正则回归估计推断的扰动方法,美国统计协会杂志,1064961371-1382(2011)·Zbl 1323.62076号 ·doi:10.1198/jasa.2011.tm10382
[26] Naorem,L。;Muthaiyan,M。;Venkatesan,A.,识别三阴性乳腺癌关键基因的集成网络分析和机器学习方法,细胞生物化学杂志,120,4,6154-6167(2019)·doi:10.1002/jcb.27903
[27] Piepel,G.,《稳健回归和异常值检测》,Technometrics,31,2260-261(2005)·doi:10.1080/00401706.1989.10488524
[28] Rebbapragada,U.,Brodley,C.(2007年)。通过实例加权实现类噪声抑制。在欧洲机器学习会议上(第260-261页)。纽约:斯普林格。
[29] 罗伯茨,G。;Stramer,O.,《相关基于密度的最小散度估计量的比较》,Biometrika,88,3,865-873(2001)·Zbl 0985.62066号 ·doi:10.1093/biomet/88.3.603
[30] 桑德拉,K。;Cardona-Huerta,S。;Yadira,X。;特雷维诺,V。;Hernandez-Cabrera,F。;罗哈斯·马丁内斯,A。;乌斯坎加·佩拉莱斯,G。;Jorge,L。;Martinez-Jacobo,L。;Padilla-Rivas,G.,新辅助化疗前使用冷冻新鲜组织检测三阴性乳腺癌的新基因表达特征,分子医学,23,1,101-111(2017)·doi:10.2119/molmed.2016.00257
[31] 她,Y。;Owen,A.,《使用非凸惩罚回归进行离群值检测》,《美国统计协会杂志》,106494626-639(2011)·Zbl 1232.62068号 ·doi:10.1198/jasa.2011.tm10390
[32] Stefanowski,J.(2016)。处理数据困难因素,同时从不平衡数据中学习。《计算统计和数据挖掘的挑战》(第333-363页)。纽约:斯普林格。
[33] Thai-Nghe,N.,Gantner,Z.,Schmidt-Thieme,L.(2010年)。不平衡数据的成本敏感学习方法。2010年神经网络国际联合会议(第1-8页)。
[34] 共识CDS(CCDS)项目。(2000). https://www.ncbi.nlm.nih.gov/projects/CCDS/CcdsBrowse.cgi。2017年5月查阅。
[35] 集成基因组浏览器。(2000). http://www.ensembl.org/index.html。2017年5月查阅。
[36] 俄勒冈州图多兰。;索里托,O。;巴拉切斯库,L。;Visan,S。;俄亥俄州巴博斯。;Cojocneanu-Petric,R。;巴拉切斯库,O。;Berindan Neagoe,I.,对Hs578T三阴性乳腺癌细胞中阿霉素治疗反应的干细胞相关信号通路的调节,分子和细胞生物化学,409,1163-176(2015)·doi:10.1007/s11010-015-2522-z
[37] Wang,H。;李,R。;Tsai,C.,平滑剪裁绝对偏差方法的调整参数选择器,Biometrika,94,3,553-568(2007)·兹比尔1135.62058 ·doi:10.1093/biomet/asm053
[38] 沃尔夫,A。;哈蒙德,M。;施瓦茨,J。;Hagerty,K。;Allred,D。;科特,R。;道塞特,M。;菲茨吉本斯,P。;Hanna,W。;Langer,A.,指南摘要:美国临床肿瘤学学会/美国病理学家学会乳腺癌中人类表皮生长因子受体HER2检测指南建议,肿瘤学实践杂志,3,1,48-50(2007)·doi:10.1200/JOP.0718501
[39] Wu,Y。;Wang,L.,高维回归调整参数选择综述,《统计学及其应用年鉴》,7209-226(2020)·doi:10.1146/annurev-statistics-030718-105038
[40] 臧,Y。;赵(Q.Zhao)。;张,Q。;李毅。;张,S。;Ma,S.,用高维稳健方法推断基因调控关系,《遗传流行病学》,41,5,437-454(2017)·doi:10.1002/gepi.22047
[41] Zhang,C.,最小最大凹惩罚下的几乎无偏变量选择,统计年鉴,38,2,894-942(2010)·Zbl 1183.62120号 ·doi:10.1214/09-AOS729
[42] Zimek,A。;舒伯特,E。;Kriegel,H.,高维数值数据中非监督离群值检测的调查,统计分析与数据挖掘,5,5,363-387(2012)·Zbl 07260336号 ·doi:10.1002/sam.1161
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。