×

同时进行特征选择和离群点检测,并保证最优。 (英语) Zbl 1520.62238号

摘要:生物医学研究的数据越来越丰富,研究包含越来越多的特征。研究规模越大,大部分特征可能冗余和/或包含污染(外围值)的可能性越高。这带来了严重的挑战,在样本量相对较小的情况下,这种挑战会加剧。在存在离群值的情况下进行稀疏估计的有效方法对这些研究至关重要,并且在过去十年中受到了相当大的关注。考虑到受多重数据污染的高维回归,我们对这一领域做出了贡献均值漂移异常值影响响应和设计矩阵。我们开发了一个通用框架并使用混合整数规划以同时执行具有可证明的最优保证的特征选择和异常值检测。我们证明了该方法的理论性质,也就是说,它是强大的oracle属性,其中特征数量可以随着样本大小呈指数增长;参数的最优估计;以及由此产生的估算的分解点。此外,我们提供了计算效率高的程序来调整整数约束并预热算法。通过模拟,我们展示了与现有启发式方法相比,我们的建议的优越性能,并使用它来研究儿童肥胖与人类微生物群之间的关系。
{©2021作者。生物识别由威利期刊有限责任公司代表国际生物识别学会出版。}

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alfons,A.、Croux,C.和Gelper,S.(2013)用于分析高维大数据集的稀疏最小二乘回归。应用统计年鉴,7226-248·Zbl 1454.62123号
[2] Alqallaf,F.A.,Van Aelst,S.,Yohai,V.J.&Zamar,R.H.(2009)多元数据中异常值的传播。《统计年鉴》,第37、311-331页·Zbl 1155.62043号
[3] Amato,U.、Antoniadis,A.、De Feis,I.和Gijbels,I.(2021)稀疏和高维线性模型的惩罚稳健估计量。统计方法与应用,30,1-48·Zbl 1474.62182号
[4] Barratt,S.,Angeris,G.&Boyd,S.(2020)最小化裁剪凸函数之和。《优化快报》,14,2443-2459·Zbl 1460.90129号
[5] Beckman,R.J.&Cook,R.D.(1983)离群值…。s.技术计量学,25119-149·Zbl 0514.62041号
[6] Bernholt,T.(2006)稳健估计很难计算。技术报告52/2005,多特蒙德大学。
[7] Bertsimas,D.、King,A.和Mazumder,R.(2016)通过现代优化视角进行的最佳子集选择。《统计年鉴》,44813-852·Zbl 1335.62115号
[8] Bertsimas,D.&Mazumder,R.(2014)通过现代优化的最小分位数回归。《统计年鉴》,422494-2525·Zbl 1302.62154号
[9] Bertsimas,D.&Van Parys,B.(2020)《稀疏高维回归:精确可扩展算法和相变》。《统计年鉴》,48,300-323·Zbl 1444.62094号
[10] Bradic,J.、Fan,J.和Wang,W.(2011)超高维变量选择的惩罚复合拟似然。英国皇家统计学会杂志:B辑,73325-349·Zbl 1411.62181号
[11] Breiman,L.(1995)使用非负garrote进行更好的子集回归。技术计量学,37,373-384·Zbl 0862.62059号
[12] Cabrera‐Rubio,R.、Collado,M.C.、Laitine,K.、Salminen,S.、Isolauri,E.和Mira,A.(2012)母乳微生物群在哺乳期间发生变化,并由母亲的体重和分娩方式决定。美国临床营养学杂志,96,544-551。
[13] Chang,L.,Roberts,S.&Welsh,A.(2018)使用Tukey的双权标准的稳健套索回归。技术计量学,60,36-47。
[14] Cook,R.D.和Weisberg,S.(1982)回归中的残差和影响。纽约州纽约市:查普曼和霍尔·Zbl 0564.62054号
[15] Craig,S.J.、Blankenberg,D.、Parodi,A.C.L.、Paul,I.M.、Birch,L.L.、Savage,J.S.等(2018)与口腔微生物群组成相关的儿童体重增长轨迹。科学报告,8,1-14。
[16] dbGaP(2017)INSIGHT队列微生物组研究。网址:www.ncbi.nlm.nih.gov/projects/gap/cgi‐bin/study.cgi?study_id=phs001498.v1.p1。dbGaP登录号phs001498.v1.p1。【2020年7月5日访问】。
[17] Donoho,D.L.和Huber,P.J.(1983),崩溃点的概念。收录人:Bickel,P.(编辑)、Doksum,K.A.(编辑)和Hodges,J.L.(编辑。)Erich L.Lehmann的节日。加利福尼亚州贝尔蒙特:华兹华斯,第157-184页·Zbl 0523.62032号
[18] Fan,J.&Li,R.(2001)通过无条件惩罚似然及其预言属性进行变量选择。美国统计协会杂志,96,1348-1360·兹比尔1073.62547
[19] Fan,J.,Xue,L.&Zou,H.(2014)折叠凹惩罚估计的强预言最优性。《统计年鉴》,第42819-849页·Zbl 1305.62252号
[20] Frangioni,A.和Gentile,C.(2006)一类凸0-1混合整数规划的透视切割。数学编程,106225-236·兹比尔1134.90447
[21] Freue,G.V.C.,Kepplinger,D.,Salibián‐Barrera,M.&Smucler,E.(2019)蛋白质组生物标记物变量选择和识别的稳健弹性网估计。《应用统计年鉴》,第13期,2065-2090年·Zbl 1436.62551号
[22] Gatu,C.、Yanev,P.I.和Kontoghiorghes,E.J.(2007)生成所有可能回归子模型的图形方法。计算统计与数据分析,52,799-815·Zbl 1452.62061号
[23] Gómez,A.(2021)通过混合整数二次曲线优化在时间序列中检测异常值。SIAM优化杂志,311897-1925·Zbl 1476.90207号
[24] Hadi,A.S.和Luceño,A.(1997)最大修剪似然估计量:统一方法、示例和算法。计算统计与数据分析,25251-272·Zbl 0900.62119号
[25] Haffajee,A.D.和Socransky,S.S.(2009)体重指数、牙周炎和丹奈瑞拉连翘的关系。临床牙周病学杂志,36,89-99。
[26] Hastie,T.,Tibshirani,R.&Tibshilani,R.(2020)最佳子集,向前逐步还是套索?基于广泛比较的分析和建议。统计科学,35779-592·Zbl 07307187号
[27] Hoerl,A.E.&Kennard,R.W.(1970)岭回归:非正交问题的有偏估计。技术计量学,12,55-67·Zbl 0202.17205号
[28] Insolia,L.、Chiaromonte,F.和Riani,M.(2021)均值漂移和方差通货膨胀异常值的稳健估计方法。在Bura,E.(编辑)和Li,B.(编辑)《纪念R.Dennis Cook的节日》中。柏林:施普林格出版社,第17-41页。
[29] Kenney,A.、Chiaromonte,F.和Felici,G.(2021)MIP‐BOOST:线性回归的高效L_0特征选择。计算与图形统计杂志,https://doi.org/101080/10618600.2020.1845184。 ·Zbl 07499902号 ·doi:10.1080/10618600.2020.1845184
[30] Kong,D.,Bondell,H.D.&Wu,Y.(2018)通过惩罚回归进行完全有效的稳健估计、离群值检测和变量选择。中国统计局,281031-1052·Zbl 1390.62119号
[31] Kurnaz,F.S.、Hoffmann,I.和Filzmoser,P.(2017)高维线性和逻辑回归的稳健和稀疏估计方法。化学计量学和智能实验室系统,172211-222。
[32] Lee,Y.、MacEachern,S.N.和Jung,Y.(2012)针对鲁棒性和效率的具体情况参数的正则化。统计科学,27350-372·Zbl 1331.62349号
[33] Liu,J.,Cosman,P.C.和Rao,B.D.(2017)通过Ş_0正则化。IEEE信号处理汇刊,66,698-713·Zbl 1414.94367号
[34] Liu,T.&Jiang,H.(2019)截断凸函数和的最小化及其应用。计算与图形统计杂志,28,1-10·Zbl 07499007号
[35] Liu,H.,Wang,J.,He,T.,Becker,S.,Zhang,G.,Li,D.&Ma,X.(2018)丁酸:健康的双刃剑?营养进展,9,21-29。
[36] Loh,P.(2017)高维稳健M估计量的统计一致性和渐近正态性。《统计年鉴》,45866-896·Zbl 1371.62023号
[37] Maronna,R.A.(2011)高维数据的稳健岭回归。技术计量学,53,44-53。
[38] Maronna,R.A.、Martin,R.D.和Yohai,V.J.(2006)《稳健统计:理论和方法》。纽约州纽约市:John Wiley&Sons·邮编1094.62040
[39] McCann,L.(2006)线性回归中的稳健模型选择和异常值检测。麻省理工学院博士论文。
[40] Menjoge,R.S.&Welsch,R.E.(2010)线性回归中同时进行特征选择和异常值识别的诊断方法。计算统计与数据分析,54,3181-3193·Zbl 1284.62426号
[41] Miller,A.J.(2002),回归中的子集选择,第2版。佛罗里达州博卡拉顿:查普曼和霍尔/CRC·Zbl 1051.62060号
[42] Morgenthaler,S.、Welsch,R.E.和Zenide,A.(2004)线性回归中稳健模型选择的算法。收录人:Hubert,M.(编辑)、Pison,G.(编)、Struyf,A.(编辑)和Van Aelst,S.(编辑。)最新稳健方法的理论和应用。巴塞尔:斯普林格出版社,第195-206页·Zbl 1088.62084号
[43] Müller,S.&Welsh,A.H.(2005)线性回归中的异常稳健模型选择。美国统计协会杂志,1001297-1310·Zbl 1117.62405号
[44] Natarajan,B.K.(1995)线性系统的稀疏近似解。SIAM计算机杂志,24,227-234·Zbl 0827.68054号
[45] Paul,I.M.,Williams,J.S.,Anzman‐Frasca,S.,Beiler,J.S..,Makova,K.D.,Marini,M.E.等人(2014年),干预护士开始对婴儿进行健康轨迹(洞察力)研究。BMC儿科,14,1-15。
[46] Savage,J.S.、Birch,L.L.、Marini,M.、Anzman‐Frasca,S.和Paul,I.M.(2016)自知力反应式父母干预对婴儿1岁时体重快速增加和超重状态的影响:一项随机临床试验。BMC儿科,170742-749。
[47] Schrijver,A.(1986)线性和整数规划理论。纽约州纽约市:John Wiley&Sons·Zbl 0665.90063号
[48] She,Y.和Owen,A.B.(2011)使用非凸惩罚回归检测异常值。美国统计协会杂志,106626-639·Zbl 1232.62068号
[49] Shen,X.、Pan,W.和Zhu,Y.(2012)基于可能性的选择和尖锐参数估计。美国统计协会杂志,107,223-232·Zbl 1261.62020年
[50] Shen,X.、Pan,W.、Zhu,Y.和Zhou,H.(2013)关于约束和正则化高维回归。统计数学研究所年鉴,65807-832·Zbl 1329.62307号
[51] Smucler,E.&Yohai,V.J.(2017)线性回归模型的稳健和稀疏估计。计算统计与数据分析,111116-130·Zbl 1464.62164号
[52] SRA(2017)《洞察口腔和肠道微生物组》。网址:www.ncbi.nlm.nih.gov/bioproject/PRJNA420339。NCBI生物项目编号:PRJNA420339。【查阅日期:2020年7月5日】。
[53] Taveras,E.M.、Rifas‐Shiman,S.L.、Belfort,M.B.、Kleinman,K.P.、Oken,E.和Gillman,M.W.(2009)出生后前6个月的体重状况和3岁时的肥胖。儿科,123,1177-1183。
[54] Taylan,P.,Yerlikaya‐Øzkurt,F.,BilgiçUçak,B.&Weber,G.(2020)基于凸优化的新异常值检测方法:在帕金森病诊断中的应用。应用统计学杂志,https://doi.org/10.1080/02664763.2020.1864815。 ·Zbl 1521.62495号 ·doi:10.1080/02664763.2020.1864815
[55] Taylan,P.,Yerlikaya‐Øzkurt,F.&Weber,G.(2014)通过Tikhonov正则化和圆锥规划实现均值漂移离群值模型的方法。智能数据分析,18,79-94。
[56] Tibshirani,R.(1996)通过套索进行回归收缩和选择。英国皇家统计学会杂志:B辑,58267-288·Zbl 0850.62538号
[57] Vital,M.、Howe,A.C.和Tiedje,J.M.(2014)通过分析(元)基因组数据揭示细菌丁酸盐合成途径。mBio,第5页,第1-11页。
[58] Yerlikaya‐Øzkurt,F.&Taylan,P.(2020)基于二次曲线二次优化的离群值存在下分类问题的新计算方法。统计通信——模拟与计算,49,753-770·Zbl 07552622号
[59] Zeigler,C.C.,Persson,G.R.,Wondimu,B.,Marcus,C.,Sobko,T.&Modéer,T.(2012)口腔龈下生物膜中的微生物与青少年肥胖相关。肥胖,20157-164。
[60] Zhang,C.‐H.和Zhang,T.(2012)高维稀疏估计问题凹正则化的一般理论。统计科学,27576-593·兹比尔1331.62353
[61] Ziotas,G.,Pitsoulis,L.&Avramidis,A.(2009)二次混合整数规划和支持向量,用于删除稳健回归中的异常值。《运筹学年鉴》,166,339-353·Zbl 1163.90675号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。