×

变系数高维纵向数据的两步稀疏增强。 (英语) Zbl 1471.62229号

摘要:变系数模型广泛用于建模非参数相互作用,最近被用于分析随时间重复测量的纵向数据。在本文中,我们重点关注高维纵向观测。提出了一种新的两步稀疏增强方法来进行变量选择和基于模型的预测。作为一种新的机器学习工具,boosting为复杂回归函数提供了模型估计和变量选择的无缝集成。具体来说,在第一步中,采用假设独立性的稀疏增强技术来促进相关结构的初始估计,而在第二步中,将估计的相关结构合并到稀疏增强算法的损失函数中。大量的数值例子说明了两步稀疏助推方法的优点。酵母细胞周期基因表达数据的应用进一步证明了所提出的方法。

理学硕士:

62-08 统计问题的计算方法
62G08号 非参数回归和分位数回归
62甲12 多元分析中的估计
第62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 北班纳吉。;Zhang,M.Q.,《识别控制酵母细胞周期的转录因子之间的协同作用》,核酸研究,31,23,7024-7031,(2003)
[2] Bickel,P.J。;Levina,E.,通过阈值进行协方差正则化,Ann.Statist。,36, 6, 2577-2604, (2008) ·Zbl 1196.62062号
[3] Bickel,P.J。;李维娜,E.,大协方差矩阵的正则化估计,Ann.Statist。,36, 1, 199-227, (2008) ·Zbl 1132.62040号
[4] 比斯瓦斯,M。;Ghosh,A.K.,《适用于高维数据的非参数双样本检验》,《多元分析杂志》。,123, 160-171, (2014) ·Zbl 1278.62059号
[5] Buehlmann,P.,《高维线性模型的推进》,《统计年鉴》。,559-583, (2006) ·Zbl 1095.62077号
[6] Bühlmann,P。;Gerthiss,J。;Hieke,S。;Kneib,T。;马,S。;舒马赫,M。;Tutz,G。;Wang,C.-Y。;王,Z。;Ziegler,A.,“推进算法的演变”和“扩展统计推进”的讨论,《医学方法》,53,6,436-445,(2014)
[7] Bühlmann,P。;Hothorn,T.,Boosting算法:正则化、预测和模型拟合,统计。科学。,477-505,(2007年)·Zbl 1246.62163号
[8] Bühlmann,P。;Hothorn,T.,Twin boosting:改进的特征选择和预测,统计计算。,20, 2, 119-138, (2010)
[9] Bühlmann,P。;Yu,B.,《l2损失推动:回归和分类》,J.Amer。统计人员。协会,98,462,324-339,(2003)·Zbl 1041.62029号
[10] Bühlmann,P。;Yu,B.,稀疏推进,J.Mach。学习。第7号决议,2006年6月,1001-1024日·Zbl 1222.68155号
[11] 蔡,T。;刘伟。;Luo,X.,稀疏精度矩阵估计的约束1最小化方法,J.Amer。统计人员。协会,106,494,594-607,(2011)·兹比尔1232.62087
[12] Cai,T.T。;袁,M.,基于块阈值的自适应协方差矩阵估计,Ann.Statist。,40, 4, 2014-2042, (2012) ·Zbl 1257.62060号
[13] Cai,T.T。;张,C.-H。;周海华,协方差矩阵估计的最优收敛速度,Ann.Statist。,38, 4, 2118-2144, (2010) ·Zbl 1202.62073号
[14] Centorrino,S。;Racine,J.S.,具有内生协变量的半参数变系数模型,《经济学年鉴》。统计,128,261-295,(2017)
[15] Chen,S.X。;Qin,Y.-L.,高维数据的双样本检验及其在基因检测中的应用,Ann.Statist。,38, 2, 808-835, (2010) ·Zbl 1183.62095号
[16] Cheng,M.-Y。;本田,T。;李,J。;彭浩,超高维纵向数据的非参数独立性筛选与结构识别,Ann.Statist。,42, 5, 1819-1849, (2014) ·Zbl 1305.62169号
[17] 程,M.-Y。;本田,T。;Li,J.,纵向/聚类数据半变系数模型的有效估计,Ann.Statist。,1988-2017年5月44日,(2016年)·Zbl 1349.62128号
[18] 崔,Y。;冷,C。;Sun,D.,高维相关矩阵的稀疏估计,计算。统计人员。数据分析。,93, 390-403, (2016) ·Zbl 1468.62044号
[19] Dehmer,M。;Emmert-Streib,F.,微阵列数据分析:基于网络的方法,(2008),John Wiley&Sons
[20] Diggle,P.,《纵向数据分析》(2002),牛津大学出版社
[21] 范,J。;范,Y。;Lv,J.,使用因子模型进行高维协方差矩阵估计,《计量经济学》,147,1,186-197,(2008)·Zbl 1429.62185号
[22] 范,J。;Feng,Y。;Wu,Y.,通过自适应LASSO和SCAD惩罚进行网络探索,Ann.Appl。统计,3,2,521,(2009)·兹比尔1166.62040
[23] 范,J。;黄,T。;Li,R.,协方差函数半参数估计的纵向数据分析,J.Amer。统计人员。协会,102,478,632-641,(2007)·Zbl 1172.62323号
[24] 范,J。;Li,R.,通过非冲突惩罚似然进行变量选择及其预言性质,J.Amer。统计人员。协会,96,456,1348-1360,(2001)·Zbl 1073.62547号
[25] 范,J。;马云(Ma,Y.)。;Dai,W.,稀疏超高维变系数模型中的非参数独立筛选,J.Amer。统计人员。协会,109,507,1270-1284,(2014)·Zbl 1368.62095号
[26] Fitch,A.M.,《图形模型的计算可处理拟合:可分解贝叶斯和惩罚似然方法的成本和收益:部分满足新西兰奥尔巴尼梅西大学统计学博士学位要求的论文》(2012),梅西大学,(博士论文)
[27] Fitzmaurice,G.M。;新墨西哥州莱尔德。;Ware,J.H.,《应用纵向分析》,第998卷,(2012),John Wiley&Sons
[28] Fortuin,C.M。;Kasteleyn,P.W.,《关于随机簇模型:I.与其他模型的介绍和关系》,Physica,57,4,536-564,(1972)
[29] 弗伦德,Y。;Schapire,R.E.,《在线学习的决策理论概括及其在助推中的应用》(欧洲计算学习理论会议,(1995),Springer),23-37
[30] Friedman,J.H.,《贪婪函数近似:梯度提升机》,Ann.Statist。,1189-1232, (2001) ·Zbl 1043.62034号
[31] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,用图形套索进行稀疏逆协方差估计,生物统计学,9,3,432-441,(2008)·兹比尔1143.62076
[32] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《加性逻辑回归:促进的统计观点》(作者进行了讨论和反驳),《统计年鉴》。,28, 2, 337-407, (2000) ·兹比尔1106.62323
[33] 高杰。;彭,B。;任,Z。;Zhang,X.,识别体重指数决定因素的分类变系数模型的变量选择,Ann.Appl。统计,11,2,1117-1145,(2017)·Zbl 1391.62214号
[34] Gelman,A。;Hill,J.,《使用回归和多级/层次模型进行数据分析》,(2012年),剑桥大学出版社
[35] Giraud,C.,《高维统计导论》(2015),CRC出版社·Zbl 1341.62011年
[36] 绿色,P。;Silverman,B.,非参数回归和广义线性模型,Monogr。统计人员。申请。概率。,58, (1994) ·Zbl 0832.62032号
[37] 汉森,M.H。;Yu,B.,模型选择和最小描述长度原则,J.Amer。统计人员。协会,96454746-774,(2001)·Zbl 1017.62004号
[38] Ing,C.-K.公司。;Lai,T.L.,高维稀疏线性模型的逐步回归方法和一致模型选择,Statist。Sinica,1473-1513,(2011年)·Zbl 1225.62095号
[39] 科赫,C。;莫尔,T。;Neuberg,M。;Ahorn,H。;Nasmith,K.,转录因子mbp1和swi4在G1至S期进展中的作用,《科学》,261,5128,1551-1557,(1993)
[40] O.小森。;Eguchi,S.,最大化ROC曲线下部分面积的增强方法,BMC生物信息学,11,1,314,(2010)
[41] 科兰达,M。;Schleiffer,A。;恩德勒,L。;Ammerer,G.,类Forkhead转录因子将ndd1招募到G2/M特异性启动子的染色质,《自然》,406,6791,94,(2000)
[42] 库马尔,R。;雷诺兹,D.M。;舍甫琴科,A。;舍甫琴科,A。;戈德斯通,S.D。;道尔顿,S.,叉头转录因子fkh1p和fkh2p与mcm1p合作控制M期所需的转录,Curr。生物学,10,15,896-906,(2000)
[43] 林,X。;Carroll,R.J.,《使用广义估计方程进行聚类数据的半参数回归》,J.Amer。统计人员。协会,964551045-1056,(2001)·Zbl 1072.62566号
[44] Loy,C.J。;利达尔,D。;Surana,U.,Ndd1是一种高剂量ofcdc28-1n抑制剂,对酿酒酵母Mol.细胞中晚s期特异性基因子集的表达至关重要。《生物学》,19,5,3312-3327,(1999)
[45] 洛扎诺,A.C。;Kulkarni,S.R。;Schapire,R.E.,《弱相关观测正则化增强的收敛性和一致性》,IEEE Trans。通知。理论,60,1651-660,(2014)·Zbl 1364.94211号
[46] Luan,Y。;Li,H.,使用带有B样条的混合效应模型对时间进程基因表达数据进行聚类,生物信息学,19,4,474-482,(2003)
[47] 卢戈西,G。;Vayatis,N.,《关于正则化增强方法的贝叶斯风险一致性》,Ann.Statist。,30-55, (2004) ·Zbl 1105.62319号
[48] Luo,Y.,Spindler,M.,2016年。高维\(L\text{\_}2\)arXiv:1602.08927;Luo,Y.,Spindler,M.,2016年。高维\(L\text{\_}2\)arXiv:1602.08927
[49] 梅森,L。;巴克斯特,J。;Bartlett,P.L。;Frean,M.R.,Boosting algorithms as gradient descent,(神经信息处理系统进展,2000),512-518
[50] Mondal,P.K。;比斯瓦斯,M。;Ghosh,A.K.,《基于最近邻的高维双样本检验》,《多元分析》。,141, 168-178, (2015) ·Zbl 1323.62037号
[51] Rizopoulos,D.,《纵向和时间-事件数据的联合模型》(2012),CRC出版社·Zbl 1284.62032号
[52] Schapire,R.E.,《弱可学习性的力量》,马赫。学习。,5, 2, 197-227, (1990)
[53] 夏皮雷,R.E。;Freund,Y.,《Boosting:基础与算法》(2012),麻省理工出版社·Zbl 1278.68021号
[54] Schmidt,M.,《L1规则化的图形模型结构学习》(2010),不列颠哥伦比亚大学,Citeser
[55] Spector,M.S。;拉夫,A。;DeSilva,H。;Lee,K。;Osley,M.A.,Hir1p和hir2p作为转录辅抑制因子,在酿酒酵母细胞周期Mol.cell中调节组蛋白基因转录。生物学,17,2455-552,(1997)
[56] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.Ser。B统计方法。,267-288, (1996) ·Zbl 0850.62538号
[57] 香港蔡。;卢,H.H.-S。;Li,W.-H.,鉴定酵母细胞周期转录因子的统计方法,Proc。国家。阿卡德。科学。美国,102,38,13532-13537,(2005)
[58] Tver,D.,奇异值的渐近分布及其在典型相关和对应分析中的应用,J.多元分析。,50, 238-264, (1994) ·Zbl 0805.62020号
[59] Wang,N.,《考虑受试者内相关性的边际非参数核回归》,《生物统计学》,90,1,43-52,(2003)·Zbl 1034.62035号
[60] Wang,Z.,Hingebost:基于ROC的分类和变量选择增强,国际生物统计杂志。,2011年7月1日至30日
[61] Wang,Z.,《多类铰链柱》,《方法信息医学》,51,02,162-167,(2012)
[62] Wang,L。;陈,G。;Li,H.,微阵列时间进程基因表达数据的群组SCAD回归分析,生物信息学,23,12,1486-1494,(2007)
[63] Wang,L。;李,H。;Huang,J.Z.,用于重复测量分析的非参数变系数模型中的变量选择,J.Amer。统计人员。协会,103,484,1556-1569,(2008)·Zbl 1286.62034号
[64] Wang,H。;Xia,Y.,变系数模型的收缩率估计,J.Amer。统计人员。协会,104,486,747-757,(2009)·Zbl 1388.62213号
[65] 魏,F。;黄,J。;Li,H.,高维变系数模型中的变量选择和估计,统计学。Sinica,21,4,1515(2011)·Zbl 1225.62056号
[66] 吴总。;田,X。;Bang,H.,用于评估纵向研究中时变伴随干预效应的变系数模型,Stat.Med.,27,16,3042-3056,(2008)
[67] 夏,X。;江,B。;李,J。;Zhang,W.,生存分析的低维混杂调整和高维惩罚估计,寿命数据分析。,22, 4, 547-569, (2016) ·Zbl 1372.62089号
[68] Yang,Y。;Zou,H.,通过ER-boost的非参数多元预期回归,J.Stat.Compute。模拟。,85, 7, 1442-1458, (2015) ·Zbl 1457.62124号
[69] 袁,M.,通过线性规划进行高维逆协方差矩阵估计,J.Mach。学习。第2261-2286号决议,2010年8月11日·Zbl 1242.62043号
[70] 袁,M。;Lin,Y.,《分组变量回归中的模型选择和估计》,J.R.Stat.Soc.Ser。B统计方法。,68,1,49-67,(2006年)·Zbl 1141.62030号
[71] 岳,M。;Li,J.,《用删失生存结果和不同系数改进超高维数据筛选》,国际生物统计杂志。,(2017年)
[72] 岳,M。;李,J。;Ma,S.,《不同系数的高维生存数据的稀疏增强》,Stat.Med.,37,5,789-800,(2018)
[73] 张春华,最小最大凹惩罚下的几乎无偏变量选择,安统计学家。,894-942, (2010) ·兹比尔1183.62120
[74] 张,C。;Yin,X.,Trending时变系数市场模型,Quant。《金融》,第12期,第10期,第1533-1546页,(2012年)
[75] 赵,J.,《通用稀疏增强:通过基于相关性的惩罚族改进二语增强的特征选择》,Comm.Statist。模拟计算。,44, 6, 1612-1640, (2015) ·兹比尔1328.62254
[76] Zou,H.,《自适应套索及其预言属性》,J.Amer。统计人员。协会,101,476,1418-1429,(2006)·Zbl 1171.62326号
[77] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,J.R.Stat.Soc.Ser。B统计方法。,67, 2, 301-320, (2005) ·Zbl 1069.62054号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不声称其完整性或完全匹配。