×

小规模和大规模问题中基于秩的删失数据系数估计教程。 (英语) 兹比尔1322.62241

摘要:以权利为中心的生存终点分析是统计学的一个重要研究领域,特别是在计量经济学家和生物统计学家中。两种最流行的半参数模型是比例风险模型和加速失效时间(AFT)模型。由于非光滑损失函数的优化,AFT模型中基于秩的估计在计算上具有挑战性。以前的工作表明,基于秩的估计量可以写成线性规划(LP)问题的解。然而,LP问题的大小是\(O(n^2+p)\)受\(n^2)线性约束,其中\(n\)表示样本大小,\(p\)表示参数的维数。随着(n)和/或(p)的增加,这种解决方案在实践中的可行性变得可疑。在数据挖掘和统计学习爱好者中,有兴趣通过正则化将低维的普通回归系数估值器扩展到高维数据挖掘工具中。将此方法应用于基于秩的系数估计器会导致难以解决的优化问题,通过对非光滑函数的平滑逼近可以避免这些问题。我们回顾了AFT模型中基于秩的估计的光滑近似和拟Newton方法。我们的方法的计算成本大大小于相应的LP问题,并且可以类似地应用于小型或大型问题。这里描述的算法允许将基于秩的估计与几乎任何正则化结合起来,并通过四个案例研究进行了例证。

MSC公司:

62纳米02 生存分析和删失数据中的估计
62纳米01 审查数据模型
62号05 可靠性和寿命测试
62-01 与统计有关的介绍性说明(教科书、辅导论文等)

软件:

AS 229标准
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Boyd,S.P.,Vandenberghe,L.:凸优化。剑桥大学出版社,剑桥(2004)·Zbl 1058.90049号
[2] Brown,B.M.,Wang,Y.G.:平滑秩估计量的标准误差和协方差矩阵。《生物特征》92、149–158(2005)·Zbl 1068.62037号 ·doi:10.1093/biomet/92.1.149
[3] Brown,B.M.,Wang,Y.G.:截尾生存时间秩回归的诱导平滑。Stat.Med.26,828–836(2007年)·doi:10.1002/sim.2576
[4] Cai,T.,Huang,J.,Tian,L.:加速失效时间模型的正则化估计。生物识别学65394–404(2009)·Zbl 1274.62736号 ·doi:10.1111/j.1541-0420.2008.01074.x
[5] CAMDA:微阵列数据分析的关键评估(2003)。http://www.camda.duke.edu/camda03.html
[6] Candes,E.,Tao,T.:Dantzig选择器:当p远大于n.Ann.Stat.35(6),2313–2351(2007)时的统计估计·Zbl 1139.62019号 ·doi:10.1214/09053606000001523
[7] 钟,J.,钟,M.,O’Leary,D.:为不适定反问题设计最优滤波器。SIAM J.科学。计算。33(6), 3132–3152 (2011) ·Zbl 1269.65040号 ·数字对象标识代码:10.1137/100812938
[8] Conrad,M.,Johnson,B.A.:有效计算Gehan估计的准Newton算法。技术报告TR 2010-02。埃默里大学生物统计和生物信息学系(2010年)
[9] Cox,D.R.:回归模型和生命表。J.R.Stat.Soc.,塞尔维亚。B、 统计方法。34, 187–220 (1972) ·Zbl 0243.62041号
[10] Cox,D.R.,Oakes,D.:生存数据分析。查普曼&霍尔,伦敦(1984)
[11] Dickson,E.R.,Grambsch,P.M.,Fleming,T.R.,Fisher,D.,Langworthy,A.:原发性胆汁性肝硬化的预后:决策模型。《肝病学》10(1),1-7(1989)·doi:10.1002/hep.184010102
[12] Fleming,T.R.,Harrington,D.P.:计数过程和生存分析,第8卷。威利,纽约(1991)·Zbl 0727.62096号
[13] Fygenson,M.,Ritov,Y.:删失数据的单调估计方程。Ann.Stat.22,732–746(1994)·Zbl 0807.62032号 ·doi:10.1214/aos/1176325493
[14] Gehan,E.A.:用于比较任意单次删失样本的广义Wilcoxon检验。《生物特征》52、203–223(1965)·Zbl 0133.41901号 ·doi:10.1093/biomet/52.1-2.203
[15] Gill,P.E.,Murray,W.,Wright,M.H.:实用优化。纽约学术出版社(1981)
[16] Hadamard,J.:《问题与现实》(Sur les Problèmes aux Dérivées Partielles et Leur Signifation Physique)(1902年)
[17] Hastie,T.,Tibshirani,R.J.F.:《统计学习的要素》,第二版。施普林格,纽约(2009)·Zbl 1273.62005年
[18] Heller,G.:删失数据的平滑秩回归。《美国法律总汇》第102卷(478)、第552–559页(2007年)·Zbl 1172.62309号 ·doi:10.1198/0162145000001257
[19] Hoerl,A.E.,Kennard,R.W.:岭回归:非正交问题的有偏估计。技术指标55-67(1970)·Zbl 0202.17205号
[20] Huang,J.,Ma,S.,Xie,H.:具有高维协变量的加速失效时间模型中的正则化估计。生物统计学,813–820(2006)·Zbl 1111.62090号
[21] Huber,P.J.:位置参数的稳健估计。安。数学。《美国联邦法律大全》第35(1)卷,第73–101页(1964年)·Zbl 0136.39805号 ·doi:10.1214/aoms/1177703732
[22] Hunter,R.,Lange,K.:mm算法教程。《美国统计》第30–37页(2004年)
[23] Jin,Z.,Lin,D.Y.,Wei,L.J.,Ying,Z.:加速失效时间模型的基于秩的推断。生物特征90(2),341-353(2003)·兹比尔1034.62103 ·doi:10.1093/biomet/90.2.341
[24] Johnson,B.A.:截尾数据半参数线性回归中的变量选择。J.R.Stat.Soc.B 70、351–370(2008年)·Zbl 1148.62052号 ·doi:10.1111/j.1467-9868.2008.00639.x
[25] Johnson,B.A.:1-正则部分线性模型中基于秩的估计,应用于临床预测因子和基因表达数据的综合分析。生物统计学10,659–666(2009年a)·doi:10.1093/biostatistics/kxp020
[26] 约翰逊,B.A.:关于审查数据的套索。电子。《美国联邦法律大全》第3卷第485–506页(2009年b)·Zbl 1326.62201号 ·doi:10.1214/08-EJS322
[27] Johnson,B.A.,Lin,D.,Zeng,D.:半参数回归模型中的惩罚估计函数和变量选择。《美国统计协会期刊》103、672–680(2008)·Zbl 1471.62330号 ·doi:10.1198/0162145000000184
[28] Johnson,A.、Long,Q.、Chung,M.:审查结果的路径恢复。生物统计学67,1379–1388(2011)·Zbl 1274.62799号 ·文件编号:10.1111/j.1541-0420.2011.01587.x
[29] Johnson,L.M.,Strawderman,R.L.:半参数加速故障时间模型的诱导平滑:渐近性和对聚类数据的扩展。生物特征96(3),577–590(2009)·Zbl 1170.62069号 ·doi:10.1093/biomet/asp025
[30] Kaipio,J.P.,Somersalo,E.:统计和计算逆问题。柏林施普林格出版社(2005)·Zbl 1068.65022号
[31] Kalbfleisch,J.D.,Prentice,R.L.:失效时间数据的统计分析,第5卷,第2版。威利,纽约(1980)·Zbl 0504.62096号
[32] Koenker,R.,Bassett,G.Jr.:回归分位数。《计量经济学》33–50(1978)·Zbl 0373.62038号
[33] Koenker,R.,Ng,P.:稀疏分位数回归的Frisch-Newton算法。数学学报。申请。罪。21(2), 225–236 (2005) ·Zbl 1097.62028号 ·doi:10.1007/s10255-005-0231-1
[34] Koenker,R.W.,D’Orey,V:算法as 229:计算回归分位数。J.R.Stat.Soc.,塞尔维亚。C、 申请。Stat.36(3),383–393(1987)
[35] Lin,D.Y.,Geyer,C.J.:截尾数据下半参数线性回归的计算方法。J.计算。图表。《统计》第1(1)卷,77–90页(1992年)
[36] Meier,L.,Van de Geer,S.,Bühlmann,P.:逻辑回归的组套索。70组(1),53–71组(2008)·Zbl 1400.62276号
[37] Morris,C.,Norton,E.,Zhou,X.:疗养院使用的参数持续时间分析。摘自:《生物测定案例研究》,第231-248页(1994年)
[38] Nocedal,J.,Wright,S.J.:《数值优化》,第二版。柏林施普林格出版社(2006)·Zbl 1104.65059号
[39] A.B.欧文:套索和岭回归的稳健混合。斯坦福大学统计系技术报告,加利福尼亚州帕洛阿尔托(2006)
[40] Prentice,R.L.:右删失数据的线性秩检验。生物特征65(1),167-179(1978)·Zbl 0377.62024号 ·doi:10.1093/biomet/65.1.167
[41] N.里德:与大卫·考克斯爵士的对话。统计科学。9, 439–455 (1994) ·Zbl 0955.01543号 ·doi:10.1214/ss/1177010394
[42] Tibshirani,R.:通过套索进行回归收缩和选择。J.R.Stat.Soc.B 58(1),267–288(1996)·Zbl 0850.62538号
[43] Tibshirani,R.、Saunders,M.、Rosset,S.、Zhu,J.、K.奈特:通过融合套索实现的简约流畅。J.R.Stat.Soc.,塞尔维亚。B、 统计方法。67(1), 91–108 (2005) ·兹比尔1060.62049 ·文件编号:10.1111/j.1467-9868.2005.00490.x
[44] Tsiatis,A.A.:使用删失数据的线性秩检验估计回归参数。Ann.Stat.18(1),354–372(1990)·兹比尔0701.62051 ·doi:10.1214/aos/1176347504
[45] Vogel,C.R.:反问题的计算方法,第23卷。SIAM,费城(2002)·兹比尔1008.65103
[46] Wei,L.J.,Ying,Z.,Lin,D.Y.:基于秩检验的截尾生存数据的线性回归分析。生物特征77(4),845–851(1990)·doi:10.1093/biomet/77.4.845
[47] Wu,S.,Shen,X.,Geyer,C.J.:使用整个解曲面的自适应正则化。《生物特征》96(3),513–527(2009)·Zbl 1170.62036号 ·doi:10.1093/biomet/asp038
[48] Xu,J.,Leng,C.,Ying,Z.:删失数据的基于秩的变量选择。统计计算。2065-176(2010年)·doi:10.1007/s11222-009-9126-y
[49] Ying,Z.:删失回归数据秩估计的大样本研究。Ann.Stat.21,76-99(1993)·Zbl 0773.62048号 ·doi:10.1214/aos/1176349016
[50] Yuan,M.,Lin,Y.:分组变量回归中的模型选择和估计。J.R.Stat.Soc.,塞尔维亚。B、 统计方法。68(1), 49–67 (2006) ·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[51] Zou,H.:自适应套索及其预言属性。《美国统计协会期刊》101,1418–1429(2006)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[52] Zou,H.,Hastie,T.:通过弹性网进行正则化和变量选择。J.R.Stat.Soc.,塞尔维亚。B、 统计方法。67(2), 301–320 (2005) ·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。