文件Zbl 1110.62051-zbMATH Open

统计规范化。（英文） Zbl 1110.62051号

测试 15，第2期，271-344（2006）.

摘要：本文是对统计文献中分散的正则化方法的选择性综述。我们引入了一种通用的正则化概念方法，并将大多数现有方法应用于其中。我们试图在处理当今高维对象（数据和模型）时，重点关注正则化的重要性。讨论了大量的例子，包括非参数回归、boosting、协方差矩阵估计、主成分估计、子抽样。

引用于25文件

MSC公司：

62G08号	非参数回归和分位数回归
62甲12	多元分析中的估计
62H25个	因子分析和主成分；对应分析
62A01型	统计学基础和哲学主题

关键词：

线性回归;增压;协方差矩阵;主成分;引导数据库;二次采样;型号选择

软件：

重新采样统计信息;ElemStatLearn（电子状态学习）

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Akaike，H.（1970年）。统计预测识别。统计数学研究所年鉴，22:203-217·Zbl 0259.62076号 ·doi:10.1007/BF02506337
[2]	Bair，E.、Hastie，T.J.、Paul，D.和Tibshirani，R.（2006）。监督主成分预测。美国统计协会杂志，101（473）：119-137·Zbl 1118.62326号 ·doi:10.1198/0162145050000000628
[3]	Bickel，P.J.、Götze，F.和van Zwet，W.R.（1997年）。重新采样少于n个观察结果：收益、损失和弥补损失。中国统计，7（1）：1–31。经验贝叶斯，序列分析和统计与概率相关主题（新泽西州新不伦瑞克，1995）·Zbl 0927.62043号
[4]	Bickel，P.J.、Klaassen，C.A.J.、Ritov，Y.和Wellner，J.A.（1998年）。半参数模型的有效自适应估计。重印1993年原件。纽约施普林格-弗拉格。
[5]	Bickel，P.J.和Levina，E.（2004）。Fisher线性判别函数的一些理论，“朴素贝叶斯”，以及当变量比观测值多时的一些替代方法。伯努利，10（6）：989–1010·Zbl 1064.62073号 ·doi:10.3150/bj/1106314847
[6]	Bickel，P.J.和Levina，E.（2006年）。大协方差矩阵的正则化估计。技术报告716，加州大学伯克利分校统计系。
[7]	Bickel，P.J.、Ritov，Y.和Zakai，A.（2006年）。广义boosting算法的一些理论。机器学习研究杂志。出现·Zbl 1222.68148号
[8]	Bickel，P.J.和Sakov，A.（2005）。关于非自举模型中m的选择及其在极端百分位数置信界中的应用。未发布。
[9]	Birgé，L.和Massart，P.（1997）。从模型选择到自适应估计。D.Pollard、E.Torgessen和G.Yang主编，《Lucien Le Cam的节日：概率与统计研究论文》，第55-87页，Springer-Verlag，纽约·Zbl 0920.62042号
[10]	Birgé，L.和Massart，P.（2001）。高斯模型选择。欧洲数学学会杂志，3（3）：203-268·Zbl 1037.62001 ·doi:10.1007/s100970100031
[11]	Böttcher，A.和Silbermann，B.（1999）。介绍大型截断Toeplitz矩阵，Universitext。纽约施普林格-弗拉格。
[12]	Breiman，L.（1996）。模型选择中不稳定性和稳定性的启发。统计年鉴，24（6）：2350–2383·Zbl 0867.62055号 ·doi:10.1214/aos/1032181158
[13]	Breiman，L.、Stone，C.J.和Kooperberg，C.（1990年）。极端上分位数的稳健置信界。统计计算与模拟杂志，37（3-4）：127-149·Zbl 0775.62117号 ·网址：10.1080/00949659008811300
[14]	Bühlmann，P.（2006年）。推动高维线性模型。统计年鉴，34（2）：559–583·Zbl 1095.62077号 ·doi:10.1214/009053600000092
[15]	Bühlmann，P.和Yu，B.（2006）。稀疏增压。《机器学习研究杂志》，7:1001–1024·Zbl 1222.68155号
[16]	Bunea，F.、Wegkamp，M.H.和Auguste，A.（2006年）。通过多重测试在高维回归中选择一致的变量。统计规划和推断杂志，136（12）：4349–4364·兹比尔1112.62062 ·doi:10.1016/j.jspi.2005.03.011
[17]	Chen，H.（1988）。部分线性模型中参数分量的收敛速度。统计年鉴，16（1）：136-146·Zbl 0637.62067号 ·doi:10.1214/aos/1176350695
[18]	Craven，P.和Wahba，G.（1979年）。使用样条函数平滑噪声数据。用广义交叉验证方法估计平滑度的正确程度。数字数学31（4）：377–403·Zbl 0377.65007号 ·doi:10.1007/BF01404567
[19]	Daniels，M.J.和Pourahmadi，M.（2002年）。纵向数据协方差矩阵和动态模型的贝叶斯分析。生物特征，89（3）：553-566·Zbl 1036.62019年 ·doi:10.1093/biomet/89.3.553
[20]	Datta，S.和McCormick，W.P.（1995）。具有正创新的一阶自回归的Bootstrap推断。美国统计协会杂志，90（432）：1289–1300·Zbl 0868.62068号 ·doi:10.2307/2291519
[21]	Devroye，L.、Györfi，L.和Lugosi，G.（1996），模式识别的概率理论，数学应用第31卷（纽约）。纽约施普林格-弗拉格·Zbl 0853.68150号
[22]	Donoho，D.L.（2000）。高维数据分析：维度的诅咒和祝福。《21世纪数学挑战》（2000）。美国数学学会。全体发言者。网址：http://www-stat.stanford.edu/donoho/讲座/AMS2000/
[23]	Donoho，D.L.和Johnstone，I.M.（1998年）。基于小波收缩的Minimax估计。统计年鉴，26（3）：879–921·Zbl 0935.62041号 ·doi:10.1214/aos/1024691081
[24]	Draper，N.R.和Smith，H.（1998年）。应用回归分析。《概率统计威利系列：文本和参考资料部分》，约翰·威利父子出版社，纽约，第三版·Zbl 1107.62341号
[25]	Dudoit，S.、Fridland，J.和Speed，T.P.（2002年）。利用基因表达数据对肿瘤进行分类的判别方法的比较。美国统计协会杂志，97（457）：77-87·Zbl 1073.62576号 ·doi:10.1198/016214502753479248
[26]	Dudoit，S.和Van der Laan，M.J.（2005）。估计器选择和性能评估中交叉验证风险估计的渐近性。统计方法，2（2）：131–154·Zbl 1248.62004号 ·doi:10.1016/j.stamet.2005.02.003
[27]	Efron，B.（1979年）。引导方法：再次审视折刀。统计年鉴，7（1）：1-26·Zbl 0406.62024号 ·doi:10.1214/aos/1176344552
[28]	Efron，B.（2004）。预测误差的估计：协方差惩罚和交叉验证（含讨论）。美国统计协会杂志，99（467）：619-642·兹比尔1117.62324 ·doi:10.1198/016214500000692
[29]	Efron，B.、Hastie，T.J.、Johnstone，I.和Tibshirani，R.（2004）。最小角度回归（讨论）。统计年鉴，32（2）：407-499·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[30]	Fan J.和Gijbels，I.（1996年）。局部多项式建模及其应用，统计学和应用概率专著第66卷。Chapman&Hall/CRC，伦敦·Zbl 0873.62037号
[31]	Fan，J.和Li，R.（2001）。通过非冲突惩罚似然及其oracle属性进行变量选择。美国统计协会杂志，96（456）：1348-1360·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[32]	Fan，J.和Li，R.（2006）。高维统计挑战：知识发现中的特征选择。收录于：M.Sanz-Sole、J.Soria、J.L.Varona和J.Verdera主编，《国际数学家大会论文集》，马德里，2006年，第三卷，第595-622页，欧洲数学学会出版社·Zbl 1117.62137号
[33]	Fan，J.和Peng，H.（2004）。具有发散参数数的非凹陷惩罚似然。《统计年鉴》，32（3）：928–961·Zbl 1092.62031号 ·doi:10.1214/009053604000000256
[34]	Furrer，R.和Bengtsson，T.（2006年）。卡尔曼滤波器变量中高维先验和后验协方差矩阵的估计。多变量分析杂志。出现。
[35]	Götze，F.（1993）。渐近近似和引导。I.M.S.公报，第305页。
[36]	Götze，F.和Raĉkauskas，A.（2001）。引导程序样本大小的自适应选择。《概率与统计的最新进展》（莱顿，1999），IMS演讲笔记专著系列第36卷，第286-309页。俄亥俄州比奇伍德数理统计研究所
[37]	Greenshtein，E.（2006）。最佳子集选择，高维统计学习中的持久性和1-约束下的优化。《统计年鉴》34（5），即将出版·Zbl 1106.62022号
[38]	Greenshtein，E.和Ritov，Y.（2004年）。高维线性预测器选择的持续性和超参数化的优点。伯努利，10（6）：971-988·Zbl 1055.62078号 ·doi:10.3150/bj/1106314846
[39]	Györfi，L.、Kohler，M.、Krzyzak，A.和Walk，H.（2002年）。非参数回归的无分布理论，统计学中的Springer级数。纽约施普林格-弗拉格。
[40]	Hall，P.（1992）。引导和Edgeworth扩展。Springer统计系列，Springer-Verlag，纽约·Zbl 0744.62026号
[41]	Hall，P.、Horowitz，J.L.和Jing，B.-Y.（1995）。关于具有相关数据的引导程序的阻塞规则。《生物特征》，82（3）：561-574·Zbl 0830.62082号 ·doi:10.1093/biomet/82.3561
[42]	Hastie，T.J.、Tibshirani，R.和Friedman，J.H.（2001）。统计学习的要素。统计学中的斯普林格系列。Springer-Verlag，纽约。数据挖掘、推理和预测·Zbl 0973.62007号
[43]	Hoerl，A.E.和Kennard，R.W.（1970年）。岭回归：非正交问题的有偏估计。技术计量学，12（1）：55–67·Zbl 0202.17205号 ·数字对象标识代码：10.2307/1267351
[44]	Huang，J.、Liu，N.、Pourahmadi，M.和Liu，L.（2006）。协方差矩阵的选择和通过惩罚正态似然的估计。《生物特征》，93（1）：85–98·Zbl 1152.62346号 ·doi:10.1093/biomet/93.1.85
[45]	Hunter，D.R.和Li，R.（2005）。使用MM算法选择变量。《统计年鉴》，33（4）：1617-1642·Zbl 1078.62028号 ·doi:10.1214/009053605000000200
[46]	James，W.和Stein，C.（1961年）。二次损失估计。《伯克利第四交响曲汇编》。数学。统计师。《概率》，第一卷，第361-379页。加州大学出版社，加州伯克利。
[47]	Johnstone，I.M.（2001）。关于主成分分析中最大特征值的分布。统计年鉴，29（2）：295–327·Zbl 1016.62078号 ·doi:10.1214/aos/1009210544
[48]	Johnstone，I.M.和Lu，A.Y.（2006年）。稀疏主成分分析。美国统计协会杂志。出现。
[49]	Johnstone，I.M.和Silverman，B.W.（2005）。小波阈值的经验贝叶斯选择。《统计年鉴》，33（4）：1700-1752·Zbl 1078.62005号 ·doi:10.1214/009053605000000345
[50]	Kass，R.E.和Raftery，A.E.（1995年）。贝叶斯因素。美国统计协会杂志，90（430）：773-795·Zbl 0846.62028号 ·doi:10.2307/2291091
[51]	Kass，R.E.和Wasserman，L.（1995）。嵌套假设的参考贝叶斯检验及其与施瓦兹准则的关系。美国统计协会杂志，90（431）：928-934·Zbl 0851.62020号 ·doi:10.2307/2291327
[52]	Kosorok，M.和Ma，S.（2006年）。“大p，小n”范式的边缘渐近性：应用于微阵列数据。未发布。
[53]	Künsch，H.R.（1989）。一般静态观测的折刀和引导。统计年鉴，17（3）：1217–1241·Zbl 0684.62035号 ·doi:10.1214/aos/1176347265
[54]	Ledoit，O.和Wolf，M.（2004）。大维覆盖矩阵的条件良好估计。《多变量分析杂志》，88（2）：365–411·Zbl 1032.62050 ·doi:10.1016/S0047-259X（03）00096-4
[55]	Li，K.-C.（1985）。从Stein的无偏风险估计到广义交叉验证方法。统计年鉴，13（4）：1352-1377·兹比尔0605.62047 ·doi:10.1214/aos/1176349742
[56]	Li，K.-C.（1986）。岭回归中CL的渐近最优性和广义交叉验证及其在样条平滑中的应用。统计年鉴，14（3）：1101–1112·兹比尔062962043 ·doi:10.1214/aos/1176350052
[57]	Li，K.-C.（1987）。Cp，CL，交叉验证和广义交叉验证的渐近最优性：离散指标集。统计年鉴，15（3）：958–975·Zbl 0653.62037号 ·doi:10.1214/aos/1176350486
[58]	Lugosi，G.和Nobel，A.B.（1999）。使用经验复杂性进行自适应模型选择。统计年鉴，27（6）：1830-1864·Zbl 0961.62081号 ·doi:10.1214/aos/1017939242
[59]	Lugosi，G.和Vayatis，N.（2004年）。正则化boosting方法的Bayes-risk一致性。统计年鉴，32（1）：300-55·Zbl 1105.62319号
[60]	Mallows，C.L.（1973）。一些评论。技术计量学，15（4）：661-675·兹比尔0269.62061 ·doi:10.2307/1267380
[61]	Mammen，E.（1992）。引导程序何时起作用？，纽约施普林格-弗拉格·Zbl 0760.62038号
[62]	Mammen，E.和Tsybakov，A.B.（1999年）。平滑判别分析。统计年鉴，27（6）：1808-1829·Zbl 0961.62058号 ·doi:10.1214/aos/1017939240
[63]	Meinshausen，N.（2005年）。放松的套索。未发布。
[64]	Nadaraya，E.A.（1964年）。关于估计回归。概率论及其应用，10:186-190·Zbl 0134.36302号 ·数字对象标识代码：10.1137/1110024
[65]	Parzen，E.（1962年）。关于概率密度函数和模式的估计。《数理统计年鉴》，33:1065-1076·Zbl 0116.11302号 ·doi:10.1214/aoms/1177704472
[66]	Paul，D.（2005年）。尖峰协方差模型的前导样本特征值的渐近性。未发布。
[67]	Politis，D.N.和Romano，J.P.（1994年）。基于最小假设下的子样本的大样本置信区域。统计年鉴，22（4）：2031–2050·Zbl 0828.62044号 ·doi:10.1214/aos/1176325770
[68]	Politis，D.N.Romano，J.P.和Wolf，M.（1999）。二次采样。统计学中的斯普林格系列。纽约施普林格-弗拉格。
[69]	Pourahmadi，M.（1999）。应用于纵向数据的联合均值-方差模型：无约束参数化。生物特征，86（3）：677-690·Zbl 0949.62066号 ·doi:10.1093/biomet/86.3.677
[70]	Pourahmadi，M.（2000年）。多元正态协方差矩阵广义线性模型的最大似然估计。生物统计学，87（2）：425-435·Zbl 0954.62091号 ·doi:10.1093/biomet/87.2.425
[71]	Rissanen，J.（1984）。通用编码、信息、预测和估计电气和电子工程师学会。信息理论汇刊，30（4）：629–636·Zbl 0574.62003号
[72]	Robert，C.P.和Casella，G.（2004年）。蒙特卡罗统计方法。统计中的斯普林格文本。Springer-Verlag，纽约，第二版。
[73]	Rosenblatt，M.（1956年）。关于密度函数的一些非参数估计的注记。《数理统计年鉴》，27:832-837·Zbl 0073.14602号 ·doi:10.1214/aoms/1177728190
[74]	Schwarz，G.（1978年）。估算模型的维度。统计年鉴，6（2）：461-464·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[75]	Shao，J.（1997）。线性模型选择的渐近理论（附讨论）。中国统计，7（2）：221–264·Zbl 1003.62527号
[76]	Smith，M.和Kohn，R.（2002年）。纵向数据的简约协方差矩阵估计。美国统计协会杂志，97（460）：1141-1153·兹比尔1041.62044 ·doi:10.1198/016214502388618942
[77]	Stone，C.J.、Hansen，M.H.、Kooperberg，C.和Truong，Y.K.（1997）。扩展线性建模中的多项式样条及其张量积（含讨论）。统计年鉴，25（4）：1371–1470·Zbl 0924.62036号 ·doi:10.1214操作系统/1031594728
[78]	Stone，M.（1974年）。统计预测的交叉验证选择和评估（讨论）。英国皇家统计学会杂志。B辑，36:111-147·Zbl 0308.62063号
[79]	Tibshirani，R.（1996）。通过套索回归收缩和选择。英国皇家统计学会杂志。B系列，58（1）：267–288·Zbl 0850.62538号
[80]	Tikhonov，A.N.（1943年）。关于反问题的稳定性。C.R.（Doklady）学院。科学。URSS（N.S.），39:176–179·Zbl 0061.23308号
[81]	Tsybakov，A.B.（2004）。统计学习中分类器的最优聚合。统计年鉴，32（1）：135–166·Zbl 1105.62353号 ·doi:10.1214/aos/1079120131
[82]	Vapnik，V.N.（1998）。统计学习理论信号处理、通信和控制的自适应和学习系统。John Wiley&Sons，纽约。Wiley国际科学出版物。
[83]	Wachter，K.W.（1978年）。独立元素样本矩阵的随机矩阵谱的强极限。概率年鉴，6（1）：1–18·Zbl 0374.60039号 ·doi:10.1214/aop/1176995607
[84]	王毅（2004）。型号选择。《计算统计手册》，第437-466页。斯普林格·弗拉格。柏林。
[85]	Watson，G.S.（1964年）。平滑回归分析。桑基拉。系列A，26:359-372·Zbl 0137.13002号
[86]	Wigner，E.P.（1955年）。无穷维有界矩阵的特征向量。数学年鉴。第二系列，62:548–564·Zbl 0067.08403号 ·doi:10.2307/1970079
[87]	Wu，W.B.和Pourahmadi，M.（2003年）。纵向数据大协方差矩阵的非参数估计。《生物特征》，90（4）：831-844·Zbl 1436.62347号 ·doi:10.1093/biomet/90.4.831
[88]	Zhang，H.H.、Wahba，G.、Lin，Y.、Voelker，M.、Ferris，M.、Klein，R.和Klein，B.（2004年）。通过似然基追踪进行变量选择和建模。美国统计协会杂志，99（467）：659–672·Zbl 1117.62459号 ·doi:10.1198/016214500000593
[89]	Zhang，T.和Yu，B.（2005）。提前停止推进：收敛性和一致性。统计年鉴，33（4）：1538–1579·Zbl 1078.62038号 ·doi:10.1214/009053605000000255
[90]	Zou，H.和Hastie，T.J.（2005）。通过弹性网进行规则化和变量选择。英国皇家统计学会杂志。B系列，67（2）：301–320·兹比尔1069.62054 ·数字对象标识代码：10.1111/j.1467-9868.2005.0050.x

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

统计规范化。（英文） Zbl 1110.62051号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

统计规范化。 （英文） Zbl 1110.62051号

MSC公司：

关键词：

软件：

参考文献：

统计规范化。（英文） Zbl 1110.62051号