×

由结构信息指导的特征选择。 (英语) 兹比尔1194.62092

摘要:在具有大量特征的广义线性回归问题中,对回归系数施加(ell^{1})约束的拉索型正则化已成为一种广泛建立的技术。在某些情况下,套索的缺陷,尤其是高度相关的设计,在H.邹T.哈斯蒂[J.R.Stat.Soc.,Ser.B 67,No.2,301–320(2005;Zbl 1069.62054号)]介绍了弹性网。我们建议通过接受一般非负二次约束作为正则化的第二种形式来扩展弹性网。广义脊型约束通常会利用已知的特征关联结构,例如,通过使用时间或空间贴近度。
我们研究了所得“结构化弹性网”回归估计过程的性质,包括基本渐近性和模型选择一致性问题。在这种情况下,我们为套索的所谓“不可再现条件”提供了一个类比。此外,我们概述了广义线性模型族中结构弹性网的算法解。我们的方法的基本原理和性能通过模拟和现实数据进行了说明,重点是信号回归。

MSC公司:

62J12型 广义线性模型(逻辑模型)
62甲12 多元分析中的估计
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Belkin,M.、Niyogi,P.和Sindwhani,V.(2006年)。流形正则化:从标记和未标记示例学习的几何框架。J.马赫。学习。第7号决议2399-2434·Zbl 1222.68144号
[2] Besag,J.(1974年)。空间相互作用和晶格系统的统计分析(与讨论)。J.罗伊。统计师。Soc.序列号。B 36 192-236·Zbl 0327.60067号
[3] Chung,F.(1997)。谱图论。AMS出版物·兹伯利0867.05046
[4] Daumer,M.、Thaler,K.、Kruis,E.、Feneberg,W.、Staude,G.和Scholz,M.(2007年)。走向一种小型化、健壮和自动测量设备,用于长期监测患者活动:ActiBelt。生物识别。技术52 149-155。
[5] Donoho,D.、Elad,M.和Temlyakov,V.(2006)。噪声存在下稀疏超完备表示的稳定恢复。IEEE传输。通知。理论52 6-18·Zbl 1288.94017号 ·doi:10.1109/TIT.2005.860430
[6] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归(讨论)。安。统计师。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/09053604000000067
[7] Eilers,P.和Marx,B.(1996年)。使用B样条曲线和惩罚进行灵活平滑(带讨论)。统计师。科学。11 89-121. ·Zbl 0955.62562号 ·doi:10.1214/s/1038425655
[8] Eilers,P.和Marx,B.(1999年)。采样信号和曲线的广义线性回归:P样条方法。技术计量41 1-13。
[9] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96 1348-1360·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[10] Frank,I.和Friedman,J.(1993年)。一些化学计量学回归工具的统计视图(含讨论)。技术计量35 109-148·Zbl 0775.62288号 ·doi:10.2307/1269656
[11] Friedman,J.、Hastie,T.、Hoefling,H.和Tibshirani,R.(2007)。路径坐标优化。附录申请。统计师。2 302-332. ·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[12] Genkin,A.、Lewis,D.和Madigan,D.(2007年)。文本分类的大尺度贝叶斯逻辑回归。技术计量学49 589-616·doi:10.19198/004017007000000245
[13] Goeman,J.(2007)。一种有效的1惩罚估计算法。技术报告,莱顿大学医学统计和生物信息学系。
[14] Hastie,T.、Buja,A.和Tibshirani,R.(1995)。惩罚判别分析。Ann.Statist公司。23 73-102. ·Zbl 0821.62031号 ·doi:10.1214/aos/1176324456
[15] Hoerl,A.和Kennard,R.(1970年)。岭回归:非正交问题的有偏估计。技术计量学8 27-51·Zbl 0202.17205号
[16] K.奈特和W.傅(2000)。套索型估计量的渐近性。安。统计师。28 1356-1378. ·Zbl 1105.62357号 ·doi:10.1214/aos/1015957397
[17] Le Cun,Y.、Boser,B.、Denker,J.、Henderson,D.、Howard,R.、Hubbard,W.和Jackel,L.(1989)。反向传播应用于手写邮政编码识别。神经计算。2 541-551.
[18] McCullagh,P.和Nelder,J.(1989)。广义线性模型。查普曼和霍尔,伦敦·Zbl 0744.62098号
[19] Park,T.和Casella,G.(2008)。贝叶斯套索。J.Amer。统计师。协会103 681-686·Zbl 1330.62292号 ·doi:10.1198/016214500000037
[20] Rosenberg,S.(1997)。黎曼流形上的拉普拉斯算子。剑桥大学出版社,剑桥·Zbl 0868.58074号
[21] Rosset,S.、Zhu,J.和Hastie,T.(2004)。作为一条正则化路径,提升到最大边缘分类器。J.马赫。学习。第5 941-973号决议·Zbl 1222.68290号
[22] Rue,H.和Held,L.(2001)。高斯马尔可夫随机场。查普曼和霍尔/CRC,博卡拉顿。
[23] Slawski,M.、zu Castell,W.和Tutz,G.(2009年)。由结构信息指导的特征选择。慕尼黑大学统计系技术报告。可从获取·Zbl 1194.62092号
[24] Slawski,M.、zu Castell,W.和Tutz,G.(2010年)。对“以结构信息为指导的特征选择”的补充。DOI:·Zbl 1194.62092号
[25] Tibshirani,R.(1996)。通过套索进行回归收缩和变量选择。J.罗伊。统计师。Soc.序列号。乙58 671-686·Zbl 0850.62538号
[26] Tibshirani,R.、Saunders,M.、Rosset,S.、Zhu,J.和K.奈特(2005)。通过融合套索实现轻盈流畅。J.罗伊。统计师。Soc.序列号。乙67 91-108·Zbl 1060.62049号 ·文件编号:10.1111/j.1467-9868.2005.00490.x
[27] Tutz,G.和Gerthiss,J.(2010年)。信号回归中的特征提取:一种用于函数数据回归的增强技术。J.计算机。图表。统计师。19 154-174. ·doi:10.1198/jcgs.2009.07176
[28] Zhao,P.和Yu,B.(2006)。套索模型选择的一致性。J.马赫。学习。第7号决议2541-2567·Zbl 1222.62008年
[29] 邹华(2006)。自适应套索及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[30] Zou,H.和Hastie,T.(2005)。通过弹性网络进行正则化和变量选择。J.罗伊。统计师。Soc.序列号。乙67 301-320·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。