×

二元性:对线性监督学习中的一个热点编码特征的惩罚。 (英文) 兹比尔1434.68389

摘要:本文研究了在具有大量连续特征的环境中大规模线性监督学习的问题。我们建议将连续特征的单热编码这一众所周知的技巧与一种称为二进制的新惩罚相结合。在来自单个原始连续特征的单热编码的每组二进制特征中,这种惩罚使用了全变分正则化和额外的线性约束。这在一个热点编码特征的模型权重上引入了两个有趣的属性:它们是分段常量,最终是块稀疏的。提出了广义线性模型的非渐近预言不等式。此外,在稀疏可加模型假设下,我们证明了我们的程序与此设置中的最新技术相匹配。数值实验证明了该方法在多个数据集上的良好性能。值得注意的是,我们的方法具有与标准惩罚相当的数值复杂性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
2012年12月62日 参数估计量的渐近性质
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] A.阿格雷斯蒂。线性和广义线性模型基础。John Wiley&Sons,2015年·Zbl 1309.62001号
[2] M.Z.Alaya、S.Gaóun ffas和A.Guilloux。学习具有变化点的时间事件的强度。信息理论,IEEE汇刊,61(9):5148-51712015·Zbl 1359.94028号
[3] F.巴赫。逻辑回归的自协调分析。电子。J.统计。,4:384-414, 2010. ·Zbl 1329.62324号
[4] F.Bach、R.Jenatton、J.Mairal和G.Obozinski。具有稀疏诱导惩罚的优化。机器学习基础与趋势,4(1):1-1062012·Zbl 06064248号
[5] E.Bacry、M Bompaire、P.Deegan、S.Gaéffas和S.V.Poulsen。tick:一个用于统计学习的python库,重点是hawkes过程和与时间相关的模型。机器学习研究杂志,18(214):1-52018。统一资源定位地址http://jmlr.org/papers/v18/17-381。html格式·兹比尔1473.62012
[6] P.Baldi、P.Sadowski和D.Whiteson。通过深入学习在高能物理中寻找奇异粒子。《自然通讯》,2014年5月。
[7] P.Baldi、K.Cranmer、T.Faucett、P.Sadowski和D.Whiteson。高能物理参数化神经网络。《欧洲物理杂志》C,76(5):1-72016年4月。
[8] H.H.Bauschke和P.L.Combettes。Hilbert空间中的凸分析和单调算子理论。CMS数学书籍/Ouvrages de Math’matiques de la SMC。施普林格,纽约,2011年·Zbl 1218.47001号
[9] P.J.Bickel、Y.Ritov和A.B.Tsybakov。Lasso和Dantzig选择器的同时分析。安.统计师。,37(4):1705-1732, 2009. ISSN 0090-5364·Zbl 1173.62022号
[10] J.A.Blackard和D.J.Dean。从制图变量预测森林覆盖类型的人工神经网络和判别分析的比较精度。农业中的计算机和电子,24(3):131-1511999。
[11] S.Boyd和L.Vandenberghe。凸优化。剑桥大学出版社,剑桥,2004年。国际标准图书编号0-521-83378-7·Zbl 1058.90049号
[12] L.布雷曼。随机森林。机器。学习。,45(1):5-32, 2001. ·Zbl 1007.68152号
[13] L.Breiman、J.Friedman、R.Olshen和C.Stone。分类和回归树。沃兹沃思和布鲁克斯,加利福尼亚州蒙特雷,1984年·Zbl 0541.62042号
[14] P.B–uhlmann和S.van De Geer。高维数据统计。统计学中的斯普林格系列。施普林格,海德堡,2011年·Zbl 1273.62015年
[15] F.Bunea、A.Tsybakov和M.Wegkamp。拉索的稀疏预言不等式。电子。J.统计。,1:169-194, 2007. ·Zbl 1146.62028号
[16] E.J.Cand’es和M.B.Wakin。压缩采样简介。《信号处理杂志》,IEEE,25(2):21-30,2008年。
[17] E.J.Cand’es、M.B.Wakin和S.P.Boyd。通过重新加权“最小化”来增强稀疏性。傅里叶分析与应用杂志,14(5):877-9052008·Zbl 1176.94014号
[18] B.Chlebus和S.H.Nguyen。寻找两个属性的最优离散化。Lech Polkowski和Andrzej Skowron主编,《计算中的粗糙集和当前趋势》,计算机科学讲义第1424卷,第537-544页。施普林格-柏林-海德堡,1998年。
[19] L.康达特。一种直接的一维全变分去噪算法。IEEE信号处理信函,20(11):1054-10572013。
[20] A.S.Dalalyan、M.Hebiri和J.Lederer。关于拉索的预测性能。伯努利,23(1):552-5812017·Zbl 1359.62295号
[21] D.L.Donoho和M.Elad。通过“最小化”在通用(非正交)字典中实现最佳稀疏表示。InPROC公司。NATL ACAD公司。SCI公司。美国100 2197202002。
[22] D.L.Donoho和X.Huo。测不准原理和理想原子分解。信息理论,IEEE汇刊,47(7):2845-28622001·Zbl 1019.94503号
[23] J.Friedman、T.Hastie、H.H¨ofling和R.Tibshirani。路径坐标优化。附录申请。统计,1(2):302-3322007·Zbl 1378.90064号
[24] J.H.弗里德曼。随机梯度增强。计算统计与数据分析,38(4):367-3782002·Zbl 1072.65502号
[25] S.Garcia、J.Luengo、J.A.Saez、V.Lopez和F.Herrera。离散化技术综述:监督学习中的分类和实证分析。IEEE知识与数据工程汇刊,25(4):734-750,2013年。
[26] P.J.Green和B.W.Silverman。非参数回归和广义线性模型:粗糙度惩罚方法。查普曼和霍尔,伦敦,1994年·Zbl 0832.62032号
[27] T.Hastie和R.Tibshirani。广义加性模型。威利在线图书馆,1990年·Zbl 0747.62061号
[28] T.Hastie、R.Tibshirani和J.Friedman。统计学习的要素。统计学中的斯普林格系列。Springer-Verlag,纽约,2001年·Zbl 0973.62007号
[29] J.Horowitz、J.Klemel¨a和E.Mammen。加性回归模型中的最优估计。伯努利,12(2):271-2982006·Zbl 1098.62043号
[30] S.Ivanoff、F.Picard和V.Rivoirard。函数泊松回归的自适应套索和群套索。机器学习研究杂志,17(1):1903-19482016·Zbl 1360.62398号
[31] K.Knight和W.Fu。Lasso型估计量的渐近性。安.统计师。,28(5):1356-1378, 2000. ·Zbl 1105.62357号
[32] R.Kohavi公司。扩大天真贝叶斯分类器的准确性:决策树混合。InKDD,第96卷,第202-207页,1996年。
[33] E.L.Lehmann和G.Casella。点估计理论。统计中的斯普林格文本。施普林格,纽约,1998年·Zbl 0916.62017号
[34] M.利奇曼。UCI机器学习库,2013年。
[35] H.Liu、F.Hussain、C.L.Tan和M.Dash。离散化:一种使能技术。数据最小知识。迪斯科。,6(4):393-423, 2002.
[36] G.Lugosi和N.Vayatis。正则化boosting方法的Bayes-risk一致性。《统计年鉴》,第30-55页,2004年·Zbl 1105.62319号
[37] L.Meier、S.van De Geer和P.B–uhlmann。该组套索用于逻辑回归。英国皇家统计学会杂志:B辑(统计方法),70(1):53-712008·Zbl 1400.62276号
[38] L.Meier、S.Van de Geer和P.B–uhlmann。高维加性建模。《统计年鉴》,37(6B):3779-38212009年·Zbl 1360.62186号
[39] S.Moro、P.Cortez和P.Rita。预测银行电话营销成功的数据驱动方法。决策支持系统,62:22-312014。
[40] F.Pedregosa、G.Varoqueaux、A.Gramfort、V.Michel、B.Thirion、O.Grisel、M.Blondel、P.Prettenhofer、R.Weiss、V.Dubourg、J.Vanderplas、A.Passos、D.Cournapeau、M.Brucher、M.Perrot和E.Duchesnay。Scikit-learn:Python中的机器学习。机器学习研究杂志,12:2825-28302011·Zbl 1280.68189号
[41] J.R.昆兰。C4.5:机器学习程序(Morgan Kaufmann系列机器学习)。摩根·考夫曼,第1版,1993年。
[42] F.Rapaport、E.Barillot和J.P.垂直。基于融合SVM的阵列数据分类。生物信息学,24(13):i375-i382008。
[43] P.Ravikumar、J.Lafferty、H.Liu和L.Wasserman。稀疏加法模型。英国皇家统计学会杂志:B辑(统计方法),71(5):1009-10302009·Zbl 1411.62107号
[44] P.里格利特。Kullback-Leibler聚合和指定错误的广义线性模型。安.统计师。,40(2):639-665, 2012. ·Zbl 1274.62298号
[45] M.A.Russell博士。挖掘社交网络:数据挖掘Facebook、Twitter、LinkedIn、Google+、GitHub等。O'Reilly Media,2013年。
[46] B.Sch¨olkopf和A.J.Smola。使用内核学习:支持向量机、正则化、优化及其他。麻省理工学院出版社,2002年。
[47] V.G.Sigillito、S.P.Wing、L.V.Hutton和K.B.Baker。使用神经网络对电离层雷达回波进行分类。约翰斯·霍普金斯大学APL技术文摘,10(3):262-2661989。
[48] R.Tibshirani。通过拉索回归收缩和选择。J.罗伊。统计师。Soc.序列号。B、 58(1):267-2881996年a·Zbl 0850.62538号
[49] R.Tibshirani。通过套索回归收缩和选择。英国皇家统计学会杂志。B系列(方法学),第267-288页,1996b·Zbl 0850.62538号
[50] R.Tibshirani、M.Saunders、S.Rosset、J.Zhu和K.Knight。通过融合套索实现稀疏平滑。J.R.统计社会服务。B统计方法。,67(1):91-108, 2005. ·Zbl 1060.62049号
[51] S.van de Geer。高维广义线性模型和Lasso。安.统计师。,36(2): 614-645, 2008. ·Zbl 1138.62323号
[52] S.van de Geer和J.Lederer。拉索,相关设计和改进的预言不等式,第9卷,第303-316页。数理统计研究所,2013年·Zbl 1327.62426号
[53] J.Wu和S.Coggeshall。预测分析基础(查普曼和霍尔/CRC数据挖掘和知识发现系列)。查普曼和霍尔/CRC,第1版,2012年·Zbl 1306.62023号
[54] I.C.Yeh和C.H.Lien。数据挖掘技术对信用卡客户违约概率预测准确性的比较。应用专家系统,36(2):2473-24802009。
[55] Y.L.Yu。关于分解近端地图。C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger,编辑,《神经信息处理系统进展》26,第91-99页。2013
[56] 第页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。