文件Zbl 1472.68165-zbMATH Open

通过探索内在稀疏性从随机草图数据中恢复高维模型。（英语） Zbl 1472.68165号

机器。学习。 109，第5期，899-938（2020）.

本文提出了解决大规模高维机器学习问题的随机约简方法，通过降低数据的维数或规模，可以大大加快建模过程。此外，作者从理论上证明，所开发的方法可以很好地恢复从原始数据建立的最优模型。这种模型恢复是通过使用最优解的内在稀疏性实现的，不依赖于任何严格的假设。实证结果也支持该方法和理论。

审核人：雷云文（香港）

MSC公司：

68T05型	人工智能中的学习和自适应系统
62H30型	分类和区分；聚类分析（统计方面）
62J02型	一般非线性回归
62J07型	岭回归；收缩估计器（拉索）

关键词：

分类；回归，回归；高维；稀疏；随机还原；JL转换

软件：

传奇；RCV1型；COFFIN公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Achlioptas，D.，《数据库友好随机投影：Johnson-Lindenstraus与二进制硬币》，《计算机与系统科学杂志》，66671-687（2003）·Zbl 1054.68040号 ·doi:10.1016/S0022-0000（03）00025-4
[2]	Ailon，N.和Chazelle，B.（2006年）。近似最近邻和快速Johnson-Lindenstraus变换。《美国计算机学会计算理论研讨会论文集》（第557-563页）·Zbl 1301.68232号
[3]	Ailon，N。；Chazelle，B.，《快速Johnson-Lindenstraus变换和近似最近邻》，SIAM计算杂志，39，1，302-322（2009）·Zbl 1185.68327号 ·数字对象标识代码：10.1137/060673096
[4]	巴尔坎，MF；Blum，A。；Vempala，S.，《作为特征的内核：关于内核、边界和低维映射》，机器学习，65，1，79-94（2006）·Zbl 1110.68431号 ·doi:10.1007/s10994-006-7550-1
[5]	Bartz，D.Hatrick，K.Hesse，C.W.Müller，K.R.&Lemm，S.（2011年）。方向方差调整：改进高维投资组合优化的协方差估计。arXiv:1109.3069
[6]	Ben-Hur，A。；昂，CS；Sonnenburg，S。；朔尔科普夫，B。；Rätsch，G.，计算生物学的支持向量机和内核，PLOS计算生物学，4，e1000173（2008）·doi:10.1371/journal.pcbi.1000173
[7]	比克尔，PJ；Ritov，Y。；Tsybakov，AB，《Lasso和Dantzig选择器的同步分析》，《统计年鉴》，37，4，1705-1732（2009）·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[8]	Blum，A.（2005）随机投影、边距、内核和特征选择。《2005年子空间、潜在结构和特征选择国际会议论文集》（第3940卷，第52-68页）。斯普林格。
[9]	Boutsidis，C。；Gittens，A.，通过子抽样随机Hadamard变换改进矩阵算法，SIAM矩阵分析与应用杂志，34，3，1301-1340（2013）·Zbl 1286.65054号 ·doi:10.1137/120874540
[10]	Boutsidis，C.、Mahoney，M.W.和Drineas，P.（2009年）。列子集选择问题的一种改进近似算法。第二十届ACM-SIAM离散算法年度研讨会论文集（第968-977页）·Zbl 1420.68235号
[11]	博伊德，S。；Vandenberghe，L.，凸优化（2004），剑桥：剑桥大学出版社，剑桥·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[12]	Brank，J.、Grobelnik，M.、Milić-Frayling，N.和Mladenić，D.（2002）。使用支持向量机进行特征选择。《工程、金融和其他领域数据挖掘方法和数据库国际会议论文集》（第84-89页）。
[13]	坎迪斯，E。；Tao，T.，《Dantzig选择器：当（p）远大于（n）时的统计估计》，《统计年鉴》，35，6，2313-2351（2007）·Zbl 1139.62019号 ·doi:10.1214/00905360000001523
[14]	Dasgupta，A.、Kumar，R.和Sarlós，T.（2010年）。稀疏的Johnson-Lindenstraus变换。第42届ACM计算理论研讨会论文集，STOC’10（第341-350页）·Zbl 1293.68140号
[15]	达斯古普塔，S。；古普塔，A.，约翰逊和林登斯特劳斯定理的初等证明，随机结构与算法，22，1，60-65（2003）·Zbl 1018.51010号 ·doi:10.1002/rsa.10073
[16]	Defazio，A.、Bach，F.R.和Lacoste-Julien，S.（2014）。SAGA：一种支持非强凸复合目标的快速增量梯度方法。《神经信息处理系统进展》（NIPS）（第1646-1654页）。
[17]	Drineas，P.、Mahoney，M.W.和Muthukrishnan，S.（2006年）。二级回归抽样算法及其应用。在ACM-SIAM离散算法（SODA）研讨会上（第1127-1136页）·Zbl 1194.62010年
[18]	德里尼亚斯，P。；马奥尼，MW；Muthukrishnan，S.，相对误差cur矩阵分解，SIAM杂志矩阵分析应用，30844-881（2008）·Zbl 1183.68738号 ·doi:10.1137/07070471X
[19]	德里尼亚斯，P。；马奥尼，MW；Muthukrishnan，S。；Sarlós，T.，《快速最小二乘近似法》，数值数学，117，2，219-249（2011）·Zbl 1218.65037号 ·doi:10.1007/s00211-010-0331-6
[20]	Eldar，YC；Kutyniok，G.，《压缩传感：理论与应用》（2012），剑桥：剑桥大学出版社，剑桥·文件编号：10.1017/CBO9780511794308
[21]	Goldberger，J.、Roweis，S.、Hinton，G.和Salakhutdinov，R.（2005）。邻里成分分析。《神经信息处理系统进展》（NIPS）（第513-520页）。
[22]	盖恩，I。；韦斯顿，J。；巴恩希尔，S。；Vapnik，V.，使用支持向量机进行癌症分类的基因选择，机器学习（ML），46389-422（2002）·Zbl 0998.68111号 ·doi:10.1023/A:1012487302797
[23]	Halko，N。；马丁森，PG；Tropp，JA，寻找具有随机性的结构：构造近似矩阵分解的概率算法，SIAM Review，53，21217-288（2011）·Zbl 1269.65043号 ·数字对象标识代码：10.1137/090771806
[24]	贾，J。；Rohe，K.，《拉索符号一致性预处理》，《电子统计杂志》，9，1，1150-1172（2015）·Zbl 1321.62083号 ·doi:10.1214/15-EJS1029
[25]	Johnson，R.和Zhang，T.（2013）。使用预测方差减少加速随机梯度下降。《神经信息处理系统进展》（NIPS）（第315-323页）。
[26]	Johnson，W.和Lindenstrauss，J.（1984）。Lipschitz映射到Hilbert空间的扩张。《现代分析与概率会议》（康涅狄格州纽黑文，1982年）（第26卷，第189-206页）·Zbl 0539.46017号
[27]	Jostins，L。；Barrett，JC，复杂疾病的遗传风险预测，人类分子遗传学，20，R2，R182-R188（2011）·doi:10.1093/hmg/ddr378
[28]	卡卡德，SM；沙列夫·施瓦茨，S。；Tewari，A.，《强凸性与强光滑性的二重性：学习应用与矩阵正则化》（2009），丰田技术研究所：技术报告，丰田技术学院
[29]	Kane，D.M.和Nelson，J.（2014）。Sparser Johnson-Lindenstraus变换。美国医学会杂志，61，4:1-4:23·Zbl 1295.68134号
[30]	Kang，J。；Kugathasan，S。；乔治，M。；赵，H。；Cho，JH，用多基因座方法改进克罗恩病风险预测，人类分子遗传学，202435-2442（2011）·doi:10.1093/hmg/ddr116
[31]	Koltchinskii，V.，Oracle在经验风险最小化和稀疏恢复问题中的不平等（2011年），柏林：施普林格出版社，柏林·Zbl 1223.91002号 ·doi:10.1007/978-3-642-22147-7
[32]	Koltchinskii，V.（2011）。Oracle在经验风险最小化和稀疏恢复问题上的不平等：Ecole D’Etéde Probabilités de Saint-Flour XXXVIII-2008。圣弗洛尔概率学院：施普林格·Zbl 1223.91002号
[33]	刘易斯，DD；Yang，Y。；罗斯，TG；Li，F.，Rcv1:文本分类研究的新基准集合，《机器学习研究杂志》（Journal of Machine Learning research，JMLR），5361-397（2004）
[34]	Lin，Q.，Lu，Z.和Xiao，L.（2014）。一种加速的近端坐标梯度法。在NIPS中（第3059-3067页）。
[35]	Ma，P.、Mahoney，M.W.和Yu，B.（2014）。算法利用的统计观点。第31届国际机器学习会议（ICML）论文集（第91-99页）·Zbl 1337.62164号
[36]	Mahoney，MW，矩阵和数据的随机算法，机器学习的基础和趋势，3，2，123-224（2011）·Zbl 1232.68173号
[37]	马奥尼，MW；Drineas，P.，用于改进数据分析的Cur矩阵分解，《美国国家科学院院刊》，106，3，697-702（2009）·Zbl 1202.68480号 ·doi:10.1073/pnas.0803205106
[38]	Maillard，O.和Munos，R.（2009年）。压缩最小二乘回归。在NIPS中（第1213-1221页）。
[39]	Mitchell，TM；Hutchinson，R。；尼古列斯库，RS；佩雷拉，F。；王，X。；Just，M.，《学习从大脑图像解码认知状态》，机器学习，57，1-2，145-175（2004）·Zbl 1078.68715号 ·doi:10.1023/B:MACH.0000035475.85309.1b
[40]	Nelson，J.（2015）。约翰逊·林德斯特劳斯（Johnson-Lindenstraus）指出。麻省理工学院技术报告。
[41]	Nelson，J.和Nguyen，H.L.（2012年）。OSNAP：通过稀疏子空间嵌入实现更快的数值线性代数算法。CoRR.于2018年检索。arXiv:abs/1211.1002。
[42]	保罗·D。；Bair，E。；哈斯蒂，T。；Tibshirani，R.，高维问题中特征选择和回归的预处理，《统计年鉴》，361595-1618（2008）·Zbl 1142.62022号 ·doi:10.1214/009053600000000578
[43]	Paul，S.、Boutsidis，C.、Magdon-Ismail，M.和Drineas，P.（2013）。支持向量机的随机投影。AISTATS（第498-506页）。
[44]	Pilanci，M。；MJ Wainwright，带严格保证凸规划的随机草图，IEEE信息理论汇刊，61，9，5096-5115（2015）·Zbl 1359.90097号 ·doi:10.1109/TIT.2015.2450722
[45]	Pilanci，M。；温赖特，MJ，迭代hessian草图：约束最小二乘的快速精确解近似，机器学习研究杂志，17，1842-1879（2016）·Zbl 1360.62400号
[46]	Plan，Y.和Vershynin，R.（2011）。线性规划的一位压缩传感。CoRR.于2018年检索。arXiv:abs/1109.4299·Zbl 1335.94018号
[47]	Rätsch，G。；Sonnenburg，S。；Schölkopf，B.，RASE:秀丽隐杆线虫中选择性剪接外显子的识别，生物信息学，21，i69-i377（2005）·doi:10.1093/bioinformatics/bti1053
[48]	Ratsch，G.、Sonnenburg，S.和Scholkopf，B.（2005年B）。Rase：秀丽线虫选择性剪接外显子的识别。《分子生物学智能系统国际会议论文集》（生物信息学增补）（第369-377页）。
[49]	桑切斯，J。；佩罗宁，F。；Mensink，T。；Verbeek，JJ，fisher矢量图像分类：理论与实践，国际计算机视觉杂志，105，3，222-245（2013）·Zbl 1286.68447号 ·数字对象标识码：10.1007/s11263-013-0636-x
[50]	Shalev-Shwartz，S.和Zhang，T.（2013a）。加速微支撑随机双坐标上升。《神经信息处理系统进展》（NIPS）（第378-385页）。
[51]	沙列夫·施瓦茨，S。；Zhang，T.，正则化损失最小化的随机双坐标提升方法，机器学习研究杂志（JMLR），14567-599（2013）·Zbl 1307.68073号
[52]	Shalev-Shwartz，S.和Zhang，T.（2014）。用于正则化损失最小化的加速近端随机双坐标上升。ICML（第64-72页）·Zbl 1342.90103号
[53]	施，Q。；彼得森，J。；Dror，G.公司。；Langford，J。；Smola，A。；Vishwanathan，S.，结构化数据的哈希核，机器学习研究杂志（JMLR），102615-2637（2009）·Zbl 1235.68188号
[54]	Shi，Q.、Petterson，J.、Dror，G.、Langford，J.，Smola，A.J.、Strehl，A.L.和Vishwanathan，V.（2009b）。散列内核。《人工智能和统计国际会议论文集》（AISTATS）（第496-503页）·Zbl 1235.68188号
[55]	Shi，Q.、Shen，C.、Hill，R.和van den Hengel，A.（2012）。随机投影后是否保留边距？在国际机器学习会议论文集（ICML）中。
[56]	Simianer，P.、Riezler，S.和Dyer，C.（2012）。分布式随机学习中SMT大规模判别训练的联合特征选择。计算语言学协会（ACL）年度会议记录（第11-21页）。
[57]	Sonnenburg，S.和Franc，V.（2010年）。Coffin：线性SVMS的计算框架。第27届机器学习国际会议（ICML-10）会议记录（第999-1006页）。
[58]	索南堡，S。；施韦克特，G。；Philips，P。；Behr，J。；Ratsch，G.，使用支持向量机准确预测剪接位点，BMC生物信息学，8，S7（2007）·doi:10.1186/1471-2105-8-S10-S7
[59]	Sridharan，K.、Shalev-Shwartz，S.和Srebro，N.（2008）。针对正规化目标的快速费率。《神经信息处理系统进展》（NIPS）（第1545-1552页）。
[60]	Tibshirani，R.，通过套索进行回归收缩和选择，英国皇家统计学会期刊（B辑），58267-288（1996）·Zbl 0850.62538号
[61]	Tropp，JA，子样本随机阿达玛变换的改进分析，自适应数据分析进展，3，1-2，115-126（2011）·Zbl 1232.15029号 ·doi:10.1142/S1793536911000787
[62]	MJ Wainwright，《高维和噪声环境下稀疏恢复的信息理论极限》，IEEE信息理论汇刊，55，12，5728-5741（2009）·Zbl 1367.94106号 ·doi:10.1109/TIT.2009.2032816
[63]	Weinberger，K.Q.、Dasgupta，A.、Langford，J.、Smola，A.J.和Attenberg，J.（2009年）。用于大规模多任务学习的特征哈希。《机器学习国际会议论文集》（第1113-1120页）。
[64]	萧，L。；Zhang，T.，稀疏最小二乘问题的近似粒度同伦方法，SIAM优化杂志，23，2，1062-1091（2013）·Zbl 1280.65057号 ·doi:10.1137/120869997
[65]	萧，L。；Zhang，T.，带逐步方差缩减的近似随机梯度法，SIAM优化杂志，24，4，2057-2075（2014）·Zbl 1321.65016号 ·数字对象标识代码：10.1137/140961791
[66]	Yang，T.（2013）。通信交易计算：分布式随机双坐标上升。《神经信息处理系统进展》（NIPS）（第629-637页）。
[67]	Yen，I.E.、Lin，T.、Lin、S.、Ravikumar，P.K.和Dhillon，I.S.（2014）。稀疏随机特征算法作为希尔伯特空间中的坐标下降。NIPS（第2456-2464页）。
[68]	Zhang，L.、Mahdavi，M.、Jin，R.、Yang，T.和Zhu，S.（2013）。利用双重随机投影恢复最优解。学习理论会议论文集（COLT）（第135-157页）。
[69]	张，L。；马赫达维，M。；金·R。；Yang，T。；Zhu，S.，《分类的随机投影：一种恢复方法》，IEEE信息理论汇刊（IEEE TIT），60，11，7300-7316（2014）·Zbl 1360.94105号 ·doi:10.1109/TIT.2014.2359204
[70]	赵，P。；Yu，B.，关于拉索模型选举一致性，JMLR，72541-2563（2006）·Zbl 1222.62008年
[71]	Zhou，S.、Lafferty，J.D.和Wasserman，L.A.（2007年）。压缩回归。在NIPS中（第1713-1720页）。
[72]	邹，H。；Hastie，T.，《通过弹性网进行正则化和变量选择》，《皇家统计学会杂志：B辑（统计方法）》，67，301-320（2003）·Zbl 1069.62054号 ·文件编号：10.1111/j.1467-9868.2005.005.x

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

通过探索内在稀疏性从随机草图数据中恢复高维模型。（英语） Zbl 1472.68165号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

通过探索内在稀疏性从随机草图数据中恢复高维模型。 （英语） Zbl 1472.68165号

MSC公司：

关键词：

软件：

参考文献：

通过探索内在稀疏性从随机草图数据中恢复高维模型。（英语） Zbl 1472.68165号