×

稀疏数据的稳定稀疏在线学习。 (英语) Zbl 1435.68276号

摘要:随机梯度下降(SGD)是大规模机器学习问题中常用的优化方法。J.朗福德等[同上10,777–801(2009年;Zbl 1235.68167号)]引入了一种稀疏在线学习方法,通过截断梯度来诱导稀疏性。然而,对于高维稀疏数据,由于特征稀疏性的异质性,该方法存在收敛速度慢和方差大的问题。为了缓解这个问题,我们引入了一种稳定的截断随机梯度下降算法。我们在权重向量上采用了一种软阈值方案,其中施加的收缩适应于每个特征中可用的信息量。通过与信息截断相结合的稳定性选择来进一步控制所得到的稀疏权重向量的可变性。为了更好地收敛,我们在截断率上采用了退火策略,从而在学习稀疏权重向量时在探索和利用之间取得平衡。数值实验表明,我们的算法与在预测精度方面,与原始截断梯度SGD相比,具有更好的稀疏性和稳定性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62J07型 岭回归;收缩估计器(拉索)
68T09号 数据分析和大数据的计算方面
68周27 在线算法;流式算法

软件:

阿达格拉德
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 阿米尔·贝克和马克·特布勒。凸优化的镜像下降和非线性投影次梯度方法。运营研究快报,31(3):167-1752003·Zbl 1046.90057号
[2] 莱昂博图。在线学习和随机近似。神经网络在线学习,17(9):1421998·兹伯利0968.68127
[3] 莱昂博图。具有随机梯度下降的大规模机器学习。2010年COMPSTAT会议记录,第177-186页。施普林格,2010年·Zbl 1436.68293号
[4] 奥利维尔·布斯克特和安德烈·埃利塞夫。稳定性和泛化。机器学习研究杂志,2:499-5262002·Zbl 1007.68083号
[5] 邓才和何晓飞。文本分类的流形自适应实验设计。知识与数据工程,IEEE汇刊,24(4):707-7192012。
[6] 鲍勃·卡彭特。正则多项式logistic回归的惰性稀疏随机梯度下降。Alias-i,Inc.,技术代表,第1-20页,2008年。
[7] 尼科洛·塞萨·比安奇(Nicolo Cesa Bianchi)、亚历克斯·康科尼(Alex Conconi)和克劳迪奥·金蒂莱(Claudio Gentile)。在线学习算法的泛化能力。信息理论,IEEE汇刊,50(9):2050-20572004。34 ·Zbl 1295.68182号
[8] 雅各布·科恩。标称刻度的一致系数。教育和心理测量,20(1):37-461960。
[9] 约翰·杜奇和约拉姆·辛格。使用正向-反向分裂实现高效的在线和批量学习。机器学习研究杂志,10:2899-29342009·Zbl 1235.62151号
[10] John Duchi、Elad Hazan和Yoram Singer。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12:2121-21592011·Zbl 1280.68164号
[11] John C Duchi、Shai Shalev-Shwartz、Yoram Singer和Ambuj Tewari。复合物镜下降。在COLT中,第14-26页。Citeser,2010年。
[12] 伊莎贝尔·盖恩、史蒂夫·冈恩、阿萨·本·胡尔和吉迪恩·德罗。nips 2003特征选择挑战的结果分析。《神经信息处理系统进展》,第545-552页,2004年。
[13] 莫里茨·哈德(Moritz Hardt)、本杰明·雷希特(Benjamin Recht)和约拉姆·辛格(Yoram Singer)。训练更快,概括更好:随机梯度下降的稳定性。arXiv预印arXiv:1509.012402015。
[14] Samuel Kutin和Partha Niyogi。几乎所有地方的算法稳定性和泛化误差。《第十八届人工智能不确定性会议记录》,第275-282页。摩根·考夫曼出版社,2002年。
[15] 约翰·朗福德(John Langford)、李丽红(Lihong Li)和张彤(Tong Zhang)。通过截断梯度稀疏在线学习。《神经信息处理系统进展》,第905-9122009页·Zbl 1235.68167号
[16] 皮尔雷·卢伊斯狮子队和伯特兰·梅西耶。两个非线性算子之和的分裂算法。SIAM数值分析杂志,16(6):964-9791979·Zbl 0426.6500号
[17] 尼古拉·梅恩豪森和彼得·博尔曼。稳定性选择。英国皇家统计学会期刊:B系列(统计方法),72(4):417-4732010·Zbl 1411.62142号
[18] Andrew P Morris和Eleftheria Zeggini。遗传关联研究中罕见变异分析的统计方法评估。遗传流行病学,34(2):188-1932010。
[19] 尤里·内斯特罗夫。凸问题的原对偶次梯度方法。数学规划,120(1):221-2592009·Zbl 1191.90038号
[20] Hidekazu Oiwa、Shin Matsushima和Hiroshi Nakagawa。稀疏在线学习的频率软件截断方法。《数据库中的机器学习和知识发现》,第533-548页。施普林格,2011年·Zbl 1343.68202号
[21] Hidekazu Oiwa、Satoru Matsushima和Hirotoshi Nakagawa。修复截断偏差:双重平均的自加权截断框架。2012年IEEE第十二届数据挖掘国际会议(ICDM),第575-584页。IEEE,2012年。
[22] 亚历山大·拉赫林(Alexander Rakhlin)、赛扬·穆克吉(Sayan Mukherjee)和托马索·波乔(Tomaso Poggio)。稳定性产生学习理论。分析与应用,3(04):397-4172005·Zbl 1101.68621号
[23] Shai Shalev-Shwartz和Ambuj Tewari。用于最小化l1-正则损失的随机方法。机器学习研究杂志,12:1865-18922011。35 ·Zbl 1280.62081号
[24] Shai Shalev-Shwartz、Ohad Shamir、Nathan Srebro和Karthik Sridharan。可学习性、稳定性和一致收敛性。机器学习研究杂志,11:2635-26702010·Zbl 1242.68247号
[25] 孙伟、王俊辉和方一新。通过变量选择稳定性一致选择调谐参数。机器学习研究杂志,14(1):3419-34402013·Zbl 1318.62241号
[26] 罗伯特·提比拉尼(Robert Tibshirani)。通过套索回归收缩和选择。英国皇家统计学会杂志。B系列(方法学),第267-288页,1996年·兹比尔0850.62538
[27] Panos Toulis、Dustin Tran和Edoardo M Airoldi。随机梯度下降的稳定性和最优性。arXiv预印arXiv:1505.024172015·Zbl 1332.62291号
[28] 王大勇、吴鹏程、赵佩林和史蒂文·张海。稀疏在线学习的框架及其应用。arXiv预印arXiv:1507.071462015。
[29] 王佳磊、赵培林、史蒂文·张海和金荣。在线特征选择及其应用。知识与数据工程,IEEE汇刊,26(3):698-7102014。
[30] 吴越、陈海、Tao Mei和余能海。超高维稀疏数据的大规模在线特征选择。arXiv预印arXiv:1409.77942014。
[31] 林晓。正则化随机学习和在线优化的对偶平均方法。《神经信息处理系统进展》,第2116-2124页,2009年。
[32] 张彤。使用随机梯度下降算法解决大规模线性预测问题。《第二十届第一届机器学习国际会议论文集》,第116页。ACM,2004年。
[33] 马丁·津科维奇(Martin Zinkevich)、马库斯·魏默(Markus Weimer)、李丽红(Lihong Li)和亚历克斯·J·斯莫拉(Alex J Smola)。并行随机梯度下降。《神经信息处理系统进展》,第2595-2603页,2010年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。