×

稀疏特征交互的正则化因子分解机。 (英语) Zbl 07415096号

摘要:因子分解机(FM)是基于二阶特征交互的机器学习预测模型,具有稀疏正则化的FM称为稀疏FM。这样的正则化可以进行特征选择,从而选择最相关的特征进行准确预测,因此它们有助于提高模型的准确性和可解释性。然而,由于FM使用二阶特征交互,特征的选择通常会导致合成模型中许多相关特征交互的丢失。在这种情况下,可能会优先选择那些专门为特征交互选择而设计的正则化FM,以实现交互级稀疏性,而不是那些仅用于特征选择并试图实现特征级稀疏性的FM。本文提出了一种新的FM特征交互选择正则化方案。对于特征交互选择,我们提出的正则化器使特征交互矩阵稀疏,而不受现有方法的稀疏模式限制。我们还描述了所提出的FM的有效近似算法,以及如何将我们的思想应用或扩展到特征选择和其他相关模型,如高阶FM和全子集模型。对合成数据集和真实数据集的分析和实验结果表明了所提方法的有效性。

MSC公司:

68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Raj Agrawal、Brian Trippe、Jonathan Huggins和Tamara Broderick。核心交互技巧:快速贝叶斯发现高维的成对交互。InICML,第141-150页,2019年。
[2] 泽源艾伦-朱。卡秋莎:随机梯度法的第一次直接加速。机器学习研究杂志,18(1):8194-82442017。
[3] 泽源艾伦-朱。Natasha 2:比sgd更快的非凸优化。InNeurIPS,第2675-2686页,2018年。
[4] Kyohei Atarashi、Satoshi Oyama和Masahito Kurihara。使用对象之间的高阶特征组合进行链接预测。IEICE信息与系统交易,E103.D(8):1833-18422020。
[5] 弗朗西斯·巴赫、鲁道夫·杰纳顿、朱利安·迈拉尔和纪尧姆·奥博金斯基。具有稀疏诱导惩罚的优化。机器学习的基础和趋势,4(1):1-1062012·Zbl 06064248号
[6] 阿米尔·贝克和马克·特布尔。线性反问题的快速迭代收缩阈值算法。SIAM成像科学杂志,2(1):183-2022009·Zbl 1175.94009号
[7] 马修·布隆德尔(Mathieu Blondel)、藤野明彦(Akinori Fujino)、上田直男(Naonori Ueda)和石黑正男(Masakazu Ishihata)。高阶因子分解机。InNeurIPS,第3351-3359页,2016a。
[8] 马修·布隆德尔(Mathieu Blondel)、石海正男(Masakazu Ishihata)、藤野明彦(Akinori Fujino)和上田直男(Naonori Ueda)。多项式网络和因式分解机:新见解和有效的训练算法。InICML,第850-858页,2016b。
[9] 莱昂博图。随机梯度下降技巧。《神经网络:交易技巧》,第421-436页。施普林格,2012年。
[10] L´eon Bottou、Frank E Curtis和Jorge Nocedal。大规模机器学习的优化方法。SIAM评论,60(2):223-31112018·Zbl 1397.65085号
[11] 斯蒂芬·博伊德和利文·范登伯格。凸优化。剑桥大学出版社,2004年·Zbl 1058.90049号
[12] Stephen Boyd、Neal Parikh、Eric Chu、Borja Peleato、Jonathan Eckstein等。通过交替方向乘数法进行分布式优化和统计学习。机器学习的基础和趋势,3(1):1-1222011·Zbl 1229.90122号
[13] 张志忠和林志仁。LIBSVM:支持向量机库。ACM智能系统与技术汇刊,2(3):272011年。
[14] 陈晓双、尹正、王嘉兴、马文业和黄俊洲。Rafm:具有等级意识的因子分解机器。在国际机器学习会议上,第1132-1140页。PMLR,2019a。
[15] 陈一凡、任鹏杰、王洋和马丁·德瑞克。因子分解机的贝叶斯个性化特征交互选择。InSIGIR,第665-6742019b页。
[16] Chen Cheng、Fen Xia、Tong Zhang、Irwin King和Michael R Lyu。梯度增强因子分解机。InRecSys,第265-272页,2014年。
[17] 约翰·杜奇(John Duchi)、谢·沙列夫·施瓦茨(Shai Shalev-Shwartz)、约拉姆·辛格(Yoram Singer)和图沙尔·钱德拉(Tushar Chandra)。高效投射到l1-球上,用于高维学习。InICML,第272-279页,2008年。
[18] 约翰·杜奇(John Duchi)、伊拉德·哈赞(Elad Hazan)和约拉姆·辛格(Yoram Singer)。在线学习和随机优化的自适应次梯度方法。《机器学习研究杂志》,12期(7月):2121-21592011·兹比尔1280.68164
[19] Jerome Friedman、Trevor Hastie和Robert Tibshirani。关于组套索和稀疏组套索的注释。arXiv预印arXiv:1001.07362010。
[20] 蓬特斯·吉塞尔森(Pontus Giselsson)和斯蒂芬·博伊德(Stephen Boyd)。快速梯度法中的单调性和重启。第53届IEEE决策与控制会议,第5058-5063页。IEEE,2014年。
[21] 顾斌(Bin Gu)、王德(De Wang)、霍周元(Zhouyuan Huo)和黄恒(Heng Huang)。非凸和非光滑优化的非精确近似梯度方法。InAAAI,2018年。
[22] 本杰明·德哈夫勒(Benjamin D Haeffele)和雷恩·维达尔(Ren´e Vidal)。结构化低秩矩阵分解:全局优化、算法和应用。IEEE模式分析和机器智能汇刊,42(6):1468-14822019年。
[23] F Maxwell Harper和Joseph A Konstan。movielens数据集:历史和背景。ACM交互智能系统交易,5(4):2016。
[24] Trevor Hastie、Robert Tibshirani和Jerome Friedman。统计学习的要素:数据挖掘、推理和预测。施普林格,2009年·Zbl 1273.62005年
[25] 洪福星(Fuxing Hong)、黄东波(Dongbo Huang)和葛晨(Ge Chen)。推荐系统的交互软件分解机。InAAAI,第3804-3811页,2019年。
[26] 柯国林、祁萌、托马斯·芬利、王泰峰、陈伟、马卫东、叶奇伟和刘铁燕。Lightgbm:一种高效的梯度增强决策树。InNeurIPS,第3146-31542017页。
[27] 李欢和林周晨。非凸规划的加速近似梯度法。InNeurIPS,第379-387页,2015年。
[28] 小李、朱志辉、安东尼·曼乔·索和雷内·维达尔。非凸稳健低秩矩阵恢复。SIAM优化杂志,30(1):660-6862020·Zbl 07175265号
[29] 刘波(Bo Liu)、袁晓彤(Xiao Tong Yuan)、王乐子(Lezi Wang)、刘青山(Qingshan Liu)和Dimitris N Metaxas。双重迭代硬阈值:从非凸稀疏最小化到非光滑凹最大化。在ICML中,第2179-2187页,2017年。
[30] 刘铁雁。学习信息检索排名。施普林格,2011年·Zbl 1227.68002号
[31] St´ephane G Mallat和Zhifeng Zhang。将追求与时频词典相匹配。IEEE信号处理汇刊,41(12):3397-34151993·Zbl 0842.94004号
[32] 安德烈·菲利佩·托雷斯·马丁斯、诺亚·史密斯、埃里克·星、佩德罗·阿奎尔和马里奥·菲格雷多。多核结构预测因子的在线学习。InICML,第507-5152011页。
[33] Marine Le Morvan和Jean-Philippe垂直。WHInter:高维稀疏二阶交互模型的工作集算法。InICML,第3635-3644页,2018年。
[34] 尤里·内斯特罗夫。一种求解收敛速度为o(1/kˆ2)的无约束凸极小化问题的方法。1983年,《苏联多克拉迪》第269卷第543-547页。
[35] Yurii Nesterov等人,《凸优化讲座》,第137卷。施普林格,2018年·Zbl 1427.90003号
[36] Atsushi Nitanda。使用加速技术的随机近端梯度下降。在NeurIPS,第1574-1582页,2014年。
[37] Zhen Pan、Enhong Chen、Qi Liu、Tong Xu、Haiping Ma和Hongjie Lin。点击率预测的稀疏因子分解机。InICDM,第400-409页,2016年。
[38] Neal Parikh和Stephen Boyd。近似算法。优化的基础和趋势,1(3):127-2392014。
[39] 斯特芬·伦德尔。保理机。《国际药品管理条例》,第995-10000页,2010年。
[40] 斯特芬·伦德尔。带有libFM的分解机。ACM智能系统与技术汇刊,3(3):572012年。
[41] 斯特芬·伦德尔(Steffen Rendle)、泽诺·甘特纳(Zeno Gantner)、克里斯托夫·弗洛伊登塔勒(Christoph Freudenthaler)和拉尔斯·施密特·蒂姆(Lars Schmidt-Thieme)。使用因式分解机器的快速上下文感知建议。InSIGIR,第635-644页,2011年。
[42] 埃米尔·理查德(Emile Richard)、皮埃尔·安德尔·萨瓦莱(Pierre-Andre’e Savalle)和尼古拉斯·瓦亚蒂斯(Nicolas Vayatis)。同时估计稀疏矩阵和低秩矩阵。InICML,第51-58页,2012年。
[43] 马克·施密特(Mark Schmidt)、尼古拉斯·勒鲁(Nicolas Le Roux)和弗朗西斯·巴赫(Francis Bach)。凸优化非精确近似粒度方法的收敛速度。InNeurIPS,第1458-14662011页。
[44] 约翰·肖·泰勒和尼洛·克里斯蒂亚尼尼。模式分析的核心方法。剑桥大学出版社,2004年·Zbl 0994.68074号
[45] 宋卫平、石晨策、肖志平、段志坚、徐叶文、张明和唐健。自动识别:通过自关注神经网络进行的自动特征交互学习。InCIKM,第1161-1170页,2019年。
[46] 铃木信雅、中川和之、宇田惠、津田浩二和武内一郎。稀疏高阶交互模型的选择性推理。InICML,第3338-3347页,2017年。
[47] Robert Tibshirani。通过套索回归收缩和选择。英国皇家统计学会杂志:B辑(方法学),58(1):267-2881996·Zbl 0850.62538号
[48] 曾荫权和桑文云。非光滑可分离极小化问题的坐标梯度下降法。数学规划,117(1-2):387-4232009·Zbl 1166.90016号
[49] 肖军(Jun Xiao)、郝烨(Hao Ye)、何向南(Xiangan He)、张汉旺(Hanwang Zhang)、吴飞(Fei Wu)和蔡大胜(Tat-Seng Chua)。注意因子分解机:通过注意网络学习特征交互的权重。InIJCAI,第3119-3125页,2017年。
[50] 徐建鹏、林开祥、谭邦宁、周嘉玉。重要的协同效应:通过稀疏因子分解机进行有效的交互选择。InSDM,第108-116页,2016年。
[51] 薛念南(Niannan Xue)、刘斌(Bin Liu)、郭慧峰(Huifeng Guo)、汤瑞明(Ruiming Tang)、周凤伟(Fengwei Zhou)、斯特凡诺斯(Stefanos P Zafeiriou)、张玉洲(Yuzhou Zhang)、王军(Jun Wang)和李振国(Zhenguo Li)。自动散列:学习高阶特征交互作用以进行深度ctr预测。IEEE知识与数据工程汇刊,2020年。
[52] Shuo Yang、Yanyao Shen和Sujay Sanghavi。交互硬阈值:亚二次时间和空间中的一致稀疏二次回归。InNeurIPS,第7926-7936页,2019年。
[53] 姚全明、郭台铭、高飞、陈伟和刘铁燕。非凸问题的高效非精确近端梯度算法。InIJCAI,第3308-3314页,2017年。
[54] 袁明,林毅。分组变量回归中的模型选择和估计。英国皇家统计学会杂志:B辑(统计方法),68(1):49-672006·Zbl 1141.62030号
[55] 赵欢、姚全明、李建达、宋阳秋和李迪伦。异构信息网络上基于元粒度的推荐融合。InKDD,第635-644页,2017年。
[56] 周登勇(Dengyong Zhou)、苏米特·巴苏(Sumit Basu)、毛毅(Yi Mao)和约翰·普拉特(John Platt)。通过极大极小熵学习人群的智慧。InNeurIPS,第2204-2212页,2012年。
[57] (a) 特征交互选择设置:对于TI,dtrue=80,b=8,dnoise=20,N=200(左)和20000(右)
[58] 方法。103103
[59] 图8:PCD、PBCD、APGD、nmAPGD和PSGD之间的运行时比较
[60] 使用不同数量训练数据的合成数据集上的Katyusha算法:(a)特征
[61] TI方法的交互选择设置数据集;(b) TI的特征选择设置数据集
[62] 方法;(c) CSmethod的特征选择设置数据集。左右图显示结果
[63] 分别针对N=200和20000的数据集。48
[64] (a) ML100K数据集(N=100000):T方法(左)和C方法(右),λw=5×10-4,λp=5×10-15,以及
[65] λp=5×10−5。
[66] (b) a9a数据集(N=48842):T方法(左)和C方法(右),λw=5×10−2,λp=5×10-4,以及λλp=5×10-4。
[67] 图9:PCD、PBCD、APGD、nmAPGD,PSGD、MB-PSGD之间的运行时比较,
[68] Katyusha和MB-Katyushaalgorithms基于(a)ML100K数据集和(b)a9a数据集。左侧和
[69] 右图分别显示了TI和CS方法的结果。49
[70] 图10:λ=0.001(左)的算法2(排序)和算法3(随机)的比较,
[71] λ=0.1(中心),λ=10.0(右)。50简介分解机和稀疏分解机分解机稀疏分解机提出的特征交互选择方案1和2,1正则化器可以选择特征交互吗?1特征交互权重矩阵的范数*范数不等价的上界正则化子和*(拟)平方的上界正规化子norms范数和平方NormTI上界正则化器的比较TI正则化器基于PGD/PSGD的算法TI正则化器有效PCD算法CS正则化器基于PGD/PSGD的算法CS正则化器PBCD算法CS正则化器对相关模型的扩展TI的高阶FMs扩展和HOFMs的1,22 CS的扩展HOFMs和2,12表示TI的所有子集模型扩展,1,22表示CS的所有子集中模型扩展,2,12表示所有子集的模型相关工作实验接近运算符的比较合成数据集具有调整超参数的设置结果对正则化强超参数效率和可扩展性的敏感性现实世界数据集范数幂次微分的结论证明1的近似算子,2的mm近似算子,1的范数幂正则化TI正则化器实现细节的合理性附加实验现实世界数据集的效率比较优化方法比较alg:proxtisort和alg:proxtirandomize
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。