×

放宽条件梯度算法。 (英语) Zbl 1492.90121号

摘要:条件梯度算法(也称为Frank-Wolfe算法)因其只需要线性优化预言机的简单性而广受欢迎,最近,它们还获得了在线学习的显著吸引力。虽然原则上很简单,但在许多情况下,线性优化预言机的实际实现成本很高。我们展示了一种通用的方法来惰性化各种条件梯度算法,这在实际计算中会导致墙块时间的几个数量级的加速。这是通过使用更快的分离预言机而不是线性优化预言机来实现的,只需要很少的线性优化预言调用。

MSC公司:

90C25型 凸面编程
90 C56 无导数方法和使用广义导数的方法
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Jean-Yves Audibert、S´ebastien Bubeck和G´abor Lugosi。后悔在线组合优化。运筹学数学,39(1):31-452013·Zbl 1341.68309号
[2] Pierre Le Bodic、Jeffrey W Pavelka、Marc E Pfetsch和Sebastian Pokutta。通过基于缩放的增强解决MIP。arXiv预打印arXiv:1509.032062015·Zbl 1506.90171号
[3] G.Braun、S.Pokutta和D.Zink。松弛条件梯度算法。ICML会议记录,2017年·Zbl 1492.90121号
[4] 阿隆·科恩和塔米尔·哈赞。跟随不安的领导者进行在线结构化学习。第32届国际机器学习会议(ICML-15)论文集,第1034-1042页,2015年。
[5] 桑吉卜冲刺。关于Chimera图上定义的QUBO实例的注释。预打印arXiv:1306.12022013。
[6] 安德烈饰演弗兰克和伊娃·塔尔多斯。同时丢番图逼近在组合优化中的应用。组合数学,7(1):49-651987·Zbl 0641.90067号
[7] 玛格丽特·弗兰克和菲利普·沃尔夫。二次规划的一种算法。海军研究后勤季刊,3(1-2):95-1101956。
[8] Robert M.Freund和Paul Grigas。弗兰克·沃尔夫方法的新分析和结果。数学规划,155(1):199-2302016。ISSN 1436-4646。doi:10.1007/s10107-014-0841-6。统一资源定位地址http://dx.doi.org/10.1007/s10107-014-0841-6。 ·Zbl 1342.90101号
[9] Dan Garber和Elad Hazan。线性收敛条件梯度算法及其在线和随机优化应用。arXiv预印本arXiv:1301.46662013·Zbl 1342.65142号
[10] 丹·加伯和奥弗·梅西。结构化多边形的线性记忆和分解-变线性收敛条件梯度算法。arXiv预印本,
[11] Martin Gr¨otschel和L´aszlo Lov´asz。组合优化:一项调查,1993年·Zbl 0837.05001号
[12] 斯瓦蒂·古普塔(Swati Gupta)、米歇尔·戈曼斯(Michel Goemans)和帕特里克·贾利特(Patrick Jaillet)。使用乘积、投影和词典编纂最优基求解组合游戏。arXiv预印本arXiv:1603.005222016。
[13] 古罗比优化。Gurobi优化器参考手册2016年第6.5版。URLhttps://www.gurobi.com/documentation/6.5/refman/。
[14] 埃拉·哈赞。在线凸优化简介。优化基础与趋势,2(3-4):157-3252016。doi:10.1561/24000013。统一资源定位地址http://ocobook.cs。
[15] Elad Hazan和Satyen Kale。无投影在线学习。arXiv预印本arXiv:1206.46572012。
[16] 马丁·贾吉。重温Frank-Wolfe:无投影稀疏凸优化。第30届国际机器学习会议(ICML-13)论文集,第页
[17] 托尔斯滕·约阿希姆斯(Thorsten Joachims)、托马斯·芬利(Thomas Finley)和约翰·于春南(Chun-Nam John Yu)。结构SVM的切入式培训。机器学习,77(1):2009年27月59日·Zbl 1235.68161号
[18] 阿尔曼·朱林(Armand Joulin)、唐凯文(Kevin Tang)和李飞飞(Li Fei-Fei)。使用Frank-Wolfe算法进行有效的图像和视频联合定位。欧洲计算机视觉会议,第253-268页。施普林格,2014年。
[19] Adam Kalai和Santosh Vempala。在线决策问题的高效算法。计算机与系统科学杂志,71(3):291-3072005·兹伯利1094.68112
[20] 西蒙·拉科斯特·朱利安和马丁·贾吉。关于Frank-Wolfe优化变量的全局线性收敛性。在C.Cortes、N.D.Lawrence、D.D.Lee、M.Sugiyama和R.Garnett,编辑,《神经信息处理系统进展》,第28卷,第496-504页。Curran Associates,Inc.,2015年。统一资源定位地址http://papers.nips.cc/paper/5925关于frank-wolfe优化变体的全局线性收敛性。pdf格式。
[21] 西蒙·拉科斯特·朱利安(Simon Lacoste-Julien)、马丁·贾吉(Martin Jaggi)、马克·施密特(Mark Schmidt)和帕特里克·普莱彻(Patrick Pletscher)。结构SVM的块协调Frank-Wolfe优化。InICML 2013国际会议
[22] Lan Guanghui和Yi Zhou。凸优化的条件梯度滑动。优化在线预印本(4605),2014年·Zbl 1342.90132号
[23] Evgeny S Levitin和Boris T Polyak。约束最小化方法。苏联计算数学和数学物理,6(5):1-501966。
[24] Gergely Neu和G’abor Bart’ok。一种有效的半强盗反馈学习算法。《算法学习理论》,第234-248页。施普林格,2013年·Zbl 1406.68099号
[25] Timm Oertel、Christian Wagner和Robert Weismantel。通过混合整数线性优化实现整数凸最小化。操作。Res.Lett.公司。,42(6-7):424-428, 2014. ·Zbl 1408.90202号
[26] 安东·奥索金(Anton Osokin)、珍妮·巴蒂斯特·阿莱拉克(Jean-Baptiste Alayrac)、伊莎贝拉·卢卡塞维茨(Isabella Lukasewitz)、普奈特·多卡尼亚(Puneet K Dokania)和西蒙·拉科斯特·朱利安。注意结构化SVM块Frank-Wolfe优化的差距。2016年国际机器学习会议/arXiv预印本
[27] 塞巴斯蒂安·波库塔。通过几何缩放实现平滑凸优化。再版,2017年·Zbl 1441.62173号
[28] Andreas S Schulz和Robert Weismantel。求解一般整数规划的通用原始算法的复杂性。运筹学数学,27(4):681-6922002·Zbl 1082.90072号
[29] Andreas S.Schulz、Robert Weismantel和G¨unter M.Ziegler。0/1整数编程:优化和增强是等价的。InAlgorithms-1995年《欧洲账户体系》,论文集,第473-483页,1995年·Zbl 1512.90140号
[30] 尼尔·沙阿、弗拉基米尔·科尔莫戈罗夫和克里斯托弗·兰伯特。一种多平面块坐标Frank-Wolfe算法,用于训练具有代价高昂的最大值的结构SVM。InPro公司
[31] 图1:具有二次目标函数的大型网络生成实例网络生成16a(左)和网络生成16b(右)上的LCG与CG。在这两种情况下,算法的两个版本之间的函数值差异很大
[32] 图2:两个矩阵完成实例上的LCG与CG。我们用参数sn=3000,m=1000,r=10和r=30000(对于左侧实例)和n=10000,m=100,r=10和r=10000(对于右侧实例)来解决方程(6)中给出的问题。在这两种情况下,懒惰版本的迭代速度都较慢,但在挂钟时间上要快得多。注意,我们对这两种算法的步长都使用了短步长规则,因为矩阵完成的行搜索非常昂贵。
[33] 图3:两个矩阵完成实例上的LCG与CG。方程(6)的参数为n=5000、m=4000、r=10和r=50000(左例),n=100、m=20000、r=100和r=15000(右例)。在这两种情况下,惰性版本和非惰性版本的性能在迭代中具有可比性,但在挂钟时间内,惰性版本更快地达到较低的功能值。注意,我们对这两种算法的步长都使用了短步长规则,因为矩阵完成的行搜索非常昂贵。
[34] 图4:结构回归问题的LCG与CG,可行区域是11个节点(左)和12个节点(右)上的TSP多面体。在这两种情况下,LCG都是
[35] 图5:左侧10节点图和右侧15节点图上的生成树问题扩展公式的结构化回归实例上的LCG与CG。
[36] 图6:两个MIPLIB实例seil33-2andair04上的LPCG与PCG。LPCG收敛速度非常快,只需相对较少的oracle调用即可进行数百万次迭代,而
[37] 图7:28节点图的LOCG与OCG过切多段线。对于较小的问题,这也说明了当线性优化代价高昂时,惰性算法的优势。同样,LOCG在一小段初始时间后不需要进行oracle调用。
[38] 图8:LOCG与OCG在大型QUBO实例上的比较。这两种算法都能快速收敛到最优解。有趣的是,LOCG只执行4个LP调用。
[39] 图9:LOCG与OCG在路径多边形上的比较。在迭代次数上收敛速度相似,但在墙块时间上有显著差异。
[40] 图10:25节点图的生成树实例上的LOCG与OCG。在左边,可以观察到早期的波动,对后期的收敛速度没有影响。OCG没有通过这个早期阶段。在这两种情况下,LOCG收敛速度明显加快。
[41] 图11:两个QUBO实例上的Lazy OCG(带增强)与OCG。在这两种情况下,懒惰变量加上增强都显著优于OCG。
[42] 图12:针对线性损失的最大切割问题,缓存和提前终止在线优化带来的性能提升。红线是OCG基线,绿色线是只使用提前终止的延迟变量,蓝色线使用缓存和提前终止。左图:损失vs.墙锁时间。右图:损失与甲骨文调用花费的总时间之比。时间限制为7200秒。缓存可以显著改善墙锁时间的损失减少。这种效果在预言机时间更为明显,因为缓存会减少大量的预言机调用。
[43] 图13:为Lazy CG算法描述的oracle近似参数K的影响。我们可以看到,在迭代中增加Kleads会导致进度恶化,但在墙锁时间中会提高性能。其他算法的行为类似。
[44] 图14:Lazy CG算法(算法3)的“教科书”变体与。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。