文件Zbl 1492.90121-zbMATH打开

放宽条件梯度算法。（英语） Zbl 1492.90121号

J.马赫。学习。物件。 20，第71号论文，42页（2019年）。

摘要：条件梯度算法（也称为Frank-Wolfe算法）因其只需要线性优化预言机的简单性而广受欢迎，最近，它们还获得了在线学习的显著吸引力。虽然原则上很简单，但在许多情况下，线性优化预言机的实际实现成本很高。我们展示了一种通用的方法来惰性化各种条件梯度算法，这在实际计算中会导致墙块时间的几个数量级的加速。这是通过使用更快的分离预言机而不是线性优化预言机来实现的，只需要很少的线性优化预言调用。

引用于9文件

MSC公司：

90C25型	凸面编程
90 C56	无导数方法和使用广义导数的方法

关键词：

Frank-Wolfe算法；条件梯度；缓存；线性优化oracle；凸优化

软件：

古罗比；MIPLIB2003公司；MIPLIB公司

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	Jean-Yves Audibert、S´ebastien Bubeck和G´abor Lugosi。后悔在线组合优化。运筹学数学，39（1）：31-452013·Zbl 1341.68309号
[2]	Pierre Le Bodic、Jeffrey W Pavelka、Marc E Pfetsch和Sebastian Pokutta。通过基于缩放的增强解决MIP。arXiv预打印arXiv:1509.032062015·Zbl 1506.90171号
[3]	G.Braun、S.Pokutta和D.Zink。松弛条件梯度算法。ICML会议记录，2017年·Zbl 1492.90121号
[4]	阿隆·科恩和塔米尔·哈赞。跟随不安的领导者进行在线结构化学习。第32届国际机器学习会议（ICML-15）论文集，第1034-1042页，2015年。
[5]	桑吉卜冲刺。关于Chimera图上定义的QUBO实例的注释。预打印arXiv:1306.12022013。
[6]	安德烈饰演弗兰克和伊娃·塔尔多斯。同时丢番图逼近在组合优化中的应用。组合数学，7（1）：49-651987·Zbl 0641.90067号
[7]	玛格丽特·弗兰克和菲利普·沃尔夫。二次规划的一种算法。海军研究后勤季刊，3（1-2）：95-1101956。
[8]	Robert M.Freund和Paul Grigas。弗兰克·沃尔夫方法的新分析和结果。数学规划，155（1）：199-2302016。ISSN 1436-4646。doi:10.1007/s10107-014-0841-6。统一资源定位地址http://dx.doi.org/10.1007/s10107-014-0841-6。 ·Zbl 1342.90101号
[9]	Dan Garber和Elad Hazan。线性收敛条件梯度算法及其在线和随机优化应用。arXiv预印本arXiv:1301.46662013·Zbl 1342.65142号
[10]	丹·加伯和奥弗·梅西。结构化多边形的线性记忆和分解-变线性收敛条件梯度算法。arXiv预印本，
[11]	Martin Gr¨otschel和L´aszlo Lov´asz。组合优化：一项调查，1993年·Zbl 0837.05001号
[12]	斯瓦蒂·古普塔（Swati Gupta）、米歇尔·戈曼斯（Michel Goemans）和帕特里克·贾利特（Patrick Jaillet）。使用乘积、投影和词典编纂最优基求解组合游戏。arXiv预印本arXiv:1603.005222016。
[13]	古罗比优化。Gurobi优化器参考手册2016年第6.5版。URLhttps://www.gurobi.com/documentation/6.5/refman/。
[14]	埃拉·哈赞。在线凸优化简介。优化基础与趋势，2（3-4）：157-3252016。doi:10.1561/24000013。统一资源定位地址http://ocobook.cs。
[15]	Elad Hazan和Satyen Kale。无投影在线学习。arXiv预印本arXiv:1206.46572012。
[16]	马丁·贾吉。重温Frank-Wolfe：无投影稀疏凸优化。第30届国际机器学习会议（ICML-13）论文集，第页
[17]	托尔斯滕·约阿希姆斯（Thorsten Joachims）、托马斯·芬利（Thomas Finley）和约翰·于春南（Chun-Nam John Yu）。结构SVM的切入式培训。机器学习，77（1）：2009年27月59日·Zbl 1235.68161号
[18]	阿尔曼·朱林（Armand Joulin）、唐凯文（Kevin Tang）和李飞飞（Li Fei-Fei）。使用Frank-Wolfe算法进行有效的图像和视频联合定位。欧洲计算机视觉会议，第253-268页。施普林格，2014年。
[19]	Adam Kalai和Santosh Vempala。在线决策问题的高效算法。计算机与系统科学杂志，71（3）：291-3072005·兹伯利1094.68112
[20]	西蒙·拉科斯特·朱利安和马丁·贾吉。关于Frank-Wolfe优化变量的全局线性收敛性。在C.Cortes、N.D.Lawrence、D.D.Lee、M.Sugiyama和R.Garnett，编辑，《神经信息处理系统进展》，第28卷，第496-504页。Curran Associates，Inc.，2015年。统一资源定位地址http://papers.nips.cc/paper/5925关于frank-wolfe优化变体的全局线性收敛性。pdf格式。
[21]	西蒙·拉科斯特·朱利安（Simon Lacoste-Julien）、马丁·贾吉（Martin Jaggi）、马克·施密特（Mark Schmidt）和帕特里克·普莱彻（Patrick Pletscher）。结构SVM的块协调Frank-Wolfe优化。InICML 2013国际会议
[22]	Lan Guanghui和Yi Zhou。凸优化的条件梯度滑动。优化在线预印本（4605），2014年·Zbl 1342.90132号
[23]	Evgeny S Levitin和Boris T Polyak。约束最小化方法。苏联计算数学和数学物理，6（5）：1-501966。
[24]	Gergely Neu和G’abor Bart’ok。一种有效的半强盗反馈学习算法。《算法学习理论》，第234-248页。施普林格，2013年·Zbl 1406.68099号
[25]	Timm Oertel、Christian Wagner和Robert Weismantel。通过混合整数线性优化实现整数凸最小化。操作。Res.Lett.公司。，42(6-7):424-428, 2014. ·Zbl 1408.90202号
[26]	安东·奥索金（Anton Osokin）、珍妮·巴蒂斯特·阿莱拉克（Jean-Baptiste Alayrac）、伊莎贝拉·卢卡塞维茨（Isabella Lukasewitz）、普奈特·多卡尼亚（Puneet K Dokania）和西蒙·拉科斯特·朱利安。注意结构化SVM块Frank-Wolfe优化的差距。2016年国际机器学习会议/arXiv预印本
[27]	塞巴斯蒂安·波库塔。通过几何缩放实现平滑凸优化。再版，2017年·Zbl 1441.62173号
[28]	Andreas S Schulz和Robert Weismantel。求解一般整数规划的通用原始算法的复杂性。运筹学数学，27（4）：681-6922002·Zbl 1082.90072号
[29]	Andreas S.Schulz、Robert Weismantel和G¨unter M.Ziegler。0/1整数编程：优化和增强是等价的。InAlgorithms-1995年《欧洲账户体系》，论文集，第473-483页，1995年·Zbl 1512.90140号
[30]	尼尔·沙阿、弗拉基米尔·科尔莫戈罗夫和克里斯托弗·兰伯特。一种多平面块坐标Frank-Wolfe算法，用于训练具有代价高昂的最大值的结构SVM。InPro公司
[31]	图1：具有二次目标函数的大型网络生成实例网络生成16a（左）和网络生成16b（右）上的LCG与CG。在这两种情况下，算法的两个版本之间的函数值差异很大
[32]	图2：两个矩阵完成实例上的LCG与CG。我们用参数sn=3000，m=1000，r=10和r=30000（对于左侧实例）和n=10000，m=100，r=10和r=10000（对于右侧实例）来解决方程（6）中给出的问题。在这两种情况下，懒惰版本的迭代速度都较慢，但在挂钟时间上要快得多。注意，我们对这两种算法的步长都使用了短步长规则，因为矩阵完成的行搜索非常昂贵。
[33]	图3：两个矩阵完成实例上的LCG与CG。方程（6）的参数为n=5000、m=4000、r=10和r=50000（左例），n=100、m=20000、r=100和r=15000（右例）。在这两种情况下，惰性版本和非惰性版本的性能在迭代中具有可比性，但在挂钟时间内，惰性版本更快地达到较低的功能值。注意，我们对这两种算法的步长都使用了短步长规则，因为矩阵完成的行搜索非常昂贵。
[34]	图4：结构回归问题的LCG与CG，可行区域是11个节点（左）和12个节点（右）上的TSP多面体。在这两种情况下，LCG都是
[35]	图5：左侧10节点图和右侧15节点图上的生成树问题扩展公式的结构化回归实例上的LCG与CG。
[36]	图6：两个MIPLIB实例seil33-2andair04上的LPCG与PCG。LPCG收敛速度非常快，只需相对较少的oracle调用即可进行数百万次迭代，而
[37]	图7：28节点图的LOCG与OCG过切多段线。对于较小的问题，这也说明了当线性优化代价高昂时，惰性算法的优势。同样，LOCG在一小段初始时间后不需要进行oracle调用。
[38]	图8:LOCG与OCG在大型QUBO实例上的比较。这两种算法都能快速收敛到最优解。有趣的是，LOCG只执行4个LP调用。
[39]	图9:LOCG与OCG在路径多边形上的比较。在迭代次数上收敛速度相似，但在墙块时间上有显著差异。
[40]	图10:25节点图的生成树实例上的LOCG与OCG。在左边，可以观察到早期的波动，对后期的收敛速度没有影响。OCG没有通过这个早期阶段。在这两种情况下，LOCG收敛速度明显加快。
[41]	图11：两个QUBO实例上的Lazy OCG（带增强）与OCG。在这两种情况下，懒惰变量加上增强都显著优于OCG。
[42]	图12：针对线性损失的最大切割问题，缓存和提前终止在线优化带来的性能提升。红线是OCG基线，绿色线是只使用提前终止的延迟变量，蓝色线使用缓存和提前终止。左图：损失vs.墙锁时间。右图：损失与甲骨文调用花费的总时间之比。时间限制为7200秒。缓存可以显著改善墙锁时间的损失减少。这种效果在预言机时间更为明显，因为缓存会减少大量的预言机调用。
[43]	图13：为Lazy CG算法描述的oracle近似参数K的影响。我们可以看到，在迭代中增加Kleads会导致进度恶化，但在墙锁时间中会提高性能。其他算法的行为类似。
[44]	图14：Lazy CG算法（算法3）的“教科书”变体与。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

放宽条件梯度算法。（英语） Zbl 1492.90121号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

放宽条件梯度算法。 （英语） Zbl 1492.90121号

MSC公司：

关键词：

软件：

参考文献：

放宽条件梯度算法。（英语） Zbl 1492.90121号