文件Zbl 07557814-zbMATH Open

一种基于比较的一位梯度估计器。（英语） Zbl 07557814号

申请。计算。哈蒙。分析。 60, 242-266 (2022).

摘要：我们研究凸函数的零阶优化，其中我们进一步假设函数求值不可用。相反，用户只能访问比较oracle，给了两分x个和年返回一个信息位，指示哪个点的函数值更大，\（f（\mathbf{x}）\）或\（f。通过将梯度视为待恢复的未知信号，我们展示了如何使用一位压缩感知工具构造一个稳健可靠的归一化梯度估计器。然后，我们提出了一种算法，即SCOBO，该算法在梯度下降方案中使用该估计器。我们表明，当\（f（\mathbf{x}）\）具有一些可以利用的低维结构时，SCOBO在查询复杂性方面优于最先进的技术。我们的理论主张得到了广泛的数值实验的验证。

MSC公司：

68倍	计算机科学
94-XX年	信息与通信理论、电路

关键词：

一位压缩传感;零阶优化;基于比较的优化;归一化梯度下降;超参数调谐;强化学习

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Tran，Hoang；Zhang，Guannan，Adadgs:一种具有非局部定向高斯平滑梯度的自适应黑箱优化方法（2020），arXiv预印本
[2]	马尼亚，霍里亚；盖伊，奥雷利亚；Recht，Benjamin，简单随机搜索为强化学习提供了一种有竞争力的方法，（《神经信息处理系统进展》（2018）），3455-3464
[3]	詹姆斯·伯格斯特拉（James Bergstra）；Yoshua Bengio，超参数优化的随机搜索，J.Mach。学习。研究，13，1，281-305（2012）·Zbl 1283.68282号
[4]	杰弗里·拉尔森；马特，梅尼克利；Wild，Stefan M.，《无导数优化方法》，《数值学报》。，28, 287-404 (2019) ·兹比尔1461.65169
[5]	刘思嘉；陈平玉；巴维亚·凯尔库拉；张高远；英雄阿尔弗雷德·O。；Varshney，Pramod K.，《信号处理和机器学习中的零阶优化：原理、最新进展和应用》，IEEE信号处理。Mag.，37，5，43-54（2020）
[6]	科罗曼斯基（Krzysztof Choromanski）；阿尔多·帕奇亚诺；杰克·帕克霍尔德；唐迪帕利·耆那、云浩；杨玉祥；伊斯肯，环礁；Hsu，茉莉花；辛德瓦尼（Sindhwani），维卡斯（Vikas），《增强学习的强大黑箱优化》（Provably robust blackbox optimization for reinforcement learning），（机器人学习会议（2020）），683-696
[7]	王以宁；杜，西蒙；西瓦拉曼·巴拉克里希南；Singh，Aarti，高维随机零阶优化，（国际人工智能与统计会议（2018）），1356-1365
[8]	蔡汉钦；丹尼尔·麦肯齐（Daniel Mckenzie）；尹、沃涛；张振亮，零阶正则优化（ZORO）：近似稀疏梯度和自适应采样，SIAM J.Optim。（2020），出版中；arXiv预印本·Zbl 1491.90184号
[9]	亚诺夫计划；Vershynin，Roman，鲁棒1位压缩传感和稀疏逻辑回归：一种凸规划方法，IEEE Trans。《信息论》，59，1482-494（2012）·Zbl 1364.94153号
[10]	塔克，梅根；埃伦·诺沃塞勒；克劳迪娅·卡恩（Claudia Kann）；隋、延安；岳义松；乔尔·伯迪克；Ames，Aaron D.，基于偏好的外骨骼步态优化学习（2019），arXiv预印本
[11]	Knox，W.Bradley；彼得·斯通（Peter Stone），《通过人类强化交互塑造代理人：驯服的框架》（2009年第五届知识获取国际会议论文集），第9-16页
[12]	岳义松；Joachims，Thorsten，作为决斗强盗问题的交互式优化信息检索系统，（第26届国际机器学习年会论文集（2009）），1201-1208
[13]	约翰·范克兰茨（Johannes Fürnkranz）；埃克·Hüllermier；程伟伟；Park，Sang-Hyeun，《基于偏好的强化学习：形式化框架和策略迭代算法》，Mach。学习。，89, 1-2, 123-156 (2012) ·Zbl 1260.68328号
[14]	Wimmer，G.Elliott；纳撒尼尔·D·道。；Shohamy，Daphna，《人类强化学习价值的概括》，《欧洲神经科学杂志》。，35, 7, 1092-1104 (2012)
[15]	Knox，W.Bradley；Peter Stone，《从人类和MDP同时奖励中强化学习》（AAMAS（2012）），第475-482页
[16]	保罗·F·克里斯蒂亚诺。；Leike，Jan；汤姆·布朗；Martic，Miljan；Legg，Shane；Dario Amodei，从人类偏好中进行深度强化学习，（神经信息处理系统进展（2017）），4299-4307
[17]	塔克，梅根；Cheng，Myra；埃伦·诺沃塞勒；理查德·程（Richard Cheng）；岳义松；Joel W.Burdick。；Ames，Aaron D.，基于人类偏好的学习，用于外骨骼步态的高维优化，（2020 IEEE/RSJ智能机器人和系统国际会议。2020 IEEE/RSJ智能机器人和系统国际会议，IROS（2020），IEEE），3423-3430
[18]	程敏浩；辛格（Simranjit Singh）；帕特里克·陈；陈平玉；刘思嘉；Sign-opt，Cho-Jui Xieh，一种高效的硬标签对抗性攻击（2019），arXiv预印本
[19]	凯文·杰米森。；罗伯特·诺瓦克（Robert Nowak）；Recht，Ben，无导数优化的查询复杂性，（神经信息处理系统进展（2012）），2672-2680
[20]	Thurstone，Louis L.，《比较判断法则》（Scaling（2017），Routledge），第81-92页
[21]	Balasubramanian、Krishnakumar；Ghadimi，Saeed，通过条件梯度和梯度更新的零阶（非）凸随机优化，（神经信息处理系统进展（2018）），3455-3464
[22]	张慧；Cheng，Lizhi，限制强凸性及其在凸优化梯度型方法收敛性分析中的应用，Optim。莱特。，9, 5, 961-979 (2015) ·Zbl 1350.90029号
[23]	松井、科塔；瓦塔鲁库马盖；Kanamori，Takafumi，基于成对比较预言机的并行分布式块坐标下降方法，J.Glob。最佳。，69, 1, 1-21 (2017) ·Zbl 1380.90258号
[24]	亚历山大·卡彭提尔（Alexandra Carpentier）；Munos，Rémi，Bandit理论满足高维随机线性强盗的压缩感知，（人工智能与统计（2012）），190-198·Zbl 1416.62070号
[25]	乔西普·乔隆加（Josip Djolonga）；安德烈亚斯·克劳斯；Cevher，Volkan，《高维高斯过程强盗》（神经信息处理系统，2013年）
[26]	Robert Tibshirani，《通过套索进行回归收缩和选择》，J.R.Stat.Soc.，Ser。B、 Methodol.方法。，58, 1, 267-288 (1996) ·Zbl 0850.62538号
[27]	迪安娜·尼德尔（Deanna Needell）；Tropp，Joel A.，CoSaMP：从不完整和不准确样本中恢复迭代信号，应用。计算。哈蒙。分析。，26, 3, 301-321 (2009) ·Zbl 1163.94003号
[28]	张丽君；杨天宝；金荣；肖一池；Zhou，Zhi Hua，一位反馈下的在线随机线性优化，（国际机器学习会议（2016）），392-401
[29]	Constantine，Paul G.，《主动子空间：参数研究中降维的新思路》（2015），SIAM·Zbl 1431.65001号
[30]	王子玉；弗兰克·赫特（Frank Hutter）；马萨鲁·佐吉；戴维·马西森（David Matheson）；de Feitas，Nando，《通过随机嵌入实现十亿维贝叶斯优化》，J.Artif。因特尔。决议，55，361-387（2016）·兹比尔1358.90089
[31]	丹尼尔·戈洛文（Daniel Golovin）；约翰·卡罗（John Karro）；Greg Kochanski；Lee，Chansoo；宋兴友，无梯度下降：高维零阶优化（2019），arXiv预印本
[32]	科罗曼斯基（Krzysztof M.Choromanski）。；阿尔多·帕奇亚诺；杰克·帕克霍尔德；唐云浩；Sindhwani，Vikas，《从复杂性到简单性：黑箱优化的自适应es-active子空间》，高级神经信息处理。系统。，32, 10299-10309 (2019)
[33]	弗兰克·赫特（Frank Hutter）；胡斯，霍尔格；Leyton-Brown，Kevin，《评估超参数重要性的有效方法》（国际机器学习会议（2014）），754-762
[34]	克里斯托弗·奈特。；奈特，西尔维娅·H·E。；Neil Massey；托鲁·艾纳；卡尔·克里斯滕森（Carl Christensen）；戴夫·J·弗雷姆（Dave J.Frame）。；杰米·凯特伯勒。；安德鲁·马丁（Andrew Martin）；斯蒂芬·帕斯科；Sanderson，Ben，参数、软件和硬件变化与57000气候模型大规模行为的关联，Proc。国家。阿卡德。科学。美国，104，30，12259-12264（2007）
[35]	Cartis，Coralia；Otemissov，Adilet，低有效维数函数无约束全局优化的降维技术（2020），arXiv预印本·Zbl 1491.90126号
[36]	伊曼纽尔·托多罗夫；汤姆·埃雷斯；Tassa，Yuval，Mujoco：基于模型控制的物理引擎，（2012 IEEE/RSJ智能机器人和系统国际会议（2012），IEEE），5026-5033
[37]	Boufounos，Petros T.公司。；理查德·巴拉纽克（Richard G.Baraniuk），《1位压缩传感》（2008年第42届信息科学与系统年会（2008年），IEEE），16-21
[38]	李胜桥，超球面帽面积和体积的简明公式，亚洲数学杂志。统计，4，1，66-70（2011）
[39]	Nesterov，Yurii E.，非光滑凸函数和拟凸函数的最小化方法，Matekon，29519-531（1984）·Zbl 0569.90076号
[40]	Levy，Kfir Y.，标准化的力量：鞍点的更快规避（2016），arXiv预印本
[41]	魏瑜，亚当斯；林启航；萨拉赫季诺夫，鲁斯兰；Carbonell，Jaime，深度神经网络训练的自适应步长法归一化梯度（2017），arXiv预印本
[42]	哈赞，埃拉德；利维，Kfir Y。；Shalev-Shwartz，Shai，超越凸性：随机拟凸优化，高级神经信息处理。系统。，2015, 1594-1602 (2015)
[43]	Spall，James C.，同步扰动法的自适应随机近似，IEEE Trans。自动。控制，45,101839-1853（2000）·Zbl 0990.93125号
[44]	阿洛伊斯，普尔乔特；Sigaud，Olivier，CEM-RL：结合进化和基于梯度的方法进行政策搜索（2018）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

一种基于比较的一位梯度估计器。（英语） Zbl 07557814号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

一种基于比较的一位梯度估计器。 （英语） Zbl 07557814号

MSC公司：

关键词：

参考文献：

一种基于比较的一位梯度估计器。（英语） Zbl 07557814号