鹦鹉螺会员享受无广告体验。立即加入.
免费注册鹦鹉螺新闻稿:
科学和文化为热爱美丽写作的人而设。
NL–物品减速带
探索

O(运行)优化问题可能很棘手,但它们会让世界变得更好。这些问题都是为了寻求最佳的做事方式,它们无处不在。手机的GPS计算到达目的地的最短路线。旅游网站搜索与您的行程相匹配的最便宜的航班组合。机器学习应用程序通过分析数据中的模式进行学习,试图为任何给定的问题提供最准确、最人性化的答案。

对于简单的优化问题,找到最佳解只是一个算术问题。但数学家和科学家感兴趣的现实世界问题很少简单。1847年,法国数学家奥古斯丁·路易斯·考西(Augustin-Louis Cauchy)正在研究一个相当复杂的例子——电子计算,当时他开创了一种常用的优化方法,即现在所说的梯度下降法。如今,大多数机器学习程序在很大程度上依赖于该技术,其他领域也使用它来分析数据和解决工程问题。

鹦鹉螺会员享受无广告体验。登录立即加入.

150多年来,数学家们一直在完善梯度下降,但上个月一项研究证明了关于这项技术的一个基本假设可能是错误的。“只是有几次我感到惊讶,我的直觉被打破了,”他说本·格里默他是约翰霍普金斯大学的应用数学家,也是该研究的唯一作者。他的反直觉结果表明,如果梯度下降打破了人们长期接受的关于如何为给定问题找到最佳答案的规则,那么它的工作速度可以快近三倍。虽然理论上的进步可能不适用于机器学习所解决的较难解决的问题,但它已引起研究人员重新考虑他们对该技术的了解。

身体内图像
前进的一步:本·格里默(Ben Grimmer)表明,梯度下降算法通过包含出乎意料的大步长可以更快地工作,这与研究人员长期以来所认为的正好相反。Will Kirk拍摄.
鹦鹉螺会员享受无广告体验。登录立即加入.

他说:“事实证明,我们对梯度下降背后的理论并没有完全理解”Shuvomoy Das Gupta公司他是麻省理工学院的优化研究员。现在,他说,我们“更接近于了解梯度下降的作用。”

技术本身看似简单。它使用了一种叫做成本函数的东西,它看起来像一条平滑的曲线,在图形中上下蜿蜒。对于这条线上的任何一点,高度在某种程度上代表了成本—当调整到特定设置时,操作将产生多少时间、能量或错误。点越高,系统离理想越远。当然,您希望在这条线上找到成本最小的最低点。

梯度下降算法通过拾取一个点并计算其周围曲线的斜率(或梯度),然后沿着斜率最陡的方向移动,从而找到底部。想象一下,这就像你在黑暗中摸索着下山一样。你可能不知道该往哪里走,要徒步走多久,或者最终会接近海平面多少,但如果你沿着最陡峭的斜坡往下走,你最终会到达该地区的最低点。

与比喻中的登山者不同,优化研究人员可以编程他们的梯度下降算法,以采取任何大小的步骤。巨大的跳跃是诱人的,但也有风险,因为它们可能超出答案。相反,几十年来该领域的传统智慧一直是小步走。在梯度下降方程中,这意味着步长不大于2,尽管没有人能够证明步长越小越好。

鹦鹉螺会员享受无广告体验。登录立即加入.

随着计算机辅助证明技术的进步,优化理论家已经开始测试更极端的技术。在一项研究中,首先张贴2022年和最近出版的英寸数学规划达斯·古普塔(Das Gupta)和其他人要求计算机为只运行50步的算法找到最佳步长,这是一种元优化问题,因为它试图优化优化。他们发现,最理想的50个步骤的长度差异很大,其中一个步骤位于序列中间,长度接近37,远高于典型的长度上限2。

这些发现表明优化研究人员遗漏了一些东西。格里默很感兴趣,他试图将达斯·古普塔的数值结果转化为更一般的定理。为了越过50步的任意上限,格里默探索了一个可以重复的序列的最佳步长,从而在每次重复时更接近最佳答案。他让计算机运行数百万个步长序列的排列,帮助找到那些最快收敛到答案上的序列。

格里默发现,最快的序列总是有一个共同点:中间的一步总是很大的一步。它的大小取决于重复序列中的步骤数。对于一个三步序列,大的一步长度为4.9。对于15步序列,算法建议一步的长度为29.7。对于一个127步的序列,也是测试中最长的一个序列,最大的中央跳跃是惊人的370步。格里默说,起初这听起来像是一个荒谬的大数字,但总的步幅足以弥补这个巨大的飞跃,所以即使你突破了底部,你仍然可以很快恢复。他的论文表明,这个序列到达最佳点的速度几乎是不断小步前进的三倍。“有时候,你真的应该过度承诺,”他说。

这种周期性方法代表了一种不同的梯度下降思维方式艾默尔·迪乌列韦特他是法国帕莱索埃科尔理工学院的优化研究员。他说:“我的直觉是,我不应该一步一步地思考,而应该连续地思考,我认为这是许多人忽视的事情。”。“这不是教学的方式。”(格里默指出,这一重构也是提出Jason Altschuler是宾夕法尼亚大学的优化研究员,他在2018年的硕士论文中提出了类似的问题。)

鹦鹉螺会员享受无广告体验。登录立即加入.

然而,尽管这些见解可能会改变研究人员对梯度下降的看法,但它们可能不会改变目前该技术的使用方式。Grimmer的论文只关注光滑函数和凸函数,前者没有尖锐的扭结,后者形状像碗,底部只有一个最优值。这些功能在理论上是基本的,但在实践中相关性较小;机器学习研究人员使用的优化程序通常要复杂得多。格里默说,这需要梯度下降的版本,“有如此多的钟声和哨声,以及如此多的细微差别”。

他说,其中一些强化技术可以比格里默的大步骤方法更快加泰尔·吉德尔他是蒙特利尔大学的优化和机器学习研究员。但这些技术需要额外的操作成本,所以希望通过正确的步长组合,常规梯度下降能够获胜。不幸的是,新研究的三倍加速还不够。

Gidel说:“这表明情况略有改善。”。“但我想真正的问题是:我们真的能缩小这一差距吗?”

这一结果还引发了另一个理论谜团,让格里默彻夜未眠。为什么步长的理想模式都有这样一个对称的形状?他说,不仅最大的一步总是在中间,而且两边都出现了相同的模式:继续放大并细分序列,你会得到一个由较小的步骤包围着的较大步骤的“几乎分形模式”。这种重复表明了一种管理最佳解决方案的潜在结构,但迄今为止还没有人能够解释。但格里默至少是充满希望的。

鹦鹉螺会员享受无广告体验。登录立即加入.

“如果我不能破解它,其他人就会破解,”他说。

这篇文章是最初出版的在上  量子抽象博客。 

主图片:Allison Li/Quanta Magazine

闭路电视 无限享受鹦鹉螺文章,免费,每月不到5美元。 立即加入

! 没有与该电子邮件地址关联的活动订阅。

加入继续阅读。

本月你已经阅读了2篇免费文章。通过成为鹦鹉螺成员。

! 没有与该电子邮件地址关联的活动订阅。

这是你最后一篇免费文章。

不要限制你的好奇心。通过成为鹦鹉螺成员。