2024年9月4日

AMCS/STAT研究生研讨会演讲

明天(9月5日)中午,我将在科大AMCS/STAT研究生研讨会上发表演讲:地点:9号楼2层2325室。演讲题目是:“第一个最佳并行SGD(存在数据、计算和通信异构性)”。这与我两天前在科大给CS观众的演讲是一样的,但这次的观众是由数学和统计学人员组成的。




2024年9月2日

CS研究生研讨会演讲

今天中午,我将在科大的计算机科学研究生研讨会上发表演讲。地点:9号楼2层2325室。演讲题目是:“第一个最佳并行SGD(存在数据、计算和通信异构性)”。




2024年8月26日

庆祝内斯特罗夫50年的研究

我正在去比利时参加的路上这个ALGOPT2024研讨会算法优化:人工智能和数据科学工具在加州大学卢万分校举行2024年8月27日至30日。这次会议是对尤里·内斯特罗夫50年的庆祝优化研究周年纪念。我将在活动的第一天发表演讲。很高兴能再次联系和许多朋友和同事在一起。




2024年7月21日

维也纳ICML 2024

7月21日至27日,我将参加ICML 2024年会议在维也纳举行。





2024年6月17日

主题演讲:FedVision@CVPR 2024

我将在计算机视觉联合学习(FedVision)研讨会CVPR 2024年今天。会议于6月17日至21日在西雅图举行。





这是演示文稿(62张幻灯片)支持我的演讲。这是我第三次做这个演讲,每次都会扩展一点(40->52->62张幻灯片)。




2024年6月10日

巴黎谈话

我正在参加机器学习的应用算法(计算未来研讨会)6月10日至12日在巴黎举行。该活动由莱斯大学的一些杰出人士组织:玛丽亚姆·阿里亚克巴普尔(Maryam Aliakbarpour)、弗拉基米尔·布拉弗曼(Vladimir Braverman)、本·胡(夏)、奈慧嘉(Nai-Hui Chia)、阿纳斯塔西奥斯·基里利迪斯(Anastasios Kyrillidis)、塞巴斯蒂安·佩雷斯-萨拉扎(Sebastian Perez-Salazar)、安舒马利。事实证明,赖斯碰巧在巴黎市中心(Chasse俱乐部)有一个实体店。





这些是52张幻灯片从我的谈话中。




2024年6月6日

维也纳演讲(更新)

我已经在One World优化研讨会(研讨会)在维也纳埃尔文·施罗德国际数学和物理研究所举行。该活动由Radu Ioan Boţ尤拉·马利茨基.





这些是40张幻灯片形成我的演讲。谈话的录音也在播放YouTube网站现在。




2024年6月3日

新论文

新出纸: “队列挤压:超越跨设备联合学习中每个队列的单轮交流”-与Kai Yi、Timur Kharisov、Igor Sokolov和Peter Richtárik联合工作。

摘要:实际上,包括FedAvg在内的所有联合学习(FL)方法都以以下方式运行:i)编配服务器将当前模型参数发送给通过特定规则选择的一组客户端,ii)这些客户端然后使用自己的培训数据独立执行本地培训程序(例如,通过SGD或Adam),以及iii)将得到的模型运送到服务器以进行聚合。重复此过程,直到找到合适质量的模型。这些方法的一个显著特点是,每个队列只与服务器进行一轮通信。在这项工作中,我们挑战这个算法设计原语,并研究是否有可能“挤压更多果汁”“在每个队列中,比在单个通信回合中可能出现的情况要少。令人惊讶的是,我们发现事实确实如此,并且我们的方法使在跨设备环境中训练FL模型所需的总通信成本减少了高达74%。我们的方法基于随机近点方法的一种新变体(SPPM-AS)支持大量客户抽样程序,其中一些程序与经典客户选择方法相比可带来更多收益。




2024年6月2日

ICML 2024接受的论文

ICML公司
我们已经接受了两份文件第41届国际机器学习会议(ICML 2024):

爱德华·戈尔布诺夫(Eduard Gorbunov)、阿卜杜拉赫蒙·萨迪耶夫(Abdurakhmon Sadiev)、玛丽娜·达尼洛娃(Marina Danilova)、塞缪尔·霍瓦思(Samuel Horváth)、高蒂尔·吉德尔(Gauthier Gidel
具有重尾噪声的复合和分布随机极小化及变分不等式的高概率收敛性
口腔用纸
[arXiv]

埃戈尔·舒尔金和彼得·里奇塔里克
更好地理解独立子网培训的理论
[arXiv]


会议将于7月21日至27日在奥地利维也纳举行。




2024年6月1日

维也纳会谈

我正在去维也纳的路上,参加One World优化研讨会在埃尔文·薛定谔国际数学和物理研究所举行。该活动由Radu Ioan Boţ尤拉·马利茨基.本次活动有一批优秀的演讲者;请参阅日程安排在这里。

我的演讲定于6月6日(星期四)举行。




2024年5月31日

新论文

新出纸: “在客户端而不是服务器上进行删减:加速联合学习中的稀疏训练”-与Georg Meinhardt、Kai Yi和Laurent Condat共同工作。

摘要:在最近的联合学习(FL)范式中,多个客户端训练一个共享模型,同时保持其本地数据的私密性。客户的资源约束和通信成本是FL中大型模型培训的主要问题。一方面,针对客户的资源限制,稀疏培训已被证明是集中设置中的一个强大工具。另一方面,FL中的通信成本可以通过本地培训解决,每个客户对其本地数据采取多个梯度步骤。最近的工作表明,本地训练可以证明达到最佳的加速通信复杂性[Mishchenko等人,2022]。因此,需要一种加速稀疏训练算法。在这项工作中,我们展示了服务器上稀疏训练和加速的简单集成失败,以及如何通过让客户端适当执行这些任务来修复它。我们引入了Sparse-ProxSkip,这是我们为非凸设置开发的方法,其灵感来自RandProx[Condat and Richtárik,2022],该方法可证明将稀疏训练和凸设置中的加速结合在一起。我们在大量实验中证明了Sparse-ProxSkip的良好性能。




2024年5月30日

新论文

新出纸: “SPAM:用于非凸交叉设备联合学习的具有动量方差减少的随机邻近点方法”-与Avetik Karagulyan、Egor Shulgin和Abdurakhmon Sadiev联合工作。

摘要:跨设备培训是联合学习的一个关键子领域,其中客户数量可以达到数十亿。标准方法和本地方法容易出现诸如客户端漂移和对数据相似性不敏感等问题。我们提出了一种新的具有非凸损失的跨设备联合学习算法(SPAM),解决了这两个问题。我们在二阶(Hessian)相似性下提供了清晰的分析,这是实践中各种机器学习问题所满足的条件。此外,我们将结果扩展到部分参与设置,在该设置中,一组选定的客户端在每轮通信中与服务器通信。我们的方法是同类方法中的第一种,它不需要从具有类似数据的客户那里获得客观和可证明的好处。




2024年5月30日

新论文

新出纸: “点-SAGA算法的简单线性收敛分析”-与Laurent Condat联合工作。

摘要:Point-SAGA是由Defazio(2016)提出的一种随机算法,用于使用邻近算子(proxs)最小化凸函数之和。在每次迭代中,只调用一个随机选择的函数的近似值。我们将该算法推广到每次迭代的任何数量的prox调用,而不仅仅是一个,并提出了当函数是光滑和强凸时线性收敛的简单证明。




2024年5月30日

孙璐康今天为他的博士论文辩护!

我的优秀博士生孙璐康为他的博士论文辩护基于Stein变分梯度下降和一致性的优化:收敛性分析和推广今天!

委员会:何塞·卡里略(牛津数学),第奥古·戈麦斯(数学@KAUST),狄王(CS@KAUST),再加上你的真情。

鲁康的下一步:TUM博士后马西莫·福纳西耶.

恭喜你,鲁康!!!




2024年5月26日

新论文

新出纸: “局部曲率下降:从标准和Polyak渐变下降中挤出更多曲率”-与Simone Maria Giancola、Dymitr Lubczyk和Robin Yadav联合工作。

摘要:我们有助于获得更多关于凸优化的更强大和自适应步长的知识,这些步长由局部曲率信息授权。我们不走完全可靠的二阶方法的路线,这需要昂贵的Hessian计算。相反,我们的主要观察结果是,对于某些问题(例如,当最小化绝对凸函数的平方和时),某些局部曲率信息很容易获得,并且可以用于获得令人惊讶的强大矩阵值步长和有意义的理论。特别是,我们开发了三种新方法——LCD1、LCD2和LCD3,其中缩写代表局部曲率下降。LCD1用固定步长推广梯度下降,LCD2用Polyak步长推广梯度下降。我们的方法利用局部曲率信息增强了这些经典的梯度下降基线,并且我们的理论在不使用曲率信息的特殊情况下恢复了已知的速率。我们的最后一种方法LCD3是LCD2的可变度量版本;这个特性为iterates提供了一个封闭形式的表达式。我们的经验结果是令人鼓舞的,并且表明局部曲率下降比梯度下降有所改善。




2024年5月25日

新论文

新出纸: “关于分散随机异步优化中的最佳时间复杂性”-与Alexander Tyurin联合工作。

摘要:我们考虑分散随机异步优化设置,其中许多工作人员异步计算随机梯度,并使用多重图中的边进行异步通信。对于同构和异构设置,我们在计算和通信速度有界的假设下证明了新的时间复杂度下限。我们开发了一种新的近似最优方法,即脆弱SGD和一种新优化方法,即Amelie SGD,它们可以在任意异构计算和通信速度下收敛,并与我们的下限相匹配(在均匀设置下可达对数因子)。我们的时间复杂性是新的,几乎是最优的,并且可以证明改进了分散设置中所有以前的异步/同步随机方法。




2024年5月24日

新论文

新出纸: “无光滑随机近点方法的统一理论”-与Abdurakhmon Sadiev和Yury Demidovich联合工作。

摘要:本文对随机近点法(SPPM)的广泛变化进行了综合分析。近点方法由于其数值稳定性和对不完美调谐的鲁棒性而引起了人们的极大兴趣,而这一特性是主导随机梯度下降(SGD)算法所不具备的。我们引入的假设框架包括使用方差减少和任意抽样等技术的方法。我们一般理论方法的基石是对迭代、校正和控制向量的参数假设。我们建立了一个定理,确保在这个假设和损失函数的$\mu$-强凸性下线性收敛,并且不需要调用光滑性。这个积分定理恢复了一些现有方法的已知复杂性和收敛性保证,这证明了我们方法的鲁棒性。我们通过开发三种新的SPPM变体来扩展我们的研究,并通过数值实验阐明了它们固有的各种特性。




2024年5月24日

新论文

新出纸: “MicroAdam:具有低空间开销和可证明收敛性的精确自适应优化”-与Ionut-Vlad Modoranu、Mher Safaryan、Grigory Malinovsky、Eldar Kurtic、Thomas Robert和Dan Alistarh联合工作。

摘要:我们提出了一种新的Adam优化器变体[Kingma和Ba,2014],称为MICROADAM,它专门将内存开销降至最低,同时保持理论收敛保证。我们通过在梯度信息进入优化器状态之前压缩梯度信息来实现这一点,从而显著减少其内存占用。我们通过分布式优化经典错误反馈机制的一个新实例来控制由此产生的压缩误差[Seide等人,2014年,Alistarh等人,2018年,Karimireddy等人,2019],其中错误校正信息本身被压缩,以允许实际内存增益。我们证明,所得到的方法在保持理论收敛性的同时,保证了与AMSGrad方法的竞争力,并提供了良好的实际性能。具体来说,我们证明了MICROADAM可以在GPU上高效实现:在百万级(BERT)和十亿级(LLaMA)模型上,MICROADAM提供了与未压缩Adam基线相比具有竞争力的实际收敛,内存使用率更低,运行时间也类似。我们的代码位于此https URL.




2024年5月24日

新论文

新出纸: “Freya PAGE:具有异构异步计算的大规模非凸有限和优化的第一个最佳时间复杂性”-与Alexander Tyurin和Kaja Gruntkowska联合工作。

摘要:在实际的分布式系统中,工作者通常不是同质的,并且由于硬件配置和网络条件的差异,可能具有高度变化的处理时间。我们在此设置中考虑光滑非凸有限和(经验风险最小化)问题,并引入一种新的并行方法,Freya PAGE,旨在处理任意异构和异步计算。通过对“掉队者”的鲁棒性和自适应忽略慢速计算,与所有以前的方法(包括异步SGD、Rennala SGD、SPIDER和PAGE)相比,Freya PAGE提供了显著改进的时间复杂性保证,同时需要较弱的假设。该算法依赖于具有理论保证的新型通用随机梯度收集策略,这些策略本身可能会引起人们的兴趣,并可用于设计未来的优化方法。此外,我们为异步设置中的光滑非凸有限和问题建立了一个下限,提供了基本的时间复杂性限制。这个下限很紧,并且证明了Freya PAGE在大规模情况下的最优性,即当$\sqrt{m}\geqn$是#个工人,$m$是#的数据样本时。




2024年5月23日

新论文

新出纸: “PV-调整:超越极端LLM压缩的直通估计”-与弗拉基米尔·马利诺夫斯基、丹尼斯·马祖尔、伊万·伊林、丹尼斯·库兹涅德列夫、康斯坦丁·布拉琴科、凯伊和丹·阿利斯塔共同工作。

摘要:人们对大型语言模型(LLM)的“极端”压缩非常感兴趣,即每个参数压缩到1-2位,这样可以在资源受限的设备上高效地执行这些模型。现有工作集中于改进的一次性量化技术和权重表示;然而,纯粹的训练后方法在精度与比特宽度的权衡方面正取得越来越小的回报。最先进的量化方法,如QuIP#和AQLM,包括在有限数量的校准数据上微调(部分)压缩参数;然而,这种针对压缩权重的微调技术通常只使用直通估计器(STE),在这种情况下,对STE的性能还不太了解。在这项工作中,我们对STE用于极限LLM压缩提出质疑,表明它可能是次优的,并对LLM的量化软件微调策略进行了系统研究。我们提出了PV Tuning——一个表示不可知的框架,它对现有的微调策略进行了概括和改进,并在有限的情况下提供了收敛保证。在实际应用方面,当用于1-2位矢量量化时,PV-Tunening优于Llama和Mistral等高性能模型的先前技术。使用PV-Tunening,我们以每个参数2比特的速度实现了Llama 2族模型的第一个帕累托最优量化。




2024年5月23日

新论文

新出纸: “预期相似性下单调包含的随机邻近点方法”-与Abdurakhmon Sadiev和Laurent Condat联合工作。

摘要:单调夹杂具有广泛的应用,包括最小化、鞍点和平衡问题。我们引入了新的随机算法来估计可能的集值单调算子的期望根,无论是否减少方差,在每次迭代时都使用一个对随机抽样算子预解的调用。我们还引入了算子之间的相似性概念,即使对于不连续算子也是如此。我们利用它在强单调设置下导出线性收敛结果。




2024年5月22日

新论文

新出纸: “外推法在联合学习中的力量”-与Hanmin Li和Kirill Acharya联合工作。

摘要:我们提出并研究了几种服务器扩展策略,以增强流行的联邦学习优化器FedProx的理论和经验收敛特性[Li等人,2020年]。虽然人们早就知道某种形式的外推可以帮助外语教学,但只有少数作品提供了任何理论保证。这种现象似乎难以捉摸,我们目前的理论理解仍然严重不完整。在我们的工作中,我们关注插值区域中的光滑凸或强凸问题。特别地,我们提出了外推FedProx(FedExProx),并研究了三种外推策略:恒定策略(取决于各种平滑参数和参与设备的数量)和两种平滑自适应策略;一个基于梯度多样性概念(FedExProx-GraDS),另一个基于随机Polyak步长(FedExProx-StoPS)。我们的理论得到了精心构建的数值实验的证实。




2024年5月23日

回到KAUST(再次)

在经历了包括AISTATS和ICLR在内的一系列欧洲活动之后,我又回到了科大。




2024年5月22日

NeurIPS 2024最后期限

今天是NeurIPS 2024的最后期限。这并不意味着今天一定很艰难。这几个月是艰难的,真正的工作是在那里完成的。无论如何,像往常一样,今天还有一些事情要做!




2024年5月12日

CS 331期末考试

今天举行了我的课程CS 331:随机梯度下降法的期末考试。祝所有学生好运!




2024年5月7日

奥地利维也纳ICLR 2024

现在我正在去奥地利维也纳参加ICLR 2024年会议。我们将发表三篇论文:
  • Kai Yi、Nidham Gazagnadou、Peter Richtárik和Lingjuan Lyu。FedP3:模型异构下的个性化、无隐私的联邦网络修剪。第十二届国际学习代表大会(ICLR 2024)。[arXiv公司] [OpenReview(打开审阅)]
  • 彼得·里奇塔里克(Peter Richtárik)、埃尔努尔·加萨诺夫(Elnur Gasanov)、康斯坦丁·布拉琴科(Konstantin Burlachenko)。重新加载错误反馈:从平滑常数的二次平均值到算术平均值。第十二届国际学习代表大会(ICLR 2024)。[arXiv公司] [OpenReview(打开审阅)]
  • Hanmin Li、Avetik Karagulyan和Peter Richtárik。Det-CGD:具有矩阵步长的压缩梯度下降,用于非凸优化。第十二届国际学习代表大会(ICLR 2024)。[arXiv公司] [OpenReview(打开审阅)]




2024年5月1日

西班牙巴伦西亚AISTATS 2024

我正在前往西班牙巴伦西亚参加AISTATS 2024年会议。我们将发表两篇论文:
  • Ahmad Rammal、Kaja Gruntkowska、Nikita Fedin、Eduard Gorbunov和Peter Richtárik。拜占庭稳健学习的通信压缩:新的高效算法和改进的速率。第26届国际人工智能与统计大会(AISTATS 2024)。[arXiv公司]
  • 拉法·斯兹伦达克(RafałSzlendak)、埃尔努尔·加萨诺夫(Elnur Gasanov)和彼得·里奇塔里克(Peter Richtárik)。通过随机坐标下降框架了解渐进训练。第26届国际人工智能与统计会议(AISTATS 2024)。[arXiv公司]




2024年4月13日

回到KAUST

我回来了!




2024年4月8日

NOPTA 2024年

你好,来自比利时安特卫普。我将在2024年4月8日至12日为纪念鲍里斯·莫杜霍维奇75岁生日而举行的NOPTA 2024(非光滑优化和应用研讨会)上作一次全体演讲。到目前为止,我很喜欢这次谈话!




2024年3月14日

新论文

新出纸: “FedComLoc:稀疏和量化模型的高效通信分布式训练”-与Kai Yi、Georg Meinhardt和Laurent Condat联合工作。

摘要:联邦学习(FL)由于其独特的特性,即允许异构客户端在本地处理其私有数据并与中央服务器交互,同时尊重隐私,因此受到了越来越多的关注。外语教学的一个关键瓶颈是沟通成本。减轻这种负担的关键策略是局部训练,它涉及在通信阶段之间运行多个局部随机梯度下降迭代。我们的工作受到创新的Scaffnew算法的启发,该算法大大提高了FL中通信复杂性的降低。我们引入了FedComLoc(Federated Compressed and Local Training),将实用有效的压缩集成到Scaffnew中,以进一步提高通信效率。使用流行的TopK压缩器和量化进行了大量实验,证明了其在大幅度降低异构环境中通信开销方面的能力。




2024年3月11日

新论文

新出纸: “黎曼域中的流线化:具有无环方差减少的高效黎曼优化”-与尤里·德米多维奇(Yury Demidovich)和格里戈里·马利诺夫斯基(Grigory Malinovsky)联合工作。

摘要:在这项研究中,我们研究了黎曼流形上的随机优化,重点是在欧几里德和黎曼环境中使用的关键方差减少机制。黎曼方差缩减方法通常涉及一个双循环结构,在每个循环的开始计算一个完整的梯度。确定最佳内环长度在实践中是具有挑战性的,因为它取决于强凸性或光滑性常数,而这些常数通常是未知的或难以估计的。受欧几里德方法的启发,我们引入了黎曼无圈SVRG(R-LSVRG)和PAGE(R-PAGE)方法。这些方法用每次迭代中硬币翻转触发的概率梯度计算来代替外循环,确保了更简单的证明、高效的超参数选择和锐利的收敛保证。使用R-PAGE作为非凸黎曼优化的框架,我们证明了它对各种重要设置的适用性。例如,我们导出了具有通信压缩的分布式环境下的黎曼MARINA(R-MARINA),为黎曼流形上的非凸分布式优化提供了最佳的理论通信复杂性保证。实验结果支持我们的理论发现。




2024年3月7日

新论文

新出纸: “LoCoDL:通过本地培训和压缩实现高效通信的分布式学习”-与Laurent Condat和Artavazd Maranjyan联合工作。

摘要:在分布式优化和学习中,甚至在现代联合学习框架中,通信是至关重要的,因为通信速度慢且成本高。我们介绍了LoCoDL,这是一种高效的通信算法,它利用了两种流行且有效的技术:本地训练(可降低通信频率)和压缩(可发送短比特流,而不是全维浮点向量)。LoCoDL使用一大类无偏压缩器,其中包括广泛使用的稀疏化和量化方法。LoCoDL可证明受益于局部训练和压缩,并且在具有强凸函数的一般异构状态下,相对于函数的条件数和模型维度,具有加倍加速的通信复杂性。这在实践中得到了证实,LoCoDL优于现有算法。




2024年2月12日

新论文

新出纸: “在功能相似性下提高非凸分布优化的最坏情况双向通信复杂性”-与卡贾·格伦特科夫斯卡和亚历山大·图林联合工作。

摘要:服务器和工作人员之间的有效通信在分布式优化中起着关键作用。在本文中,我们将重点放在优化服务器到工作者的通信上,以发现流行的下行链路压缩方法的低效性。首先考虑到上行链路通信成本可以忽略不计的纯设置,我们引入了MARINA-P,这是一种新的下行链路压缩方法,使用了一组相关压缩器。理论分析表明,带有置换压缩器的MARINA-P可以实现服务器到工作机的通信复杂度随工作机数量的增加而提高,从而证明其优于现有算法。我们进一步表明,MARINA-P可以作为扩展的起点,例如支持双向压缩的方法。我们引入了M3,这是一种将MARINA-P与上行链路压缩和动量步长相结合的方法,可以实现双向压缩,并且随着工作人员数量的增加,总通信复杂度得到了可证明的改善。理论结果与实验结果紧密吻合,突出了所提算法的效率。




2024年2月7日

新论文

新出纸: “Shadowheart SGD:在任意计算和通信异构性下具有最佳时间复杂性的分布式异步SGD”-与Alexander Tyurin、Marta Pozzi和Ivan Ilin联合工作。

摘要:我们考虑异步集中式分布环境中的非凸随机优化问题,其中工作人员到服务器的通信时间不可忽略,并且所有工作人员的计算和通信时间可能不同。使用无偏压缩技术,我们开发了一种新的方法——阴影心SGD——可以证明它改进了所有以前集中式方法的时间复杂性。此外,我们还表明,在压缩通信的集中式方法家族中,Shadowheart SGD的时间复杂度是最优的。我们还考虑了双向设置,其中从服务器到工人的广播是不可忽略的,并开发了相应的方法。




2024年2月4日

四名新的研究实习生

一月/二月,几名研究实习生加入了我的团队:
  • 基里尔·阿查里亚(莫斯科物理技术研究所),
  • Robin Yadav(不列颠哥伦比亚大学),
  • Dymitr Lubczyk(阿姆斯特丹),
  • 西蒙·玛丽亚·詹科拉(博科尼大学)。
欢迎!




2024年2月3日

ICML 2024最后期限

ICML 2024论文提交截止日期已过;所有提交论文的人都应该休息一下!




2024年2月3日

ICML 2024最后期限

ICML 2024论文提交截止日期已过;所有提交论文的人都应该休息一下!




2024年1月30日

卡娅·格伦特考斯卡:新博士生!

今天,一名统计学博士生加入了我的团队:Kaja Gruntkowska(牛津理学硕士)。

卡娅于2022年夏天在我的实验室实习,当时是一名来自华威的本科生研究生。实习取得了丰硕成果;卡娅、亚历山大·泰林和我合著了一篇非常好的论文:“EF21-P和朋友们:通过双向压缩提高分布式优化的理论通信复杂性”,发表于ICML 2023。你可以在YouTube。

卡娅于2022年秋季加入牛津大学,成为理科硕士生,我指导了她的论文,其中一部分发表在另一篇非常好的论文中,“拜占庭稳健学习的通信压缩:新的高效算法和改进的速率”与Ahmad Rammal、Nikita Fedin和Eduard Gorbunov合著,最近被AISTATS 2024接受。

卡娅和我认为她进行第二次(这次是远程)实习是个好主意,这一努力最终变成了另一篇漂亮的论文:“在功能相似性下提高非凸分布式优化的最坏情况下双向通信复杂性”与Alexander Tyurin合著。

卡亚,欢迎!口袋里有三篇论文,这是开始攻读博士学位的好方法!




2023年1月21日

AISTATS 2024接受的论文


AISTATS公司

我们已经接受了两份文件第27届国际人工智能与统计会议(AISTATS 2024):

Ahmad Rammal、Kaja Gruntkowska、Nikita Fedin、Eduard Gorbunov和Peter Richtárik
拜占庭鲁棒学习中的通信压缩:新的高效算法和改进的速率
[arXiv]

拉法·斯兹伦达克、埃尔努尔·加萨诺夫和彼得·里奇塔里克
通过随机坐标下降框架理解渐进训练
[arXiv]


(*)我的成员优化与机器学习实验室在喀斯特。




2024年1月16日

2024年ICLR接受的文件


ICLR公司

我们已经接受了一些文件第十二届国际学习代表大会(ICLR 2024):

Kai Yi、Nidham Gazagnadou、Peter Richtárik和Lingjuan Lyu
FedP3:模型异质性下的个性化和隐私友好的联邦网络修剪
[OpenReview]

彼得·里奇塔里克、埃尔努尔·加萨诺夫和康斯坦丁·布拉琴科
误差反馈重新加载:从二次平滑常数到算术平均值
[OpenReview]

Hanmin Li、Avetik Karagulyan和Peter Richtárik
Det-CGD:基于矩阵步长的非凸优化压缩梯度下降
[arXiv]


(*)我的成员优化与机器学习实验室在KAUST。




2023年12月13日

新论文

新出纸: “Kimad:具有带宽意识的自适应梯度压缩”-与辛继浩、伊万·伊林、张顺康和马尔科·卡尼尼共同工作。

摘要:在分布式训练中,通信往往成为一个瓶颈。作为回应,我们引入了Kimad,一种提供自适应梯度压缩的解决方案。通过持续监控带宽,Kimad改进了压缩比,以匹配特定的神经网络层要求。我们详尽的测试和证明证实了Kimad的卓越性能,将其作为分布式深度学习自适应压缩的基准。




2023年12月9日

新奥尔良NeurIPS

我要去NOLA参加NeurIPS公司会议。我们将发表10篇论文(5篇在会议上,5篇在研讨会上);另外,我将在联合学习研讨会上做一次受邀演讲。




2023年12月4日

新论文

新出纸: “非同构加密使联合学习更好”-与Konstantin Burlachenko、Abdulmajeed Alrowithi和Fahad Ali Albalawi联合工作。

摘要:传统的人工智能方法需要集中收集数据,这在面临网络通信、数据隐私或存储容量问题时变得不切实际。联合学习(FL)提供了一种范式,它支持分布式人工智能模型训练,而无需收集原始数据。在外语培训期间提供隐私有不同的选择。流行的方法之一是使用同态加密(HE),这是密码学中隐私保护计算的一个突破。然而,这些方法以额外的计算和内存占用为代价。为了解决这些问题,我们提出了一个创新的框架,将基于置换的压缩器与经典密码术协同起来,尽管在过去的FL环境中,使用经典密码术被认为是不可能的。我们的框架提供了一种用更便宜的经典密码原语替换HE的方法,为训练过程提供了安全性。它促进异步通信,并在各种通信拓扑中提供灵活的部署选项。




2023年12月1日

新VS实习生:Anh Duc Nguyen

安德阮刚以VS实习生的身份加入我的团队,从今天开始,他将以远程身份与我们共事三个月。Anh Duc正在新加坡国立大学攻读数学与数据科学学士学位(荣誉)。

他参加了一个数学专业的特别课程,专为数学方面有强烈热情和高才能的学生设计。他在新加坡国立大学学习的课程包括:
  • 贝叶斯统计学和机器学习,
  • 在线学习理论与算法,
  • 高级数学规划,
  • 随机过程和算法,以及
  • 值得信赖的机器学习。

Anh Duc进行了关于
  • 对梅尔文·西姆(Melvyn Sim)非常满意,
  • 2023年夏季在EPFL与Volkan Cevher和Kimon Antonakopoulos的变分不等式分布式方法(正在编写第一作者论文),以及
  • Kim-Chuan Toh部分最优运输的加速随机梯度和双重外推方法(该论文正在审查中,为此他获得了国立大学杰出本科生研究奖)。

安·杜克最近被列入院长名单,这意味着他是新加坡国立大学科学学院前5%的学生之一。2021年7月,他参加了Uni Paris-Saclay的“巴黎数学夏令营”(由于Covid 19的缘故,距离较远),听取了从代数数论到数据分析等主题的讲座。他是新加坡国立大学数学协会(协调新加坡立方体锦标赛和新加坡国立大学学生数学奥林匹克问题赛等活动)的项目主管,也是新加坡国立大学CAC Fingerstyle(新加坡国立大学吉他爱好者俱乐部)的副总裁。




2023年11月30日

新论文

新出纸: “MAST:模型不可知论稀疏训练”-与Yury Demidovich、Grigory Malinovsky和Egor Shulgin联合工作。

摘要:我们引入了一种新的优化问题公式,它不同于传统的将机器学习模型损失最小化为黑盒函数的方法。与传统公式不同,该方法明确地结合了初始预训练模型和随机草图算子,允许在训练期间对模型和梯度进行稀疏化。我们建立了拟议目标函数的深刻属性,并强调了其与标准公式的联系。此外,我们提出了几种适用于新问题形式的随机梯度下降(SGD)方法变体,包括一般抽样的SGD、分布式版本和方差减少技术的SGD。我们实现了更严格的收敛速度和放松假设,缩小了理论原理和实际应用之间的差距,涵盖了几个重要的技术,如辍学和稀疏训练。这项工作为通过稀疏软件优化方法加强模型训练的理论理解提供了很好的机会。




2023年11月23日

新论文

新出纸: “拜占庭式稳健和部分参与可以同时实现:只需剪裁渐变差异”-与格里戈里·马利诺夫斯基、塞缪尔·霍瓦思和爱德华·戈尔布诺夫联合工作。

摘要:分布式学习已经成为训练大型机器学习模型的一种主要范式。然而,在实际场景中,参与者可能不可靠或怀有恶意,对训练模型的完整性和准确性提出了重大挑战。拜占庭容错机制是为了解决这些问题而提出的,但它们通常假设所有客户都能充分参与,由于一些客户不可用或通信限制,这并不总是可行的。在我们的工作中,我们提出了第一种分布式方法,包括客户抽样和可证明的拜占庭工人容忍度。所开发方法背后的关键思想是使用梯度剪裁来控制递归方差减少中的随机梯度差异。这使我们能够限制拜占庭工人造成的潜在危害,即使在所有抽样客户都是拜占庭的迭代期间也是如此。此外,我们在该方法中加入了通信压缩以提高通信效率。在相当一般的假设下,我们证明了所提方法的收敛速度与现有的最新(SOTA)理论结果相匹配。




2023年11月7日

镇上的新医生!

斯拉沃米尔·汉泽利为他的博士论文“机器学习的自适应优化算法”辩护。祝贺 你!!!

审查员:Eric Moulines、Martin Jaggi、Di Wang、Ajay Jasra和我自己。




2023年10月25日

新论文

新出纸: “基于一致性的截断噪声优化”-与Massimo Fornasier、Konstantin Riedl和Lukang Sun联合工作。

摘要:基于一致性的优化(CBO)是一种通用的多粒子元启发式优化方法,适用于执行高维非凸和非光滑全局优化。事实证明,它在各种应用中都是有效的,同时可以进行理论收敛分析。在本文中,我们探索了一种CBO变体,它包含截断噪声,以增强动力学定律统计的良好性能。通过在CBO动力学的噪声项中引入这种额外的截断,我们实现了与原始版本相比,粒子系统定律的更高矩可以有效地有界。因此,我们提出的变体表现出更强的收敛性能,特别是允许在选择方法参数时具有更大的灵活性,正如我们在实验中所证实的那样。通过分析相互作用粒子系统的经验测度与目标函数的全局极小值之间的Wasserstein-2距离的时间演化,我们严格证明了所提出的CBO变量的收敛性,该变量只需要对目标函数和初始化进行最小假设。数值证据清楚地证明了在CBO中截断噪声的好处。




2023年10月15日

新论文

新出纸: “拜占庭稳健学习的通信压缩:新的高效算法和改进的速率”-与Ahmad Rammal、Kaja Gruntkowska、Nikita Fedin和Eduard Gorbunov联合工作。

摘要:拜占庭式鲁棒性是某些分布式优化问题算法的一个基本特征,通常在协作/联合学习中遇到。这些问题通常是大规模的,这意味着通信压缩对于解决这些问题也至关重要。这些因素刺激了拜占庭压缩学习文献中最近的算法和理论发展。在本文中,我们从两个主要方向对这一研究领域作出贡献。首先,我们提出了一种新的带压缩的拜占庭旋转体方法——Byz-DASHA-PAGE,并证明了新方法具有更好的收敛速度(对于非凸和Polyak-Lojasiewicz光滑优化问题),在非均匀情况下邻域较小,与具有SOTA理论收敛保证的先前方法相比,在过参数化条件下,可以容忍更多拜占庭工人(Byz-VR-MARINA)。其次,我们开发了第一个具有通信压缩和错误反馈的拜占庭旋转体方法Byz-EF21及其双向压缩版本Byz-EF21-BC,并推导了这些方法在非凸和Polyak-Lojasiewicz光滑情况下的收敛速度。我们测试了所提出的方法,并在数值实验中说明了我们的理论发现。




2023年11月11日

Paul Magold博士外聘考试官

今天我参加了保罗·曼戈尔德作为外部审查员。在Aurélien Bellet、Marc Tommasi和Joseph Salmon的指导下,他在Inria Lille成功完成了博士论文答辩。




2023年10月10日

新论文

新出纸: “MARINA满足矩阵步长:方差减少分布式非凸优化”-与Hanmin Li和Avetik Karagulyan联合工作。

摘要:与标量算法相比,矩阵步长梯度下降算法在非凸优化中表现出更高的效率。由Li等人(2023)介绍的det-CGD算法利用矩阵步长以联邦方式对非凸目标和矩阵平滑问题执行压缩梯度下降。对于对称正定步长矩阵,作者在凸条件下建立了该算法收敛到加权平稳点邻域的算法。本文结合MARINA方法,提出了det-CGD算法的一个降方差版本。值得注意的是,我们从理论和实证上证明,det-MARINA在迭代和通信复杂性方面都优于MARINA和分布式det-CGD算法。

MARINA满足矩阵步长:方差减少的分布式非凸优化





2023年10月5日

TMLR接受的论文

报纸
  • Rustem Islamov、Xun Qian、Slavomír Hanzely、Mher Safaryan和Peter Richtárik。带通信压缩和贝努利聚集的分布式牛顿型方法,arXiv公司:2206.03588, 2022,
刚刚被接受机器学习研究汇刊.




2023年10月4日

新VSRP实习生:Timur Kharisov

今天我们欢迎帖木儿·哈利索夫作为新的VSRP实习生加入我们的团队。帖木儿正在莫斯科物理与技术学院(MIPT)攻读计算机科学和数学学士学位,之前曾与Aleksandr Beznosikov合作研究项目。帖木儿目前的GPA为9.14/10。

Timur同时在Yandex数据科学学院学习。2022年在Yandex实习期间,
  • 他曾在Alice虚拟助理的质量和场景团队工作(每月5000多万用户),
  • 调试了LSTM模型并添加了从最后一个检查点功能恢复,
  • 实现并发布语音助理呼叫场景的语法,
  • 将端到端Alice搜索应用程序的整体质量提高了0.4%以上。
2020年,帖木儿(Timur)在俄罗斯全国数学奥林匹克运动会(All-Russian National Olympaid In Mathematics)决赛中获得奖项。作为MIPT排名前5%的学生之一,他自2021年以来一直是阿布拉莫夫学术卓越奖学金的获得者。帖木儿的团队在2021年的数据工程“黑客与变革”黑客马拉松中(共60个团队)获得了#1的位置。

帖木儿在空闲时间
  • 在俄罗斯全国数学奥林匹克运动会莫斯科地区赛段担任评审团成员,
  • 喜欢教学/帮助学生在编程竞赛中取得优异成绩(在教育科技初创公司RocketClass中),
  • 为雅思写作自动评分编写NLP代码,
  • 编写可玩的控制台任务游戏,以及
  • 实现基于模板的类似STL的无序映射类。

帖木儿,欢迎!!!




2023年10月3日

新论文

新出纸: “带重尾噪声的组合和分布随机最小化及变分不等式的高概率收敛”-与Eduard Gorbunov、Abdurakhmon Sadiev、Marina Danilova、Samuel Horváth、Gauthier Gidel、Pavel Dvurechensky和Alexander Gasnikov联合工作。

摘要:近年来,在噪声的温和假设下,随机一阶优化方法的高概率分析受到了广泛关注。通常,当噪声很严重时,梯度裁剪是获得良好的高概率保证的关键算法成分之一。然而,如果天真地实现,即使在没有任何噪声的情况下,裁剪也会破坏常用的复合和分布式优化方法(Prox-SGD/Parallel SGD)的收敛性。由于这个原因,许多关于高概率分析的工作只考虑无约束非分布问题,现有的复合/分布问题的结果不包括一些重要的特殊情况(如强凸问题),并且不是最优的。为了解决这个问题,我们提出了基于随机梯度差剪裁的复合和分布式优化的新随机方法,并证明了新方法的高概率收敛结果(包括近似最优的结果)。利用类似的思想,我们还开发了复合变分不等式和分布变分不等式的新方法,并分析了这些方法的高概率收敛性。

具有重尾噪声的复合分布随机极小化和变分不等式的高概率收敛性





2023年10月3日

新VSRP实习生:Georg Meinhardt

乔治正在牛津大学攻读数学科学硕士学位,目前在该项目中排名第二。在他的研究中,他专注于概率、深度学习和组合学。

在此之前,Georg分别获得了波恩大学的两个理学学士学位:一个是数学,另一个是计算机科学。他专注于组合优化、算法设计和概率理论。在数学方面,他在同组中排名前3%。Georg是“德国沃尔克斯研究生”奖学金的获得者,该奖学金授予2%的顶尖学生杰出的学术潜力。

关于乔治的一些随机事实:
  • 2019年,他与人合著了一篇论文:I.Messaris、a.Ascoli、G.S.Meinhardt、R.Tetzlaff、L.O.Chua“使用双稳态类忆阻器的成员计算CNN”,2019年IEEE国际电路与系统研讨会(ISCAS),2019
  • 在牛津大学,他学习了“几何深度学习”(最终项目:神经算法推理中的转移学习)和“深度学习理论”(最后项目:修改BERT的注意头)
  • 他的硕士论文的题目是“N个事件中至少m个事件概率的分析下限”
  • 在他的理学学士论文中,他研究了车辆路径的分支和价格算法。论文标题:“分支和价格框架中车辆路径问题的下界”
  • 他会说汉语(约CEFR B1)和波兰语(CEFR A1)
  • 他喜欢划船(他是玛格丽特·霍尔女士划船俱乐部的成员)
  • 他是“欧洲青年联邦党”协会的成员
  • Georg是牛津大学EcoSync的“微型实习生”,在那里他担任初级数据和人工智能开发人员,负责深度学习时间序列预测(GluonTS)
  • 他还是柏林数据与分析公司Oliver Wyman的暑期实习生,在那里他致力于扩展一家大型澳大拉西亚银行的压力测试框架
  • 2016-2019年间,Georg在德累斯顿技术大学获得信息系统工程“Vordipolm”学位。他学习计算机科学和电气工程。
  • 乔治喜欢旅行、中提琴演奏、摄影和滑雪(也许他会在沙特拓展自己的滑雪技能?)
乔治,欢迎!!!




2023年9月28日

ICLR 2024年

向2024年国际解放卢旺达民主力量提交文件的截止日期已过;我和我的团队提交了一些论文。让我们看看结果如何。




2023年9月26日

SIMODS接受的论文

报纸
  • 赵浩宇、康斯坦丁·布拉琴科、李志泽和彼得·里奇塔里克。通过减少客户端变量加快压缩联合学习的速度,arXiv公司:2112.13097, 2021,
被SIAM数据科学数学杂志(SIMODS)录取。




2023年9月25日

RDIA公司

我已经申请了RDIA拨款。研究、发展和创新局(RDIA)是沙特阿拉伯新成立的资助机构。




2023年9月24日

TMLR接受的文件

报纸
  • 亚历山大·泰林(Alexander Tyurin)、孙路康(Lukang Sun)、康斯坦丁·布拉琴科(Konstantin Burlachenko)和彼得·里奇塔里克(Peter Richtárik)。具有客户端和数据采样的非加密SGD的更高费率和灵活框架,arXiv:2206.02275, 2022,
被机器学习研究事务(TMLR)接受。




2023年8月21日

JOTA接受的文件

报纸
  • 艾哈迈德·哈利德(Ahmed Khaled)、奥斯曼·塞布(Othmane Sebbouh)、尼古拉斯·洛伊苏(Nicolas Loizou)、罗伯特·高威尔(Robert M.Gower)和彼得·里奇塔里克(Peter Richtárik)。组合凸光滑优化随机梯度法的统一分析,arXiv:2006.11573年, 2020,
被《优化理论与应用杂志》(JOTA)收录。




2023年8月16日

新的硕士/博士生:Artem Riabinin

Artem Riabinin是我实验室的一名新的硕士/博士生,即将于8月16日抵达科大!阿特姆曾就读于莫斯科国立罗蒙诺索夫大学物理系数学系,GPA为4.88/5.00。他过去的研究兴趣和经验在于应用数学,包括数值方法、逆问题及其应用。例如,他参与了激光雷达获得的图像的处理。

阿特姆开发并提供了两门课程,旨在培训学生参加全俄罗斯奥林匹克物理实验赛。

阿特姆在各种比赛中的成功:
  • 2019年物理奥林匹克运动会(获胜者)
  • 2018年物理奥林匹克数学竞赛(获奖者)
  • 2018年诺夫哥罗德城市物理奥林匹克运动会(第二名)
  • 2018年全俄罗斯物理奥林匹克区域赛(获奖者)
阿特姆,欢迎加入球队!




2023年8月14日

新博士生:Arto Maranjyan

阿塔瓦兹德·马兰吉扬刚到科大,他将以博士生的身份加入我的团队。他是久负盛名的科大院长奖(每年6000美元的奖金,是对本已慷慨的科大奖学金的额外奖励,奖励给科大少数最优秀的新生)的获得者。

阿尔托拥有埃里温州立大学应用统计和数据科学硕士学位。他的硕士论文题为关于当地培训方法基于联合文件2022年下半年,他在我的博士后Mher Safaryan和我本人的共同监督下,在科大实习期间工作。在此之前,阿尔托获得了埃里温州立大学信息学和应用数学学士学位。他的理学学士论文“关于经典系统中级数的收敛性由Martin Grigoryan监督。阿尔托因这篇论文获得了杰出最终项目奖(在250多名学生中授予6名学生)。

阿尔托在博士学位开始前合著了4篇论文:
  • 马丁·格里戈里安(Martin Grigoryan)、安娜·卡蒙特(Anna Kamont)、阿塔瓦兹德·马兰吉安(Artavazd Maranjyan)。定域算子序列发散集的Menshov型定理,《当代数学分析杂志》,第58卷,第2期,第81–92页,2023年。
  • Artavazd Maranjyan、Mher Safaryan、Peter Richtárik。GradSkip:具有更好计算复杂性的通信加速局部梯度方法,arXiv:2210.164022022。
  • 马丁·格里戈里安(Martin Grigoryan)、阿塔瓦兹德·马兰吉安(Artavazd Maranjyan)。《关于一般Haar系统中傅里叶级数的发散性》,《亚美尼亚数学杂志》,第13卷,第1-10页,2021年9月。
  • 里格兰·格里戈里安(Rigran Grigoryan)、阿塔瓦兹德·马兰吉安(Artavazd Maranjyan)。关于Faber-Schauder级数在L1中的无条件收敛,《YSU学报A:物理和数学科学》,第55卷,第1期(254),第12-19页,2021年。
阿尔托,欢迎加入球队!




2023年8月2日至21日

NeurIPS“假期”

我八月份的大部分时间都花在写NeurIPS反驳和NeurIPS区域主席的工作上。这是一个多么好的消夏方式啊。夏威夷遥遥领先。




2023年8月10日

数值数学

我接受了加入的邀请编辑委员会属于数值数学.




2023年7月22日

夏威夷奥阿胡ICML

我将离开旧金山前往火奴鲁鲁参加2023年ICML。KAUST有一个摊位,所以请过来看看!我们在活动中有10篇论文:2篇会议论文和8篇研讨会论文。

会议:
研讨会:
我团队的几个成员也出席了会议,包括Avetik Karagulyan、Yury Demidovich、Samuel Horváth、Slavomír Hanzely、Egor Shulgin、Igor Sokolov,以及前实习生和上述两篇论文的合著者Kaja Gruntkowska和Ilyas Fatkhullin。

我们都玩得很开心。我在夏威夷的最后一天摔断了手,把我宠坏了。手需要2个月才能愈合。




2023年7月19日

伯克利联合与协作学习研讨会

我正在参加联合学习和协作学习研讨会由约翰·杜奇(John Duchi)、尼卡·哈塔拉布(Nika Haghtalab)、彼得·凯鲁兹(Peter Kairouz)、弗吉尼亚·史密斯(Virginia Smith)、纳蒂·斯雷布罗(Nati Srebro)和库纳尔·塔瓦尔(Kunal Talwar。我的演讲是在活动的第二天。这是在申请西蒙斯学院为期一个学期的联合学习项目之前的范围界定活动。




2023年7月9日

东欧机器学习(EEML)暑期学校

我是EEML公司这场比赛将于2023年7月10日至15日在美丽的斯洛伐克科希策举行。

东欧机器学习(EEML)暑期学校是一个为期一周的暑期学校,围绕机器学习和人工智能的核心主题。暑期学校包括讲座和实践课程(实验室),以提高对这些主题的理论和实践理解。这所学校是用英语组织的,特别针对研究生,尽管它对任何对这个主题感兴趣的人都开放。




2023年7月1日

亚美尼亚埃里温之旅

我正在前往埃里温亚美尼亚参加会议亚美尼亚数学:进展与展望这是为了庆祝亚美尼亚国家科学院成立80周年。我将在7月5日作一次全体会议讲话。

我团队的几个成员也在进行演讲。
  • Abdurakhmon Sadiev,随机优化和变分不等式的高概率界:无界方差的情况
  • 埃戈尔·舒尔金(Egor Shulgin),对独立子网的更好理论理解培训
  • Slavomír Hanzely,一种具有低秩更新和全局O(1/k^2)收敛速度的二阶优化方法
  • Avetik Karagulyan,ELF:具有Primal、Dual和Bidirectio的联合Langevin算法-nal压缩
  • Grigori Malinovskii,第五代本地培训方法能否支持客户抽样?对!
  • Artavazd Maranjyan,GradSkip:具有更好计算复杂性的通信加速局部梯度方法




2023年6月28日

新论文

新出纸: “提高对独立子网培训的理论理解”-与…联合工作埃戈尔·舒尔金.

摘要:如果没有数据并行分布式计算的范例,大规模机器学习的现代进步是不可能实现的。由于具有大规模模型的分布式计算给通信信道带来了过大的压力,因此最近的重要研究致力于共同设计通信压缩策略和训练算法,以降低通信成本。虽然纯数据并行允许更好的数据缩放,但它的模型缩放属性较差。事实上,计算节点受到内存限制的严重限制,阻止了模型大小的进一步增加。因此,训练巨型神经网络模型的最新成果也依赖于某种形式的模型并行性。在这项工作中,我们对独立子网训练(IST)进行了更深入的理论研究,这是一种最近提出的解决上述问题的高效技术。我们确定了IST和其他方法(如具有压缩通信的分布式方法)之间的基本差异,并在二次模型上对其优化性能进行了精确分析。

提高对独立子网培训的理论认识





2023年6月15日

阿美球场终场

我为阿美MS学生开设了为期四天的机器学习入门课程(6月15日至18日)。这是为期48小时的强化课程的后半部分,为期8天。




2023年6月5日

新论文

新出纸: “通过压缩和重要性抽样改进加速联合学习”-与…联合工作米夏·格鲁泽恩、和格里戈里·马利诺夫斯基.

我们发现了如何在一种方法中正确地将本地训练、客户端采样和通信压缩相结合。

通过压缩和重要性抽样改进加速联合学习





2023年6月4日

阿美球场中场休息

经过整整4天的教学(6月1日至4日),我还有一周的时间准备进一步的最后4天。这是一个为期48小时的密集课程,为期8天。




2023年5月31日

阿美石油公司教学

在我去的路上达曼!我在KAUST为沙特阿美选定的员工提供的数据科学硕士课程中教授“机器学习入门”课程。我的助教:Alexander Tyurin和Rafal Szlendak。从明天开始,连续四天教学。有一些断裂。然后又过了四天。将会很有趣。会很累的。




2023年5月30日

新论文

新出纸: “Clip21:渐变剪辑的错误反馈”-与…联合工作萨里特·基里拉特,爱德华·戈尔布诺夫,塞缪尔·霍瓦思,鲁斯特姆·伊斯兰诺夫,法赫里·卡雷.

我们找到了如何纠正梯度剪裁引起的错误。

Clip21:渐变剪裁的错误反馈





2023年5月29日

新论文

新出纸: “Global-QSGD:具有理论保证的分布式学习的实用无浮点量化”-与共同工作Jihao Xin公司,马可·卡尼尼塞缪尔·霍瓦思.

我们发现了如何使梯度量化的所有减少友好。

Global-QSGD:具有理论保证的分布式学习的实用无浮点量化





2023年5月28日

背面@KAUST

我现在回到了喀斯特。最大的新闻:我的办公室里有一块新的玻璃白板,覆盖了整面墙。令人惊叹的!




2023年5月26日

对话@斯洛伐克科学院

一周后,我再次访问斯洛伐克科学院信息学研究所。他们似乎对联合学习很感兴趣。




2023年5月25日

新论文

新出纸: 《偏见新加坡动物园指南》-与…联合工作尤里·德米多维奇,格里戈里·马利诺夫斯基伊戈尔·索科洛夫.

偏见SGD动物园指南





2023年5月24日

新论文

新出纸: “功能罕见时错误反馈闪耀”-与…联合工作埃尔努尔·加萨诺夫康斯坦丁·布拉琴科.

功能罕见时错误反馈闪亮





2023年5月24日

新论文

新出纸: “动量显著改善了错误反馈!”-与…联合工作伊利亚斯·法特胡林亚历山大·泰林.

动量显著改善错误反馈!





2023年5月23日

Talk@苹果

今天我要在苹果公司做一个演讲,针对的是他们的联合学习团队。我的演讲题目是:“论联合学习中的第五代地方培训方法”。

我的演讲。
这是幻灯片。




2023年5月22日

新论文

新出纸: “显性个性化和本地培训:联合学习中的双重交流加速”-与…联合工作凯伊劳伦特·康达特.

显性个性化和局部训练:联合学习中的双重交流加速





2023年5月21日

新论文

新出纸: “固定计算模型下并行随机优化方法的最优时间复杂性”-与…联合工作亚历山大·泰林.

固定计算模型下并行随机优化方法的最优时间复杂性





2023年5月21日

新论文

新出纸: “双向通信压缩:理论上更快的分布式训练”-与…联合工作亚历山大·泰林.

双向:双向通信压缩理论上更快的分布式训练





2023年5月21日

新论文

新出纸: “Det-CGD:用于非凸优化的矩阵步长压缩梯度下降”-与…联合工作李汉敏和Avetik Karagulyan公司.

Det-CGD:基于矩阵步长的非凸优化压缩梯度下降





2023年5月19日

对话@斯洛伐克科学院

我正在斯洛伐克科学院信息学研究所做研究研讨会演讲。




2023年5月17日

NeurIPS 2023最后期限

完成我们的提交!之后我需要睡24小时。。。




2023年5月15日

研究讲座@KInIT

今天,我在肯佩伦智能技术研究所(KInIT)斯洛伐克布拉迪斯拉发。我将讨论优化中自适应步长的一些新结果。




2023年5月14日

KAUST考试周

今天是科大考试周。我的联合学习(CS 331)班的学生正在完成他们的项目报告。




2023年4月29日

卢旺达基加利ICLR 2023

我将前往卢旺达基加利参加ICLR 2023。我团队中的几个人也将前往,包括劳伦特·康达特、亚历山大·泰林、埃戈尔·舒尔金、斯拉沃米尔·汉泽利,以及前成员塞缪尔·霍瓦思、爱德华·戈布诺夫、阿迪尔·萨利姆和艾哈迈德·哈立德。

我们将发表三篇论文:1)DASHA公司, 2)Byz-MARINA公司、和3)RandProx公司.

更新:我见过山地大猩猩!




2023年4月23日

对话@高通AI Research

今天晚些时候,我将在高通AI research的DistributedML研讨会上发表研究演讲。




2023年3月8日

新论文

新出纸: “ELF:具有原始、双重和双向压缩的联合Langevin算法”-与…联合工作Avetik Karagulyan公司.

摘要:最近,联合采样算法在机器学习和统计领域得到了广泛的应用。本文研究了这种算法的变体,称为误差反馈Langevin算法(ELF)。特别是,我们分析了EF21和EF21-P与联合Langevin Monte-Carlo的组合。我们提出了三种算法:P-ELF、D-ELF和B-ELF,它们分别使用原始、对偶和双向压缩器。我们在Log-Sobolev不等式下分析了所提出的方法,并提供了非渐近收敛保证。




2023年2月20日

新论文

新出纸: “TAMUNA:通过本地培训和部分参与加速联合学习”-与…联合工作劳伦特·康达特格里戈里·马利诺夫斯基.

摘要:在联合学习中,大量用户以协作的方式参与全球学习任务。它们交替进行本地计算并与远程服务器通信。通信速度慢且成本高,是这种环境下的主要瓶颈。为了加速分布式梯度下降,本地训练的流行策略是减少通信频率;即,在通信步骤之间执行局部计算的多次迭代。Mishchenko等人最近在这一领域取得了突破。(2022):他们的Scaffnew算法是第一个可能受益于本地训练的算法,具有加速的通信复杂性。然而,要知道Scaffnew背后的强大机制是否与部分参与兼容,这是一个开放且具有挑战性的问题,并非所有客户都需要参与每一轮培训过程。我们积极回答了这个问题,并提出了一种新的算法,该算法处理本地训练和部分参与,具有最先进的通信复杂性。




2023年2月1日

新研究实习生:Dinis Seward(牛津)

迪尼斯·道格拉斯·格雷罗·苏厄德刚刚加入我们的团队VSRP实习生迪尼斯在牛津大学攻读数学建模和科学计算硕士学位。在此之前,他获得了葡萄牙里斯本大学应用数学学士学位。

除了数学和优化,迪尼斯还对图论、数学生物学和人工智能感兴趣。迪尼斯的众多成就包括:
  • 2021年圣彼得大学基金会研究生奖(用于支付研究生学习期间的费用)
  • 2019-2020年Calouste Gulbenkian基金会人工智能新人才奖学金(10个月的研究奖学金授予全国8名在人工智能领域具有研究潜力的BSc学生。)
  • 2019年IGC暑期学校奖学金
  • 2019年杰出学习成绩优异文凭(因2017-18学年的杰出学习成绩而颁发)
  • 2018年伊拉斯谟+奖学金(由欧盟委员会授予伊拉斯谟+交流项目录取的学生)
  • 2017-2018年Calouste Gulbenkian基金会数学新人才奖学金(10个月的研究奖学金授予全国20名有志攻读数学背景强的理学学士学位的学生)
  • FCIENCIAS公司。ID奖-荣誉奖(授予里斯本大学Faculdade Ciencias da Universidade de Lisboa理学学士学位第一年的最佳学生)
  • 学术功绩奖学金(包括一年学费的奖学金。2016-2017学年因学业表现优异而授予)
  • 2018年优秀文凭(2016-17学年因优异的学术表现而获得)




2023年2月8日

新论文

新出纸: “定期客户参与的联合学习”-与共同工作格里戈里·马利诺夫斯基,塞缪尔·霍瓦思、和康斯坦丁·布拉琴科.

摘要:联合学习(FL)是一种分布式机器学习方法,多个客户端协同工作以解决机器学习任务。外语教学中的一个关键挑战是部分参与问题,当大量客户参与培训过程时就会出现这一问题。解决此问题的传统方法是在每轮通信中随机选择一个子集的客户端。在我们的研究中,我们提出了一种新的技术,并设计了一种新颖的正则化客户参与方案。在这个方案下,每个客户端在每轮R通信中都加入学习过程,我们称之为元纪元。我们发现,这种参与计划可以减少客户抽样引起的方差。结合流行的FedAvg算法(McMahan等人,2017年),它在标准假设下产生了更高的利率。例如,我们的主收敛界中的优化项随通信轮数和每个客户端的本地数据集大小的乘积线性减小,而统计项随步长的平方而不是线性缩放(客户端采样替换的情况),与O(1/T)相比,O(1/T^2)的收敛速度更好,其中T是通信轮次的总数。此外,我们的结果允许任意客户端可用性,只要每个客户端在每个元纪元中都可以进行一次培训。。




2023年2月2日

新论文

新出纸: “随机优化和变分不等式的高概率界:无界方差的情况”-与…联合工作阿卜杜拉赫蒙·萨迪耶夫,玛丽娜·达尼洛娃,爱德华·戈尔布诺夫,塞缪尔·霍瓦思,加泰尔·吉德尔,帕维尔·德夫勒琴斯基亚历山大·加斯尼科夫.

摘要:近年来,优化和机器学习社区对随机优化方法的高概率收敛性越来越感兴趣。其中一个主要原因是,高概率复杂度边界比预期边界更准确,研究更少。然而,SOTA的高概率非渐近收敛结果是在梯度噪声方差或目标梯度本身有界等强假设下得出的。在本文中,我们提出了几种在较少限制的假设下具有高概率收敛结果的算法。特别地,我们在假设梯度/算子噪声在以下设置中对α∈(1,2]具有有界中心α-阶矩的情况下,导出了新的高概率收敛结果:(i)光滑非凸/Poliak Lojaseewicz/凸/强凸/拟强凸最小化问题,(ii)Lipschitz/星强制和单调/准单调变分不等式。这些结果证明了使用所考虑的方法来解决不符合随机优化中研究的标准函数类的问题是正确的。




2023年1月26日

ICML 2023截止日期

这个ICML 2023年截止日期是今天,我们都在为赢得夏威夷的门票而努力!




2023年1月25日

新博士生:Ivan Ilin

伊万·伊林(Ivan Ilin)将于2023年春季以博士生身份加入我的团队。他今天到达了喀斯特!

Ivan在物理自动化专业学习BS和MS课程和技术研究新西伯利亚国立大学自2017年起。据《美国新闻》报道,新西伯利亚州立大学在俄罗斯排名第五,继罗蒙诺索夫莫斯科国立大学(1)、莫斯科物理与技术学院(2)、国立核研究大学MEPhI(3)之后,和国立研究型大学高等经济学院(4),托木斯克州立大学(6),塞奇诺夫第一莫斯科国立医学院大学(7)、圣彼得堡州立大学(8)、彼得大圣彼得堡理工大学(9)、ITMO大学(10)、,和斯科尔科沃科学技术学院(11)。

他的工作经历包括:
  • 2020年,俄罗斯新西伯利亚,布德克核物理研究所本科生研究助理
  • 自2020年起担任俄罗斯新西伯利亚ExpaSoft深度学习初级研究员
  • 2018-2019年俄罗斯新西伯利亚Lavrentyev流体动力学研究所
到目前为止,Ivan一直对ML和DL感兴趣,尤其是在这些主题上:图像生成和识别、NLP、,语音生成、ML和DL在游戏中的应用、基础和高级三维图形生成、物理模拟、,游戏设计、manim或其他库的高级编程动画、产品和小工具设计、广告。

2016-2017年,伊万在新加坡/俄罗斯国际青年物理学家锦标赛中担任俄罗斯队队长。

Ivan的链接:伊凡写了几篇文章,可以在他的网站上的“Моистатииасскеаани”部分找到。

伊凡,欢迎来到科大和团队!!!




2023年1月22日

新學期

科大2023年春季学期今天开学。我在教CS 332:联合学习。




2023年1月21日

AISTATS 2023和ICLR 2023接受的论文


我们已经收到好几份文件第26届国际人工智能与统计会议(AISTATS 2023)第十一届国际学习代表大会(ICLR 2023).它们在这里:


AISTATS公司
米夏·格鲁泽恩*,格里戈里·马利诺夫斯基*和彼得·里奇塔里克
第五代本地培训方法能否支持部分客户参与?对!
接受AISTATS 2023[arXiv]

孙璐康*,Avetik Karagulyan公司*和彼得·里奇塔里克
弱光滑条件下Stein变分梯度下降的收敛性
接受AISTATS 2023[arXiv]

荀谦*,汉泽洞,张彤(音译)和彼得·里奇塔里克
错误补偿方法的催化剂加速导致更好的通信复杂性
接受AISTATS 2023[arXiv]


ICLR公司
亚历山大·泰林*和彼得·里奇塔里克
DASHA:具有通信压缩和最优Oracle复杂性的分布式非凸优化
ICLR 2023接受[arXiv] [OpenReview]

爱德华·戈尔布诺夫*,塞缪尔·霍瓦思*,加泰尔·吉德尔和彼得·里奇塔里克
减少差异是拜占庭人的解药:更好的利率、更弱的假设和沟通压缩,如同樱桃树在顶端
接受ICLR 2023[arXiv] [OpenReview]

劳伦特·康达特*和彼得·里奇塔里克
RandProx:具有随机近似更新的原对偶优化算法
接受ICLR 2023[arXiv] [公开评审]


(*)我的成员优化与机器学习实验室在KAUST。




2023年1月20日

访问莱斯大学

我正在给一个CMOR专题讲座今天在莱斯大学,与包括马时谦、阿纳斯塔西奥斯(塔索斯)·基里利迪斯、塞巴斯蒂安·佩雷兹·萨拉查、马蒂亚斯·海因肯施洛斯、埃里克·池、吴京峰、,塞萨尔·A·乌里韦、滕·张和伊利亚·希克斯。期待对话!




2023年1月17日

新论文

新出纸: “Moreau包络元学习的一阶算法的收敛性”-与…联合工作康斯坦丁·米什琴科斯拉沃米尔·汉泽利.

摘要:在这项工作中,我们考虑了最小化给定函数的Moreau包络和的问题,这在元学习和个性化联合学习的背景下已经出现过。与现有的理论不同,该理论要求在达到一定精度之前运行亚沉器,我们只假设在每次迭代时采取有限数量的梯度步骤。作为一个特例,我们的理论允许我们证明一阶模型-认知元学习(FO-MAML)在Moreau目标解附近的收敛性。我们还研究了一类更一般的一阶算法,可以将其视为FO-MAML的推广。我们的主要理论成果是对不精确的SGD框架的理论改进。特别是,我们的扰动-迭代分析允许更严格的保证,以改善对问题条件的依赖性。与元学习的相关工作相比,我们不需要对Hessian光滑性进行任何假设,并且可以利用基于Moreau包络的重构的光滑性和凸性。此外,为了填补FO-MAML与隐式MAML(iMAML)比较中的空白,我们证明了iMAML的目标既不是光滑的,也不是凸的,这意味着基于现有理论,它没有收敛保证。




2023年1月6日

TMLR接受的纸张

报纸非凸世界中SGD的更好理论,与合作艾哈迈德·哈利德,已被接受TMLR公司我已经在科大的CS331(随机梯度下降法)课程中教授了这篇论文的关键结果几年了!




2022年12月29日

新论文

新出纸: “第五代本地培训方法能否支持客户抽样?是的!”-与…联合工作米夏·格鲁泽恩格里戈里·马利诺夫斯基.

摘要:McMahan等人(2017)著名的FedAvg算法基于三个组件:客户端采样(CS)、数据采样(DS)和本地训练(LT)。虽然前两个部分已经被很好地理解,但第三个部分的作用是减少训练模型所需的通信轮数,它抵制了所有试图获得令人满意的理论解释的尝试。Malinovsky等人(2022)根据所提供的理论通信复杂性保证的质量,确定了四代不同的LT方法。尽管在这一领域取得了很多进展,但现有的研究中没有一项能够证明,在重要的异构数据体系中,采用多个局部梯度类型的步骤(即进行LT)在理论上比仅依赖单个局部梯度类型步骤更好。Mishchenko等人(2022年)最近在ProxSkip方法及其理论分析中取得的突破表明,LT确实能为任意异构数据带来可证明的通信加速,从而启动了第五代LT方法。然而,尽管这些最新一代LT方法与DS兼容,但它们都不支持CS。我们肯定地解决了这个悬而未决的问题。为了做到这一点,我们必须将我们的算法开发建立在新的算法和理论基础之上。




2022年12月13日

休假

我休假到年底。这包括世界杯第三名的比赛!




2022年12月3日

参加新加坡“大数据时代的优化”研讨会

我将飞往新加坡(我有史以来第一次!)参加大数据时代的优化新加坡国立大学数学科学研究所举办的研讨会通过斯蒂芬·莱特(威斯康星大学),击败太阳(香港理工大学)和金川多(Kim Chuan Toh)(新加坡国立大学)。这项活动早就计划好了,但由于Covid 19的情况而推迟了。现在终于发生了!




2022年11月26日

新奥尔良NeurIPS 2022

我实验室的几个成员正在参加第36届神经信息处理系统年会(NeurIPS 2022)在新奥尔良。我们接受了12份论文。此外,我们提交了3份研讨会论文。

我们的NeurIPS 2022会议论文:


科大优化与机器学习实验室
1) “双线性耦合的光滑和凹凸鞍点问题的加速原-对偶梯度法” [arXiv]-与…联合工作德米特里·科瓦列夫(*)亚历山大·加斯尼科夫.

2) “光滑强凸强凹极小极大优化的第一个优化算法” [arXiv]-的工作德米特里·科瓦列夫(*)亚历山大·加斯尼科夫.

3) “阻尼牛顿法实现全局$O(1/k^2)$和局部二次收敛速度”-与…联合工作斯拉沃米尔·汉泽利(*) 德米特里·坎佐洛夫 德米特里·帕森纽克 亚历山大·加斯尼科夫、和马丁·塔卡奇.

4) “方差减少ProxSkip:算法、理论和在联合学习中的应用” [arXiv]-与…联合工作格里戈里·马利诺夫斯基(*)启毅(*).

5) “利用平滑软件量化技术实现理论上更好、数值上更快的分布式优化” [arXiv]-与共同工作Bokun Wang(*)Mher Safaryan(*).

6) “通过带有不精确Prox的加速原对偶算法加速局部梯度方法的通信” [arXiv]-与共同工作阿卜杜拉赫蒙·萨迪耶夫(*)德米特里·科瓦列夫(*).

7) “具有理论保证的求解变分不等式的压缩通信分布式方法” [arXiv]-与…联合工作亚历山大·贝兹诺西科夫,迈克尔·迪斯金,马克斯·瑞亚宾亚历山大·加斯尼科夫.

8) “BEER:使用通信压缩实现分散非凸优化的快速$O(1/T)$速率” [arXiv]-与…联合工作赵浩宇,李博岳,李志泽(*)池月杰.

9) “光滑凸优化中高阶方法的第一次最佳加速” [arXiv]-的工作德米特里·科瓦列夫(*)亚历山大·加斯尼科夫.

10) “最优梯度滑动及其在相似条件下最优分布优化中的应用” [arXiv]-的工作德米特里·科瓦列夫(*),亚历山大·贝兹诺西科夫,叶卡捷琳娜·博罗迪奇,亚历山大·加斯尼科夫Gesualdo Scutari公司.

11) “分散随机变分不等式的优化算法” [arXiv]-与…联合工作德米特里·科瓦列夫(*),亚历山大·贝兹诺西科夫,阿卜杜拉赫蒙·萨迪耶夫(*),迈克尔·佩西亚诺夫亚历山大·加斯尼科夫.

12) “EF-BV:有偏和无偏压缩的误差反馈和方差减少机制的统一理论分布式优化” [arXiv]-与…联合工作劳伦特·康达特(*)启毅(*).



(*)我在科大的优化和机器学习实验室的成员。



我们的NeurIPS 2022研讨会论文:

13) “联合学习中的认证健壮性”@联合学习NeurIPS 2022研讨会 [arXiv]-与…联合工作莫塔塞姆·阿尔法拉,胡安·佩雷斯,埃戈尔·舒尔金、和伯纳德·加尼姆

14) “具有通信压缩和伯努利聚合的分布式牛顿型方法”@HOOML NeurIPS 2022研讨会 [arXiv]-与…联合工作鲁斯特姆·伊斯兰诺夫,荀谦,斯拉沃米尔·汉泽利、和Mher Safaryan先生.

15) “RandProx:具有随机近似更新的原始-对偶优化算法”@OPT NeurIPS 2022研讨会 [arXiv]-与…联合工作劳伦特·康达特.





2022年11月16日

在沙特阿美任教

刚刚抵达阿拉伯湾沿岸的沙特阿拉伯城市Al Khobar。我将在一个今年开始的KAUST-Aramco MS项目。我的博士生伊戈尔·索科洛夫格里戈里·马利诺夫斯基作为助教和我在一起。四整天的教学(每天6小时),然后四天11月底会有更多。应该很有趣!




2022年11月9日至10日

参加2022年联合学习和分析研讨会

与往年一样,今年我再次被邀请参加由谷歌联合学习团队组织的研讨会,题为“2022年联合学习和分析研讨会”。虽然这是一个邀请活动,但我可以分享我的幻灯片。






2022年11月2日

在沙特阿美任教

刚刚抵达阿拉伯湾沿岸的沙特阿拉伯城市Al Khobar。我将在今年开始的KAUST-Aramco MS项目。我的博士生伊戈尔·索科洛夫格里戈里·马利诺夫斯基作为助教和我在一起。四整天的教学(每天6小时),然后四天11月底会有更多。应该很有趣!




2022年10月31日

新论文

新出纸: “通信高效分布式训练的自适应压缩”-与…联合工作马克西姆·马卡伦科,埃尔努尔·加萨诺夫,鲁斯特姆·伊斯兰诺夫、和阿卜杜拉赫蒙·萨迪耶夫.

摘要:我们提出了自适应压缩梯度下降(AdaCGD)——一种新的优化算法,用于具有自适应压缩级别的监督机器学习模型的通信效率训练。我们的方法受到Richtarik et al.(2022)最近提出的三点压缩器(3PC)框架的启发,该框架包括误差反馈(EF21)、延迟聚合梯度(LAG)及其组合作为特殊情况,并在较弱的假设下为这些方法提供了当前最先进的速率。虽然上述机制提供了一个固定的压缩级别,或者只在两个极端之间进行调整,但我们的建议是进行更精细的调整。特别是,我们允许用户选择任意数量的任意选择的压缩机制,例如用户定义的稀疏化级别K的Top-K稀疏化,或用户定义的量化级别选择的量化,或其组合。AdaCGD在优化过程中自适应地选择合适的压缩机和压缩级别。除了i)提出一种基于理论的多自适应通信压缩机制外,我们还进一步ii)将3PC框架扩展到双向压缩,即我们允许服务器也进行压缩,以及iii)在强凸、凸和非凸设置中提供尖锐的收敛边界。即使对于一般机制的几个关键特殊情况,包括3PC和EF21,凸区域结果也是新的。在所有情况下,我们的速率都优于所有现有的自适应压缩方法。




2022年10月31日

新论文

新出纸: “阻尼牛顿法实现全局O(1/k^2)和局部二次收敛速度”-与…联合工作斯拉沃米尔·汉泽利,德米特里·坎佐洛夫,德米特里·帕森纽克,亚历山大·加斯尼科夫、和马丁·塔克.

摘要:在本文中,我们给出了牛顿法的第一步长调度,从而保证了快速全局和局部收敛。特别是,a)我们证明了$O(1/k^2)$全局速率,它与Polyak和Nesterov(2006)的三次正则化牛顿方法以及Mishchenko(2021)和Doikov和Nestero(2021,这与二阶方法中最著名的局部速率相匹配,并且c)我们的步长公式简单、明确,不需要求解任何子问题。我们的收敛证明在与自一致性概念密切相关的仿射不变性假设下成立。最后,与具有相同快速全局收敛保证的现有基线相比,我们的方法具有竞争力。




2022年10月28日

新论文

新出纸: “GradSkip:具有更好计算复杂性的通信加速局部梯度方法”-与…联合工作阿塔瓦兹德·马兰吉扬Mher Safaryan先生.

摘要:在这项工作中,我们研究了分布式优化算法,该算法通过允许客户端在每轮通信中执行多个局部梯度步骤来降低同步的高通信成本。最近,Mishchenko等人(2022年)提出了一种新的局部方法,称为ProxSkip,该方法在没有任何数据相似性条件的情况下具有加速的通信复杂性。然而,他们的方法要求所有客户以相同的频率调用局部梯度预言。由于统计上的异质性,我们认为有条件良好的局部问题的客户应该比有条件不佳的局部问题客户更少地计算其局部梯度。我们的第一个贡献是将原始的ProxSkip方法扩展到允许客户端在每个通信回合中执行不同数量的局部梯度步骤的设置。我们证明了我们的改进方法GradSkip仍然线性收敛,具有相同的加速通信复杂度,并且局部梯度计算所需的频率与局部条件数成正比。接下来,我们通过将概率变换的随机性扩展到任意无偏压缩算子并考虑一个通用的可逼近正则化子来推广我们的方法。这一概括,GradSkip+,恢复了文献中的几个相关方法。最后,我们提出了一项实证研究来证实我们的理论主张。




2022年10月24日

新论文

新出纸: “显著加快联合学习:第一次理论上成功地将本地培训与压缩通信相结合”-与…联合工作劳伦特·康达特伊万·阿加尔斯克.

摘要:在联合学习的现代范式中,大量用户以协作的方式参与全球学习任务。它们交替进行本地计算,并与远程编排服务器进行双向通信。通信速度慢且成本高,是这种环境下的主要瓶颈。为了减少通信负载,从而加速分布式梯度下降,有两种策略很流行:1)通信频率较低;即,在通信轮次之间执行多次局部计算迭代;和2)通信压缩信息而不是全维向量。在本文中,我们提出了第一种分布式优化和联合学习算法,该算法将这两种策略结合在一起,以双重加速率线性收敛到精确解:我们的算法得益于局部训练和压缩提供的两种加速机制,即更好地依赖于函数的条件数和模型的维数。




2022年10月6日

访问阿布扎比MBZUAI

我正在去阿布扎比的路上MBZUAI公司,我是一名兼职教授。




2022年10月5日

在机器学习数学世界研讨会系列上的讲话

今天,我将在机器学习数学世界研讨会系列.




2022年10月2日

新论文

新出纸: “具有重要性权重的改进Stein变分梯度下降”-与…联合工作孙璐康.

摘要:Stein变分梯度下降(SVGD)是一种广泛应用于各种机器学习任务的采样算法。众所周知,SVGD来自Kullback-Leibler散度$D_{KL}(\cdot\mid\pi)$的核化梯度流的离散化,其中$\pi$是目标分布。在这项工作中,我们建议通过引入重要性权重来增强SVGD,这导致了一种新的方法,我们将其命名为$\beta$-SVGD。在连续时间和无限粒子状态下,该流收敛到平衡分布$\pi$(由Stein Fisher信息量化)的时间与$\rho_0$和$\pi@的关系非常微弱。这与Kullback-Leibler散度的核化梯度流非常不同,其时间复杂度取决于$D_{KL}(\rho_0\mid\pi)$。在某些假设下,我们为种群极限$\beta$-SVGD提供了一个下降引理,它涵盖了种群极限SVGD在$\beta到0$时的下降引理。我们还通过简单的实验说明了$\beta$-SVGD相对于SVGD的优势。




2022年9月30日

新论文

新出纸: “EF21-P和朋友:使用双向压缩改进分布式优化的理论通信复杂性”-与…联合工作Kaja Gruntkowska和亚历山大·泰林.

摘要:本文的出发点是发现一种新颖而简单的错误反馈机制,我们称之为EF21-P,用于处理收缩式压缩机引入的错误。与以前所有关于错误反馈的工作不同,压缩和校正在梯度的双重空间中进行,我们的机制在模型的原始空间中进行。虽然我们认为EF21-P在许多情况下可能有用,在计算梯度之前执行模型扰动通常是有利的(例如,随机平滑和泛化),在这项工作中,我们重点关注它在设计支持双向压缩的高效通信分布式优化方法时作为关键构建块的使用。特别是,我们使用EF21-P作为压缩机制,并随后纠正服务器向工作人员广播的模型的错误。通过将EF21-P与执行工作到服务器压缩的合适方法相结合,我们获得了支持双向压缩的新方法,并在凸问题和非凸问题中享有最新的理论通信复杂性。例如,我们的边界是第一个能够将来自工作人员到服务器和服务器到工作人员压缩的差异/错误解耦的边界,从而将乘法依赖性转换为加法依赖性。在凸域中,我们获得了与梯度下降的理论通信复杂性相匹配的第一个边界。即使在这种凸区域中,我们的算法也使用有偏梯度估计,这是非标准的,需要新的证明技术,可能会引起独立的兴趣。最后,通过适当的实验验证了我们的理论结果。




2022年9月29日

ICLR 2023年

ICLR 2023提交截止日期已过。在前往AISTATS 2023之前,该休息一天了。。。




2022年9月16日

新论文

新出纸: “无约束光滑最小化的小批量随机三点法”-与…联合工作Soumia Boucherouite公司,格里戈里·马利诺夫斯基,El Houcine Bergou公司.

摘要:在本文中,我们提出了一种新的零阶优化方法,称为迷你批随机三点(MiSTP)方法,以解决在目标函数评估只有近似值的情况下的无约束最小化问题。它基于最近提出的随机三点(STP)方法(Bergou等人,2020)。在每次迭代中,MiSTP以与STP类似的方式生成随机搜索方向,但仅根据目标函数的近似值而不是其精确求值来选择下一次迭代。我们还分析了该方法在非凸和凸情况下的复杂性,并评估了其在多个机器学习任务中的性能。




2021年9月15日

NeurIPS 2022接受的论文


我们已经收到了几份文件第36届神经信息处理系统年会(NeurIPS 2022)将于2022年11月28日至12月3日在美国新奥尔良举行。

它们在这里:

科大优化与机器学习实验室

1) “双线性耦合光滑凸凹鞍点问题的加速原对偶梯度法” [arXiv]-与…联合工作德米特里·科瓦列夫(*)亚历山大·加斯尼科夫.

2) “光滑强凸强凹极小极大优化的第一个优化算法” [arXiv]-的工作德米特里·科瓦列夫(*)亚历山大·加斯尼科夫.

3) “阻尼牛顿法实现全局$O(1/k^2)$和局部二次收敛速度”-与…联合工作斯拉沃米尔·汉泽利(*) 德米特里·坎佐洛夫 德米特里·帕森纽克 亚历山大·加斯尼科夫、和马丁·塔克.

4) “方差减少ProxSkip:算法、理论和在联合学习中的应用” [arXiv]-与…联合工作格里戈里·马利诺夫斯基(*)Kai Yi(*).

5) “利用平滑软件量化技术实现理论上更好、数值上更快的分布式优化” [arXiv]-与…联合工作Bokun Wang(*)Mher Safaryan(*).

6) “通过带有不精确Prox的加速原对偶算法加速局部梯度方法的通信” [arXiv]-与…联合工作阿卜杜拉赫蒙·萨迪耶夫(*)德米特里·科瓦列夫(*).

7) “具有理论保证的求解变分不等式的压缩通信分布式方法” [arXiv]-与…联合工作亚历山大·贝兹诺西科夫,迈克尔·迪斯金,马克斯·瑞亚宾亚历山大·加斯尼科夫.

8) “BEER:具有通信压缩的去中心化非凸优化的快速$O(1/T)$Rate” [arXiv]-与…联合工作赵浩宇,李博岳,李志泽(*)池月杰.

9) “光滑凸优化中高阶方法的第一次最佳加速” [arXiv]-的工作德米特里·科瓦列夫(*)亚历山大·加斯尼科夫.

10) “最优梯度滑动及其在相似条件下最优分布优化中的应用” [arXiv]-的工作德米特里·科瓦列夫(*),亚历山大·贝兹诺西科夫,叶卡捷琳娜·博罗迪奇,亚历山大·加斯尼科夫Gesualdo Scutari公司.

11) “分散随机变分不等式的优化算法” [arXiv]-与…联合工作德米特里·科瓦列夫(*),亚历山大·贝兹诺西科夫,阿卜杜拉赫蒙·萨迪耶夫(*),迈克尔·佩西亚诺夫亚历山大·加斯尼科夫.

12) “EF-BV:有偏和无偏压缩的误差反馈和方差减少机制的统一理论分布式优化” [arXiv]-与…联合工作劳伦特·康达特(*)启毅(*).



(*)我在科大的优化和机器学习实验室的成员。





2022年9月13日

在数学与应用学术讨论会上的讲话

我在数学与应用学术讨论会在KAUST。




2022年9月12日

新论文

新出纸: “带有通信压缩的个性化联合学习”-与…联合工作El Houcine Bergou公司,康斯坦丁·布拉琴科,阿里特拉·杜塔.

摘要:与在数据中心中训练传统的机器学习(ML)模型不同,联合学习(FL)在资源约束的异构边缘设备上包含的本地数据集上训练ML模型。现有的FL算法旨在为所有参与设备学习一个单一的全局模型,由于设备间数据的异质性,这可能对参与培训的所有设备都没有帮助。最近,Hanzely和Richtárik(2020)提出了一种训练个性化FL模型的新公式,旨在平衡传统全球模型和本地模型之间的平衡,这些模型只能由单个设备使用其私有数据进行训练。他们推导了一种新的算法,称为无环梯度下降(L2GD)来解决该问题,并表明当需要更多个性化时,该算法可以提高系统的通信复杂性保证。在本文中,我们为他们的L2GD算法配备了双向压缩机制,以进一步减少本地设备和服务器之间的通信瓶颈。与FL-setting中使用的其他基于压缩的算法不同,我们的压缩L2GD算法基于概率通信协议,在该协议中,通信不会按照固定的时间表进行。此外,我们的压缩L2GD算法在没有压缩的情况下保持了与vanilla SGD相似的收敛速度。为了实证验证我们算法的效率,我们对凸问题和非凸问题进行了各种数值实验,并使用了各种压缩技术。




2022年8月28日

2022年秋季学期开始了!


我回到了科大,秋季学期开始了!我在教CS 331:随机梯度下降法。




2022年8月15日

新研究实习生:方文梓(Tom)


我在此表示欢迎方文志(Tom)作为一名(远程)VS研究实习生,向我的团队致敬!他的实习今天开始。Tom是中国科学院大学/上海理工大学通信与信息系统专业的硕士生。他获得上海大学通信工程学士学位。过去,他的研究重点是优化无线通信的物理层。目前,他对优化理论和联合学习更感兴趣。

Tom合著了几篇论文,包括:
  • W.Fang、Y.Jiang、Y.Shi、Y.Zhou、W.Chen和K.Letaief,“通过可重构智能表面进行空中计算”,IEEE通讯汇刊,第69卷,第12期,第8612-8626页,2021年12月
  • W.Fang、Y.Zou、H.Zhu、Y.Shi和Y.Zhou,“用于空中计算的最佳接收波束形成”。IEEE SPAWC,虚拟会议,2021年9月
  • W.Fang、M.Fu、K.Wang、Y.Shi和Y.Zhou,《可重构智能表面辅助空中计算的随机波束形成》。IEEE Globecom,虚拟会议,2020年12月。
  • W.Fang、M.Fu、Y.Shi和Y.Zhou,《通过随机波束形成实现智能反射表面辅助MISO通信系统的中断最小化》。IEEE SAM,虚拟会议,2020年6月。
  • W.Fang、Ziyi Yu、Yuning Jiang、Yuming Shi、Colin N.Jones和Yong Zhou,“用于联合学习的通信高效随机零阶优化”,提交给IEEE信号处理汇刊

2021年,汤姆获得了中国国家奖学金(全国接受率为0.2%)。2017年,他获得了中国全国大学生一等奖电子设计竞赛。

这是汤姆的:



2022年8月10日

新论文

新出纸: “快速随机梯度方法的自适应学习率”-与…联合工作塞缪尔·霍瓦思康斯坦丁·米什琴科.

摘要:在这项工作中,我们提出了新的自适应步长策略,改进了几种随机梯度方法。我们的第一种方法(StoPS)基于经典的Polyak步长(Polyak,1987),是该方法在随机优化SPS(Loizou et al.,2021)中最新发展的扩展,我们的第二种方法(表示为GraDS)通过“随机梯度的多样性”重新计算步长。我们对强凸光滑函数的这些方法进行了理论分析,并表明尽管有随机梯度,它们仍具有类似确定性的速率。此外,我们还证明了我们的自适应方法在二次目标上的理论优势。不幸的是,StoPS和GraDS都依赖于未知量,这只适用于超参数化模型。为了纠正这一点,我们放弃了这种不需要的依赖性,并将StoPS和GraDS分别重新定义为StoP和GraD。我们证明了在相同的假设下,这些新方法线性收敛到最优解的邻域。最后,我们通过实验验证证实了我们的理论主张,这表明GraD对于深度学习优化特别有用。




2022年7月30日

在回喀斯特的路上


我现在正在回喀斯特的路上。我会呆一个星期左右,然后去度假。




2022年7月26日

新论文

新出纸: “RandProx:具有随机近似更新的原始-对偶优化算法”-与…联合工作劳伦特·康达特.

摘要:近似分裂算法非常适合解决大规模非光滑优化问题,特别是机器学习中出现的问题。我们提出了一种新的原对偶算法,其中对偶更新是随机的;等价地,问题中函数之一的邻近算子被随机预言所取代。例如,一些随机选择的对偶变量,而不是全部,在每次迭代时都会更新。或者,只以小概率调用函数的邻近运算符。实现了一种非光滑方差缩减技术,以便该算法能够找到涉及光滑和非光滑函数(可能由线性算子组成)的一般问题的精确极小值。在强凸性条件下,我们得到了线性收敛结果;即使在确定性的情况下,当我们的算法恢复到最近提出的Primal-Dial-Davis-in算法时,这些结果也是新的。文献中的一些随机算法也被恢复为特殊情况(例如,Point-SAGA)。但我们的随机化技术是通用的,除了采样和概率更新(包括压缩)之外,还包含许多无偏见的机制。由于收敛速度取决于原始收缩机制和对偶收缩机制中最慢的机制,因此当使用随机性时,迭代复杂度可能保持不变。另一方面,可以显著降低计算复杂度。总的来说,随机性有助于获得更快的算法。这在随机梯度型算法中早已为人所知,我们的工作表明,这也完全适用于更一般的原始-对偶设置。




2022年7月14日

前10%ICML 2022审核人中的11名团队成员!

感谢我的前任和现任团队成员康斯坦丁·米什琴科、拉法·斯兹伦达克、塞缪尔·霍瓦思、伊戈尔·索科洛夫,Alexander Tyurin、Abdurakhmon Sadiev、Laurent Condat、Ahmed Khaled、Eduard Gorbunov、Elnur Gasanov和Egor Shulgin出色的ICML 2022审查工作,使其被公认为未完成(前10%)ICML 2022评审员!




2022年7月12日

纽约、巴尔的摩、休斯顿和洛杉矶

从今天开始,我将访问美国,做一些演讲,参观/出席几个地方和会议,包括纽约市的熨斗研究所、巴尔的摩的ICML、休斯顿的莱斯大学和洛杉矶。

在ICML,我做了两次演讲:一次是关于我们的ProxSkip论文“ProxSki:是的!本地梯度步骤显著地导致通信加速!终于!”[纸张] [幻灯片][海报][71分钟谈话] [90分钟谈话]另一个在我们的3PC论文“3PC:用于通信的三点压缩器-高效分布式训练和更好的延迟聚合理论”[纸张] [海报] [幻灯片].我的团队还有三篇被接受的论文:“塔拉格兰德不等式T1下人口极限中SVGD的收敛理论”,由阿迪尔·萨利姆[纸张] [幻灯片],“FedNL:使纽顿式方法适用于联合学习”由Mher Safaryan先生[纸张] [海报]和“近似和联合随机重组”由艾哈迈德·哈利德[纸张].




2022年7月9日

新论文

新出纸: “方差减少ProxSkip:算法、理论和在联合学习中的应用”-与…联合工作格里戈里·马利诺夫斯基凯伊.

摘要:我们研究了基于局部训练(LT)范式的分布式优化方法:实现通信效率通过在参数平均之前对客户进行更丰富的基于局部梯度的培训。回顾进展在该领域,我们确定了5代LT方法:1)启发式方法,2)同质方法,3)次线性方法,4)线性方法,和5)加速方法。第五代,由Mishchenko、Malinovsky、Stich和Richtárik(2022)的ProxSkip方法及其分析发起,其特点是首次从理论上证实LT是一种通信加速机制。灵感来自最近随着技术的进步,我们为第五代LT方法做出了贡献,表明可以进一步使用方差减少。尽管LT方法的所有先前理论结果完全忽略了局部工作的成本纯粹从通信轮次的数量来看,我们的方法在当局部计算为足够昂贵。我们从理论上描述了这个阈值,并用实验结果证实了我们的理论预测。




2022年7月7日

新研究实习生:MichałGrudzieñ(牛津)


让我们都欢迎米夏·格鲁泽恩作为新的VSRP研究实习生加入团队!米歇尔昨天到达喀斯特。Micha正在牛津大学攻读数学和统计硕士学位。他是帕尔格雷夫-布朗奖学金在此之前,Michal曾在波兰华沙著名的Stanislaw Staszic Lyceum学习。Micha的一些成就:
  • 牛津“无国界工程师”协会项目成员(Kaggle分类和细分),2021年至今
  • 2021年与杨耀东就双层优化进行研究实习
  • 2018年和2019年波兰全国数学奥林匹克竞赛决赛和桂冠得主
  • 2018-2019年第二届科技峰会女性志愿者
  • 2018年波兰物理奥林匹克半决赛选手
  • 2016年和2017年波兰初级数学奥林匹克竞赛桂冠和决赛
Michał对“机器学习和数据分析有着执着的热情”。除了母语是波兰语和流利的英语之外,他会说一点日语、汉语和西班牙语。同样有趣的是,Michal在中学看了300场动漫节目。所以,打开这个问题由你自己承担风险!但最重要的是,米查可以进行125公斤的定位球练习。不过我需要一个证据。谁是志愿者和他一起去健身房,把这个超人的壮举录下来?




2022年7月6日

新论文

新出纸: “通过带有不精确Prox的加速原对偶算法加速局部梯度方法的通信”-与…联合工作阿卜杜拉赫蒙·萨迪耶夫德米特里·科瓦列夫.

摘要:受Mishchenko等人(2022年)最近的一项突破的启发,他首次证明了局部梯度阶可以导致可证明的通信加速,我们提出了一种获得相同通信的替代算法加速作为他们的方法(ProxSkip)。然而,我们的方法非常不同:它基于著名的Chambolle和Pock(2011),进行了一些重要的修改:i)我们允许近似运算符的不精确计算通过适当的基于梯度的方法(例如,GD、Fast GD或FSFOM)对某个光滑强凸函数执行仔细修改对偶更新步骤以保持线性收敛。我们的总体结果提供了新的一类双线性耦合强凹凸鞍点问题的最新速度由于对偶函数缺乏光滑性。当应用于联合学习时,我们获得了理论上更好的ProxSkip的替代方法:与ProxSki的O(κ^{1/2})相比,我们的方法需要更少的局部步骤,并执行确定数量的本地步骤。与ProxSkip一样,我们的方法可以应用于连接网络,我们在这里也得到了理论上的改进。




2022年6月27日

塞缪尔·霍瓦思今天为他的博士论文辩护!

今天,我的博士生塞缪尔·霍瓦思

Samuel Horváth博士

为他的博士论文辩护联合学习的更好方法和理论:压缩、客户选择和异质性。

他的博士论文委员会成员包括:Salman Avestimehr公司(南加州大学和FedML),马可·卡尼尼(KAUST),马克·根顿(喀斯特),迈克·拉巴特(Facebook AI Research),我是顾问和委员会主席。



塞缪尔加入了我的优化与机器学习实验室2017年8月,在科大完成金融数学学士学位后,成为理学硕士/博士生布拉迪斯拉发夸美纽斯大学,斯洛伐克,在该计划中排名第一。他于2018年12月在科大获得统计学硕士学位。

有趣的是,我于2017年3月加入科大仅仅5个月后,塞缪尔就来到了科大!

从那以后,塞缪尔走了很长一段路;看看他的简历! 他2017年后的成就包括:


塞缪尔非常独特,因为他同时在科学和体育方面才华横溢,勤奋工作,有着无可挑剔的职业道德,而且非常谦逊和脚踏实地。一个很棒的合作伙伴!

塞缪尔·霍瓦思博士,即将成为塞缪尔·奥尔瓦思教授:祝您在阿布扎比的新冒险一切顺利!




2022年6月21日

新论文

新出纸: “移位压缩框架:推广和改进”-与…联合工作埃戈尔·舒尔金。出现了本文的早期版本在里面OPT2021:第十三届机器学习优化年度研讨会。最终版本最近被接受第38届人工智能不确定性会议(UAI 2022).

摘要:通信是大规模机器学习模型分布式训练的关键瓶颈之一,对交换的信息(如随机梯度或模型)进行有损压缩是缓解这一问题的最有效手段之一。在研究最多的压缩技术中,有一类无偏压缩算子,其方差以我们希望压缩的向量的平方范数的倍数为界。根据设计,这种方差可能会保持较高,只有当输入向量接近零时才会减小。然而,除非训练的模型被过参数化,否则在经典方法(如分布式压缩SGD)的迭代过程中,我们希望压缩的向量没有先验理由接近零,这会对收敛速度产生不利影响。由于这个问题,最近提出了几个更精细且看起来非常不同的算法,目的是规避这个问题。这些方法基于压缩我们通常希望压缩的向量与在迭代过程中更改的某些辅助向量之间的差异的思想。在这项工作中,我们退后一步,为从概念和理论上研究这些方法开发了一个统一的框架。我们的框架结合了使用无偏和有偏压缩器压缩梯度和模型的方法,并阐明了辅助向量的构造。此外,我们的通用框架可以改进现有的几种算法,并可以生成新的算法。最后,我们进行了几个数值实验,以说明并支持我们的理论发现。




2022年6月20日

新论文

新出纸: “关于(L0,L1)−光滑条件下镜像Stein变分梯度下降收敛性的注记”-与…联合工作孙璐康.

摘要:在本文中,我们建立了种群极限的下降引理——镜像Stein变分梯度法(MSVGD)。这个下降引理并不依赖于MSVGD的路径信息,而是基于镜像分布的简单假设。我们的分析表明,MSVGD可以应用于更广泛的一类具有非光滑V的约束采样问题从维数d的角度研究人口极限MSVGD的复杂性。




2022年6月18日

新研究实习生:Omar Shaikh Omar(华盛顿大学)


请和我一起欢迎奥马尔·谢赫·奥马尔我们的团队KGSP(科大天才学生项目)研究实习生!奥马尔刚到喀斯特,明天就要参加KGSP培训了!Omar是一名CS本科生,就读于华盛顿大学.

选定的区别、经验和兴趣:
  • 华盛顿大学STAR实验室的学生研究员(http://www.uwstarlab.org), 2021
  • 在Jetson Nano上部署了两个YOLO v4实现,并在交叉路口的视频流中使用模型来检测过街和等待过街的行人
  • 使用加州理工学院行人检测基准和MIOVision Traffic Camera数据集中的数据,为行人检测训练自定义YOLO v4模型
  • 华盛顿电子数学实验室(WXML)学生研究员,2020-2021年
  • 基于复多项式根的子集构造紧区域的猜测,以找到高斯-卢卡斯定理的局部模拟,并证明多次猜测的合格性
  • 构建了一个Python库,该库模拟了为猜测寻找反例的过程,并使用matplotlib、scipy和sympy创建了该过程的动画
  • 在布朗大学数学科学本科生研讨会(SUMS)和WXML会议上发表
  • Uliza数据科学实习生(https://www.uliza.org), 2020
  • 与一组程序员和语言学家一起为非洲语言卢甘达开发了拼写检查器的想法
  • 为数据采集和终端接口编写了多个规范文件
  • 删除了《卢甘达圣经》和一本英语/卢甘达词典,共有80000多个独特单词和70000多个句子
  • 通过连接nltk词性标记器、专门为Luganda构建的lemmatizer和编辑-实例建议系统,在Python中构建了核心拼写检查器
  • 2019年普特南数学竞赛美国和加拿大大学500强
  • 2019-2020年数学圈志愿者教学协助
  • 2018年巴尔干数学奥林匹克铜牌

奥马尔,欢迎!




2022年6月16日

新研究实习生:Kaja Gruntkowska(沃里克)


请和我一起欢迎卡娅·格伦特科夫斯卡作为VSRP实习生!!!Kaja是一名三年级本科生英国华威大学数学与统计学.卡亚将于本月晚些时候抵达科大。关于卡贾目前和过去的经验和成功的几点评论:
  • 她在华威大学(Warwick)的同龄人中名列前茅的学生之一(2020-2021年排名前三)
  • 因2020-2021年在华威大学的整体表现获得学术卓越奖
  • 是波兰统计奥林匹克竞赛的决赛选手,2019年伏伊伏德希普赛段第一名
  • 2019年“迈向田地第一步奖章”获得第二名
  • 在2018年贾吉尔数学锦标赛上获得第三名
  • (两次)参加2016年和2018年波兰青年数学家大会
  • 2018年“Naboj Junior”联合团队Lodz
  • 2018-2019年,在罗兹科技大学高中领导课外数学课程
Kaja喜欢辅导高中生数学,在华威担任导师协调员,对体育和食品可持续性感兴趣。

卡亚,欢迎!




2022年6月15日

新论文

新出纸: “带有随机重模糊和梯度压缩的联合优化算法”-与…联合工作阿卜杜拉赫蒙·萨迪耶夫,格里戈里·马利诺夫斯基,爱德华·戈尔布诺夫,伊戈尔·索科洛夫,艾哈迈德·哈利德,康斯坦丁·布拉琴科.

摘要:梯度压缩是一种常用的技术,用于提高机器学习模型分布式训练中随机一阶方法的通信复杂性。然而,现有工作仅考虑随机梯度的替换采样。相比之下,实践中众所周知,并且最近在理论上证实,基于无重采样的随机方法,例如,随机重采样(RR)方法,比重采样梯度的方法性能更好。在这项工作中,我们缩小了文献中的这一差距,并首次分析了梯度压缩和无重定位采样的方法。我们首先开发了一种具有梯度压缩(Q-RR)的随机重组的分布式变体,并展示了如何通过使用控制迭代来减少梯度量化带来的方差。接下来,为了更好地适应联邦学习应用程序,我们合并了本地计算,并提出了一种称为Q-NASTYA的Q-RR变体。Q-NASTYA使用局部梯度步长以及不同的局部和全局步长。接下来,我们还将展示如何在此设置中减少压缩方差。最后,我们证明了所提方法的收敛结果,并概述了它们改进现有算法的几种设置。




2022年6月12日

复杂数据数学会议

我刚到瑞典斯德哥尔摩参加复杂数据数学会议。本应在2020年举行,但由于新冠肺炎疫情推迟了。我的演讲定于6月16日星期四举行。




2022年6月7日

新论文

新出纸: “具有通信压缩和贝努利聚合的分布式牛顿型方法”-与…联合工作鲁斯特姆·伊斯兰诺夫,荀谦,斯拉沃米尔·汉泽利Mher Safaryan先生.

摘要:尽管Newton型方法的计算和通信成本很高,但由于其对病态凸问题的鲁棒性,它仍然是分布式训练的一个很有吸引力的选择。在这项工作中,我们研究曲率信息的通信压缩和聚合机制,以降低这些成本,同时保持理论上优越的局部收敛保证。我们证明了Richtarik等人[2022]最近开发的用于梯度通信的三点压缩器类(3PC)也可以推广到Hessian通信。这一结果开辟了各种各样的通信策略,如压缩}和延迟聚合,可供我们使用,以压缩成本高昂的曲率信息。此外,我们还发现了一些新的3PC机制,如自适应阈值和贝努利聚集,这些机制需要减少通信和偶尔的Hessian计算。此外,我们扩展并分析了双向通信压缩和部分设备参与设置的方法,以满足联合学习应用程序的实际考虑。对于我们所有的方法,我们都得到了快速的条件数相关的局部线性和/或超线性收敛速度。最后,通过对凸优化问题的广泛数值评估,我们证明了与使用二阶信息的几个关键基线相比,我们设计的方案实现了最先进的通信复杂性。




2022年6月6日

新论文

新出纸: “联合学习中的认证健壮性”-与…联合工作莫塔塞姆·阿尔法拉,胡安·佩雷斯,埃戈尔·舒尔金伯纳德·加尼姆.

摘要:联合学习由于其在私下训练分布式数据上的机器学习模型方面的有效性,最近获得了极大的关注和流行。然而,正如在单节点监督学习设置中一样,在联合学习中训练的模型容易受到不可察觉的输入转换(称为对抗性攻击)的攻击,从而质疑其在安全相关应用程序中的部署。在这项工作中,我们研究了联合训练、个性化和认证健壮性之间的相互作用。特别是,我们部署了一种广泛使用且可扩展的认证方法——随机平滑,以验证在联邦设置上训练的深度网络,以防止输入扰动和转换。我们发现,与仅在局部数据上进行训练相比,简单的联合平均技术不仅可以有效地构建更准确、更可靠的模型。我们进一步分析了个性化,这是联邦训练中的一种流行技术,它增加了模型对本地数据的鲁棒性偏差。在用更快的训练构建更健壮的模型方面,我们展示了个性化相对于这两种~(即仅对本地数据进行训练和联合训练)的几个优点。最后,我们探讨了全局和局部(个性化)模型混合的鲁棒性,发现局部模型的鲁棒性随着它们偏离全局模型而降低




2022年6月5日

新论文

新出纸: “具有客户和数据采样的非凸SGD的更高速率和灵活框架”-与…联合工作亚历山大·泰林,孙璐康康斯坦丁·布拉琴科.

摘要:我们重温了寻找n个光滑且可能非凸函数平均值的近似驻点的经典问题。就单个函数的梯度求值次数而言,随机一阶方法的最佳复杂度为O(n+√n/ε),通过最佳SGD方法获得𝖲𝖯𝖨𝖣𝖤𝖱 例如,[Fang等人,NeurIPS 2018]和[Zhize等人,ICML 2021],其中ε是误差容限。然而,i)big-O符号隐藏了与函数相关的平滑常数的关键依赖性,以及ii)这些方法中的速率和理论假设采样机制过于简单,不提供任何灵活性。在这项工作中,我们纠正了情况。首先,我们推广了𝖯𝖠𝖦𝖤算法,使其可以证明与几乎任何(无偏)采样机制一起工作。这尤其是在联合学习中很有用,因为它允许我们构建并更好地理解客户机和数据采样策略的各种组合的影响。其次,当我们明确使用某些新颖的不等式来捕捉平滑度之间复杂的相互作用时,我们的分析更加清晰常数和取样程序。事实上,即使是在论文中分析的简单抽样程序,我们的分析也更好。然而,我们提出的另一种采样方案可以进一步提高这一改进的界限。总之,我们提供了最多光滑非凸区域中最优SGD的一般和最精确分析。最后,我们仔细假设了我们的理论发现设计实验。




2022年6月2日

新论文

新出纸: “等高线下采样算法的联合学习”-与共同工作孙璐康阿迪尔·萨利姆.

摘要:联合学习使用一组技术将机器学习算法的训练有效地分布在拥有训练数据的多个设备上。这些技术主要依赖于降低设备和中央服务器之间的通信成本,而通信成本是主要的瓶颈。联合学习算法通常采用优化方法:它们是在通信(和其他)约束下最小化训练损失的算法。在这项工作中,我们采用贝叶斯方法来完成训练任务,并提出了一种通信效率高的Langevin算法变体来采样后验概率。后一种方法比其优化对应物更稳健,并且提供了更多有关\textit{后验概率}分布的知识。我们分析我们的算法时没有假设目标分布是强对数曲线。相反,我们假设较弱的log-Sobolev不等式,它允许非凸性。




2022年6月1日

新研究实习生:Arto Maranjyan(埃里温州立大学)


阿塔瓦兹德·马兰吉扬[ResearchGate研究之门][公共部门][LinkedIn链接]加入我的优化和机器学习实验室VSRP实习生他的实习期从6月1日开始,为期6个月。阿尔托是一年级理科硕士应用数学和统计专业学生亚美尼亚埃里温国立大学.他的BS论文题为由Martin Grigoryan教授指导的《关于经典系统中级数的收敛》已作为单独的论文出版:阿尔托是获得杰出最终项目奖的250名YSU学生中的6名之一。Arto获得了机器方面的实践和理论知识在为期一年的人工智能培训中,学习、深度学习、自然语言处理和计算机视觉亚美尼亚科学与技术基金会技术(FAST).

欢迎加入团队!!!




2022年6月1日

新论文

新出纸: “减少差异是拜占庭人的解药:更高的利率、更弱的假设和沟通压缩,如同樱桃树在顶端”-与…联合工作爱德华·戈尔布诺夫,塞缪尔·霍瓦思加泰尔·吉德尔.

摘要:由于人们对协作学习和联合学习的兴趣不断增长,拜占庭的繁荣已经得到了很多关注。然而,许多富有成效的方向,例如使用方差减少来实现鲁棒性和通信压缩为了降低通信成本,在该领域的研究还很薄弱。这项工作解决了这一差距,并提出了Byz-VR-MARINA--一种新的具有方差减少和压缩功能的拜占庭容错方法。本文的一个关键信息是方差减少更有效地打击拜占庭工人的关键。同时,通信压缩是该过程的一个额外功能通信效率更高。我们推导出Byz-VR-MARINA优于先前技术水平的理论收敛保证用于一般非凸和Polyak-Lojasiewicz损失函数。与同时使用的具有方差减少的拜占庭稳健方法不同和/或压缩,我们的复杂度结果很严格,不依赖于限制性假设,例如梯度的有界性或有限压缩。此外,我们首次分析了支持非均匀采样的拜占庭容错方法随机梯度。数值实验证实了我们的理论发现。




2022年6月1日

新论文

新出纸: “较弱光滑条件下Stein变分梯度下降的收敛性”-与…联合工作孙璐康Avetik Karagulyan公司.

摘要:Stein变分梯度下降(SVGD)是从概率抽样的Langevin型算法的重要替代方法π(x)∞exp(−V(x))形式的分布。在现有的Langevin型算法和SVGD理论中,势函数V是通常被认为是L光滑的。然而,这个限制条件排除了多项式等一大类势函数度大于2。本文研究了(L0,L1)-光滑势分布的SVGD算法的收敛性。Zhang等人[2019a]在分析梯度裁剪算法时引入了这种松弛平滑假设。使用借助于与轨迹无关的辅助条件,我们提供了一个下降引理,证明该算法减少了KL发散在每次迭代中,根据Stein Fisher信息证明SVGD在种群极限下的复杂性界。




2022年5月31日

新论文

新出纸: “部分参与设置中分布式非凸问题的计算和通信高效方法”-与…联合工作亚历山大·泰林.

摘要:我们提出了一种新的方法,它包括分布式优化和联合学习的三个关键组成部分:随机梯度方差减少、压缩通信和部分参与。我们证明了新方法在部分参与设置下具有最优的预言机复杂度和最先进的通信复杂度。此外,我们观察到“1+1+1不是3”:通过将随机梯度的方差减少与压缩通信和部分参与混合,我们没有获得完全的协同效应。我们解释了这种现象的性质,认为这是意料之中的,并提出了可能的解决办法。




2022年5月30日

在维也纳教学

5月30日至6月3日期间,我正在教一门关于随机的梯度下降法维也纳计算优化研究生院(VGSCO)。来自奥地利4所大学(U Wien、IST Austria、TU Wien、WU Wien)的大约20名博士生、博士后甚至一些教授正在参加。




2022年5月15日

ICML 2022接受的五篇论文


我们已经收到了几份论文国际机器学习会议(ICML 2022)。它们在这里:

1) “近距离和联合随机重组” [arXiv] [视频]-与…联合工作康斯坦丁·米什琴科艾哈迈德·哈利德.


2) “FedNL:使牛顿型方法适用于联合学习” [arXiv] [视频]-与…联合工作Mher Safaryan先生,鲁斯特姆·伊斯兰诺夫、和荀谦.


3) “Talagrand不等式T1下人口极限中SVGD的收敛理论” [arXiv]-与…联合工作孙璐康阿迪尔·萨利姆.


4) “ProxSkip:是的!局部梯度步骤可能会加速通信!终于!” [arXiv] [视频]-与…联合工作康斯坦丁·米什琴科,格里戈里·马利诺夫斯基、和塞巴斯蒂安·斯蒂奇.


5) “3PC:用于通信的三点压缩器—高效的分布式训练和更好的惰性聚合理论” [arXiv]-与…联合工作伊戈尔·索科洛夫,伊利亚斯·法特胡林,埃尔努尔·加萨诺夫,李志泽、和爱德华·戈尔布诺夫.




2022年5月15日

随机数值与统计学习研讨会

今天我在“随机数值与统计学习:理论与应用研讨会”.我说过ProxSkip论文[幻灯片][视频]. 今天的好消息是报纸被接受了到ICML。




2022年5月10日

新论文

新出纸: “EF-BV:分布式优化中有偏和无偏压缩的错误反馈和方差减少机制的统一理论”-与共同工作劳伦特·康达特凯伊.

摘要:在分布式或联合优化和学习中,不同计算单元之间的通信往往是瓶颈,梯度压缩是一种广泛使用的技术,用于减少迭代方法每一轮通信中发送的比特数。有两类压缩操作符和使用它们的单独算法。在方差有界的无偏随机压缩器(例如rand-k)的情况下,Mishchenko等人[2019]的DIANA算法是目前最先进的技术,该算法实现了一种方差减少技术,用于处理压缩带来的方差。在有偏和压缩压缩器的情况下(例如top-k),Richtárik等人[2021]的EF21算法实现了一种错误反馈机制,用于处理压缩带来的错误,这是目前的技术水平。这两类压缩方案和算法是不同的,具有不同的分析和证明技术。本文将它们统一到一个框架中,并提出了一种新的算法,将DIANA和EF21恢复为特殊情况。我们在一定条件下证明了线性收敛性。我们的通用方法适用于新的更大类别的压缩器,其中包括无偏和有偏压缩器作为特殊情况,并且有两个参数,即偏差和方差。这些提供了更好的控制,并允许我们继承两个世界中最好的:可以使用偏置压缩器,其在实践中的良好性能得到了认可。压缩机处的独立随机性可以减轻压缩的影响,当并行工作器数量较大时,收敛速度会提高。这是首次提出具有所有这些特征的算法。我们的方法朝着更好地理解两个截然不同的通信效率分布式学习世界迈出了一步。




2022年5月10日

新论文

新出纸: “具有压缩和方差减少功能的联合随机重新混洗”-与…联合工作格里戈里·马利诺夫斯基.

摘要:随机重模糊(RR)是随机梯度下降(SGD)的一种变体,它采用无替换抽样,是一种非常流行的通过经验风险最小化训练监督机器学习模型的方法。由于其优越的实用性能,它被嵌入并经常设置为标准机器学习软件的默认值。以FedRR的名义,该方法最近被证明适用于联合学习(Mishchenko等人,2021年),与通用基线(如本地SGD)相比,该方法具有更好的性能。受此开发的启发,我们设计了三种新算法来进一步改进FedRR:压缩Fed RR和两种方差减少扩展:一种用于驯服来自洗牌的方差,另一种用于抑制来自压缩的方差。压缩的方差减少机制使我们能够消除对压缩参数的依赖性,并且应用Malinovsky等人(2021年)介绍的附加受控线性扰动进行随机重模糊有助于在最佳状态下消除方差。我们在没有有界梯度假设的标准假设下首次分析了压缩局部方法,并针对异构数据,克服了压缩算子的局限性。我们用合成数据集和实际数据集的实验验证了我们的理论结果。




2022年4月27日

新论文

新出纸: “FedShuffle:在联合学习中更好地利用本地工作的方法”-与共同工作塞缪尔·霍瓦思,马齐亚尔·桑贾比,林晓、和迈克尔·拉巴特.

摘要:实践证明,在跨客户端聚合之前应用多个本地更新是克服联合学习(FL)中通信瓶颈的一种成功方法。在这项工作中,我们提出了一个通用的方法FedShuffle,它可以更好地利用FL中的本地更新,特别是在异构机制中。与许多以前的工作不同,FedShuffle并不假设每个设备的更新数量是一致的。我们的FedShuffle配方包含四个简单而强大的成分:1)数据的本地洗牌,2)本地学习率的调整,3)更新权重,以及4)动量方差减少(Cutkosky和Orabona,2019)。我们对FedShuffle进行了全面的理论分析,并表明,无论从理论上还是从实证上,我们的方法都不会受到FL方法中存在的目标函数不匹配的影响,这些方法假设在异质FL设置中进行同质更新,例如FedAvg(McMahan等人,2017)。此外,通过结合上述成分,FedShuffle改进了FedNova(Wang等人,2020年),之前曾提议使用FedNoval来解决这种不匹配。我们还证明了在Hessian相似性假设下,具有动量方差减少的FedShuffle可以改进非局部方法。最后,通过对合成数据集和真实数据集的实验,我们说明了FedShuffle中使用的四种成分如何帮助改进FL中本地更新的使用。




2022年4月27日

两次研讨会:百度和PSU

我就ProxSkip方法做了两次演讲[纸张]今天:第一次演讲“百度研究认知计算系列研讨会”,受邀李萍[我的幻灯片]以及在“宾夕法尼亚州立大学数学学院”,受邀徐金超[我的幻灯片].




2022年4月25日

拉格朗日联合学习研讨会

今天我要做一个题为“ProxSkip:Yes!Local Gradient Steps Provable Lead to Communication Acceleration!Finally!”在由埃里克·穆林斯、梅罗安·德巴赫和萨姆森·拉索尔作为“拉格朗日数学与计算研究中心”活动。本次演讲基于本文,我们在该论文中解决了联邦学习领域的一个重要开放问题。特别地,我们表明局部梯度步骤可以证明导致通信加速。



研讨会是一个虚拟会议;任何人都可以通过Zoom加入。我期待着听很多有趣的演讲,包括一个我以前的学生写的爱德华·戈尔布诺夫.

这里有我的幻灯片。




2022年4月7日

苹果隐私保护机器学习研讨会

星期二和星期三早些时候,我参加了苹果公司组织的“隐私保护机器学习”研讨会,并在研讨会上发表了演讲。该节目在我的时间下午7点开始(加利福尼亚州上午时间),一直持续到午夜后。是的,快结束的时候我觉得非常非常累。。。无论如何,这是一个不错的活动。




2022年4月3日

我在优化和机器学习实验室的职位

我总是有机会邀请优秀的个人加入我的团队,成为实习生、硕士/博士生、博士生、博士后和研究科学家。如果你对某个职位感兴趣,请填写以下内容国际扶轮社申请表.




2022年3月31日

在科大AMCS/STAT研究生研讨会上谈论ProxSkip

今天我有一个关于“ProxSkip:是的!本地梯度步骤显著地导致通信加速!终于!”的演讲AMCS/STAT研究生研讨会这里是喀斯特。该演讲基于康斯坦丁·米什琴科,格里戈里·马利诺夫斯基塞巴斯蒂安·斯蒂奇.我会在联合学习一个世界(FLOW)研讨会2022年5月4日。




2022年3月24日

接受提交的机器学习研究事务处理!

机器学习研究汇刊是传播机器学习研究。你的确实是众多(约150)行动编辑。你可以阅读在这里具体是什么动作编辑器的职责是。我们很高兴地通知您,TMLR现在接受投稿!

TMLR网站摘录:“TMLR强调技术正确性而非主观意义,以确保我们促进对当代人认为不太重要但未来可能重要的主题进行科学讨论。TMLR迎合通常提交给会议的较短格式的手稿,提供快速周转和双盲正在审阅。我们采用滚动提交流程、缩短审查周期、灵活的时间安排和可变的稿件长度,以实现作者、审稿人、编辑和读者之间的深度和持续互动。这使得每一篇已发表的文章都具有较高的质量和严谨性。TMLR不接受与之前出版的作品有任何重叠的提交。TMLR通过在OpenReview上主持审查过程,最大限度地提高了公开性和透明度。"

我非常希望TMLR能够将快速的会议式出版过程的好处与期刊的高审查标准结合起来。




2022年3月21日

在科大CS研究生研讨会上谈PermK

今天,我做了一个关于“置换压缩器用于可证明更快的分布式非凸优化”的演讲计算机科学研究生研讨会这里是喀斯特。谈话基于拉法·斯兹伦达克亚历山大·泰林最近接受了ICLR 2022年。我在2月份的联邦学习一个世界(FLOW)研讨会上做了同样的演讲;这一次是录制的,现在正在播放YouTube网站.




2022年3月13日

KAUST AI研讨会上的新星

A类AI研讨会上的新星将于2022年3月13日至15日在科大举行。本次活动由KAUST的AI倡议,牵头人尤根·施密杜贝尔(Jürgen Schmidhuber).我的团队中有几个人正在进行演讲:康斯坦丁·布拉琴科,德米特里·科瓦列夫,格里戈里·马利诺夫斯基,亚历山大·泰林,埃尔努尔·加萨诺夫,Mher Safaryan先生,埃戈尔·舒尔金,塞缪尔·霍瓦思李志泽.我的前博士学生爱德华·戈尔布诺夫也在做演讲。




2022年3月12日

返回KAUST

在欧洲呆了几个星期后,我刚刚回到科大。




2022年2月20日

达格斯图尔

截至今天,直到2月25日,我仍在德国达格斯图尔参加关于这个随机优化启发式理论.




2022年2月19日

新论文


新出纸: “ProxSkip:Yes!Local Gradient Steps Provable Lead to Communication Acceleration!Finally!”-与…联合工作康斯坦丁·米什琴科,格里戈里·马利诺夫斯基塞巴斯蒂安·斯蒂奇.

摘要:我们引入ProxSkip——一种惊人简单且有效的方法,用于最小化平滑($f$)和昂贵的非平滑可代理($\psi$)函数的和。解决此类问题的规范方法是通过近端梯度下降(ProxGD)算法,该算法基于每次迭代中$f$的梯度和$\psi$的prox算子的评估。在这项工作中,我们特别感兴趣的是,相对于梯度的评估,近似值的评估是昂贵的,这在许多应用中都是如此。ProxSkip允许在大多数迭代中跳过昂贵的prox运算符:虽然其迭代复杂性为$\cO(\kappa\log\nicefrac{1}{\varepsilon})$,其中$\kappa$是$f$的条件号,但prox求值的数量仅为$\c O(\sqrt{\kappa.}\log\niefrac{1\varepsiron})$。我们的主要动机来自联合学习,其中梯度算子的求值对应于在所有设备上独立执行本地GD步骤,而近似值的求值则对应于梯度平均形式的(昂贵的)通信。在这种情况下,ProxSkip提供了一种有效的加快通信复杂性。与其他局部梯度类型方法(如FedAvg、Scaffold、S-local-GD和FedLin)不同,它们的理论通信复杂度比异构数据体系中的vanilla GD差,或者最好是匹配,我们在没有任何异质性边界假设的情况下获得了可证明的大幅度改进。




2022年2月19日

达格斯图尔研讨会


我正在前往德国达格斯图尔Schloss Dagstuhl参加一个为期一周的关于理论随机优化启发式.




2022年2月9日

对话@FLOW


我刚刚在联合学习一个世界(FLOW)研讨会。我说过“置换压缩器用于可证明更快的分布式非凸优化”-ICLR 2022最近接受了一篇论文。




2022年2月8日

新论文


新出纸: “分散随机变分不等式的优化算法”-与…联合工作德米特里·科瓦列夫,亚历山大·贝兹诺西科夫,阿卜杜拉赫蒙·萨迪耶夫,迈克尔·佩西亚诺夫,以及亚历山大·加斯尼科夫.

摘要:变分不等式是一种形式主义,它包括作为特殊情况的博弈、最小化、鞍点和平衡问题。因此,变分不等式的方法是许多应用任务的通用方法,包括机器学习问题。这项工作集中于分散的环境,这一点越来越重要,但尚未得到很好的理解。特别地,我们考虑了固定和时变网络上的分散随机(和型)变分不等式。我们给出了通信和局部迭代的复杂度下限,并构造了与这些下限匹配的优化算法。我们的算法不仅在分散随机情况下,而且在分散确定性和非分布随机情况下都是现有文献中最好的。实验结果验证了所提算法的有效性。




2022年2月7日

讲座@机器学习NeEDS数学优化研讨会


今天我要在机器学习NeEDS数学优化虚拟研讨会系列。这是研讨会第三季的开场白。我说过“置换压缩器用于可证明更快的分布式非凸优化”-最近被ICLR 2022接受的论文。




2022年2月2日

新论文


新出纸: “分布式非凸优化,具有通信压缩、最佳oracle复杂性和无客户端同步”-与…联合工作亚历山大·泰林.

摘要:我们开发并分析了DASHA:一种用于非凸分布式优化问题的新方法。当节点处的局部函数具有有限和时或期望形式,我们的新方法DASHA-PAGE和DASHA-SYNC-MVR,通过Gorbunov等人(2020年)。特别是,为了实现$\varepsilon$平稳点,并将随机稀疏化器RandK视为例如,我们的方法在有限和和中计算梯度$O(\sqrt{m}/(\varepsilon\sqrt}n}))$和$O(\sigma/(\varebsilon^{3/2}n))$的最佳数目在保持SOTA通信复杂性$O(d/(\varepsilon\sqrt{n}))$的同时,期望分别形成案例。此外,与MARINA中,新方法DASHA、DASHA-PAGE和DASHA-MVR只发送压缩向量,从不同步节点,这使得它们更适用于联合学习。我们将结果推广到函数满足Polyak-Łojasiewicz条件的情况。最后,我们的理论在实践中得到了证实:我们看到了非凸分类实验和深度学习模型训练的显著改进。




2022年2月2日

新研究实习生:Abdurakhmon Sadiev(MIPT)


Abdurakhmon Sadiev作为研究实习生加入了我的优化和机器学习实验室。他来了今天在科大,将在这里呆5-6个月。Abdurakhmon是美国MIPT公司; 他的顾问在那里亚历山大·加斯尼科夫。他已收到他在学习期间获得了多项奖学金和奖项,包括:
  • Andrei Raigorodskii教授个人奖学金(2021年),
  • 增加MIPT四年制学士和硕士学生的国家学术奖学金(2020年),以及
  • 阿布拉莫夫奖学金(2018年),针对MIPT成绩最好的1-3年本科学生。
在MIPT学习期间,他是MIPT函数分析(高等数学系)的助教和最优控制方法(控制数学基础系)。

Abdurakhmon对min-max/sadlle-point问题、无导数方法和联合学习感兴趣。他与人合著了许多论文,其中大部分可以是在他的谷歌学者ResearchGate研究之门配置文件:
  • 鞍点问题的无梯度方法
  • 光滑鞍点问题的零阶算法
  • 用混合Oracle算法求解光滑Min-Min和Min-Max问题
  • 去中心化个性化联合最小-最大问题
  • 分散个性化联合学习:所有个性化模式的下限和优化算法
  • 分散和个性化联合学习
  • 凹凸随机鞍点问题的非精确Oracle梯度自由方法
  • 分散随机变分不等式的优化算法

欢迎加入团队!!!




2022年2月2日

新论文


新出纸: “3PC:三点压缩器,用于通信高效的分布式训练和更好的惰性聚合理论”-与…联合工作伊戈尔·索科洛夫,伊利亚斯·法特胡林,埃尔努尔·加萨诺夫,李志泽、和爱德华·戈尔布诺夫.

摘要:我们提出并研究了一类新的用于通信效率训练的梯度通信机制——三点压缩器(3PC),以及可以利用它们的高效分布式非凸优化算法。与大多数依赖静态压缩器选择(例如Top-K)的既定方法不同,我们的类允许压缩器在整个训练过程中进行进化,目的是提高基础方法的理论通信复杂性和实际效率。我们表明,我们的一般方法可以恢复最近提出的最先进的错误反馈机制EF21(Richtárik et al.,2021)及其作为特殊情况的理论性质,但也可以导致一些新的有效方法。值得注意的是,我们的方法使我们能够改进惰性聚合文献的算法和理论基础的最新水平(Chen等人,2018年)。作为一个可能引起独立兴趣的副产品,我们在惰性聚合和错误反馈文献之间提供了一个新的基本联系。我们工作的一个特点是,我们不要求压缩机是无偏差的。




2022年1月28日

ICML 2022年


ICML2022提交截止日期已过,我将在本月剩下的时间里睡觉。




2022年1月26日

新论文


新出纸: “服务器端步长和无需替换的采样可证明有助于联合优化”-与…联合工作格里戈里·马利诺夫斯基康斯坦丁·米什琴科.

摘要:我们对联合学习中的服务器端优化进行了理论研究。我们的结果首次表明,在使用客户端数据的本地传递进行联邦平均(FedAvg)时,使用额外参数缩放客户端更新的广受欢迎的启发式方法非常有用。每个局部过程都使用Random Reshuffling执行,无需替换,这是我们可以显示改进复杂性的关键原因。特别地,我们证明了只要局部步长很小,并且更新方向由FedAvg结合所有客户的随机重模糊给出,就可以在获得的方向上取得很大的飞跃,并提高凸、强凸和非凸目标的速度。特别是,在非凸区域中,我们得到了从$O(\epsilon^{-3})$到$O(\ epsilon ^{-2})@的收敛速度的增强。即使在单个节点上执行“随机重模糊”(Random Reshuffling),此结果也是新的。相反,如果本地步长较大,我们证明可以通过使用较小的服务器端步长来控制客户端采样的噪声。据我们所知,这是首次证明本地步骤有助于克服通信瓶颈。总之,我们关于服务器端步长大小的优势的研究结果为联合学习中自适应服务器端优化的实践提供了正式的理由。此外,我们考虑了一种支持部分客户端参与的算法变体,这使该方法更加实用。




2022年1月23日

2022年春季科大开学


科大2022年春季学期今天开始;我在教CS 332:联合学习。




2022年1月20日

ICLR 2022接受的三份文件


我们已经收到了三份论文2022年学习代表国际会议。它们在这里:

1) “IntSGD:随机梯度的无浮压缩” [arXiv]-与…联合工作康斯坦丁·米什琴科,王博坤(Bokun Wang)、和德米特里·科瓦列夫.


2) “利用二阶信息进行机器学习的双自适应尺度算法” [arXiv]-与…联合工作马吉德·贾哈尼,谢尔盖·鲁萨科夫,郑实,迈克尔·马奥尼、和马丁·塔克.


3) “置换压缩机可显著加快分布式非凸优化” [arXiv]-与…联合工作拉斐尔·斯兹伦达克亚历山大·图林。




2022年1月18日

AISTATS 2022接受的三篇论文


我们已经收到了三份文件第25届国际人工智能与统计会议。它们在这里:

1) “仿射约束下强凸最小化的最优算法” [arXiv]-与…联合工作阿迪尔·萨利姆,劳伦特·康达特、和德米特里·科瓦列夫.


2) “FLIX:在联合学习中替代本地方法的简单高效的交流方式” [arXiv]-与…联合工作埃尔努尔·加萨诺夫,艾哈迈德·哈利德、和塞缪尔·霍瓦思.


3) “基础问题:更好的沟通-有效的联合学习二阶方法” [arXiv]-与…联合工作荀谦,鲁斯特姆·伊斯兰诺夫、和姆赫尔·萨法良.




2022年1月11日

SIAM数据科学数学期刊论文


报纸“随机的适应性非凸优化的梯度法”,与合作塞缪尔·霍瓦思李华雷、和迈克尔·乔丹已被接受SIAM数学杂志数据科学(SIMODS)。




旧新闻


阅读旧新闻(2021年及之前)