主页

论文

提交文件

新闻

编辑委员会

特殊问题

开源软件

诉讼程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

基于双层优化的数据汇总

扎兰·博索斯(Zalán Borsos)、莫杰米尔·穆滕(Mojmír Mutn)、马可·塔利亚萨奇(Marco Tagliasacchi)、安德烈亚斯·克劳斯(Andreas Krause); 25(73):1−53, 2024.

摘要

海量数据集的可用性不断增加,给机器学习带来了各种挑战。其中最突出的是硬件或人力资源约束下的学习模式。在这种资源受限的设置中,一种简单但功能强大的方法是对数据的小子集进行操作。核心集是为优化目标提供近似保证的数据的加权子集。然而,现有的核心集构造是高度特定于模型的,并且仅限于简单模型,如线性回归、逻辑回归和k均值。在这项工作中,我们提出了一个通用的核心集构造框架,该框架将核心集选择公式化为一个基数约束的双层优化问题。与现有方法相比,我们的框架不需要特定于模型的调整,适用于任何二次可微模型,包括神经网络。我们展示了我们的框架在各种环境下对各种模型的有效性,包括在线培训非凸模型和批量主动学习。

[腹肌][pdf格式][围兜]      
©JMLR公司2024(编辑,贝塔)

乳臭虫