基于灵敏度抽样的高效核集构造

弗拉基米尔·布拉弗曼(Vladimir Braverman)、丹·费尔德曼(Dan Feldman)、哈里·朗(Harry Lang)、阿迪尔·斯塔特曼(Adiel Statman)、萨姆森·周(Samson Zhou)
第十三届亚洲机器学习会议论文集,PMLR 157:948-9632021年。

摘要

点集的核集是加权点的一个小子集,它近似地保留了原始集的重要属性。具体地说,如果$P$是一组点,$Q$是一组查询,$f:P\times Q\to\mathbb{R}$是一个成本函数,那么权重为$w:P\to[0,\infty)$的集合$S\substeq P$是一些参数$\epsilon>0$的$\epsilon$核心集,如果$\sum_{S\in S}w(S)f(S,Q)$是$\sum_{P\ in P}f(P,Q)的$(1+\epsilon)$乘法近似$代表q$中的所有$q\。核心集用于解决各种计算大数据模型下机器学习的基本问题。近十年来,许多建议的核心集都使用了,或可能使用了一个通用框架来构建核心集,其大小取决于总灵敏度$t$的平方。在本文中,我们将这个界限从$O(t^2)$改进为$O(t\log t)$。因此,我们的结果意味着许多问题的空间效率更高,包括投影聚类、$k$线聚类和子空间近似。主要技术成果是对学习一类VC维有界函数的样本复杂性进行了一般性降低。我们证明,使用适当的参数$\nu$和$\alpha$为这类函数获取$(\nu,\alpha)$-sample足以实现节省空间的$\epsilon$-coreset。我们的结果表明,对于机器学习中的一些有趣问题,核心集构造更加有效;我们展示了$k$-media/$k$-均值、$k$-line聚类、$j$-子空间近似和整数$(j,k)$-投影聚类问题的应用。

引用本文


BibTeX公司
@会议记录{pmlr-v157-braverman21a,title={通过灵敏度抽样的有效核心集构造},author={Braverman、Vladimir和Feldman、Dan和Lang、Harry和Statman、Adiel和Zhou、Samson},booktitle={第13届亚洲机器学习会议论文集},页数={948--963},年份={2021},editor={Balasubramanian,Vineeth N.和Tsang,Ivor},体积={157},series={机器学习研究论文集},月={11月17日--19日},publisher={PMLR},pdf={https://processes.mlr.press/v157/bolderman21a/bullerman21a.pdf},url={https://processes.mlr.press/v157/bolderman21a.html},abstract={一组点的核心集是加权点的一个小子集,它近似地保留了原始集的重要属性。具体来说,如果$P$是一组点,$Q$是一个查询集,而$f:P\times Q\to\mathbb{R}$是成本函数,如果S}w(S)f(S,q)$中的$\sum_{S\是P}f(P,q)中$\sum_{P\的$(1+\epsilon)$乘法近似值,则权重为$w:P\到[0,\infty)$的集合$S\subsetq P$是某些参数$\epsillon>0$的$\epsilon$-核心集$代表q$中的所有$q\。核心集用于解决各种计算大数据模型下机器学习的基本问题。近十年来,许多建议的核心集都使用了,或可能使用了一个通用框架来构建核心集,其大小取决于总灵敏度$t$的平方。在本文中,我们将这个界限从$O(t^2)$改进为$O(t\log t)$。因此,我们的结果意味着许多问题的空间效率更高,包括投影聚类、$k$线聚类和子空间近似。主要技术成果是对学习一类VC维有界函数的样本复杂性进行了一般性降低。我们证明,使用适当的参数$\nu$和$\alpha$为这类函数获取$(\nu,\alpha)$-sample足以实现节省空间的$\epsilon$-coreset。我们的结果表明,对于机器学习中的许多有趣问题,核心集构造更有效;我们展示了$k$-中值/$k$-均值、$k$-线性聚类、$j$-子空间近似和整数$(j,k)$-投影聚类问题的应用。}}
尾注
%0会议论文%基于灵敏度抽样的T有效核集构造%弗拉基米尔·布拉弗曼%丹·费尔德曼%哈里·朗%Adiel Statman先生%萨姆森·周%B第13届亚洲机器学习大会论文集%C机器学习研究进展%D 2021年%E Vineeth N.Balasubramanian公司%E Ivor Tsang先生%F pmlr-v157-旅行者21a%我PMLR%电话948--963%U型https://proceedings.mlr.press/v157/bolderman21a.html%第157页%X点集的核集是加权点的一个小子集,它近似地保留了原始集的重要属性。具体地说,如果$P$是一组点,$Q$是一个查询集,$f:P\times Q\to-mathbb{R}$是成本函数,那么权重为$w:P\to[0,\infty)$的集合$S\substeq P$是某些参数$\epsilon>0$的$\epsilon$-核心集,如果S}w(S)f(S,Q)$中的$\sum{S\S是对P}f(P,Q)中的$\sum{P\的$乘法近似)$代表q$中的所有$q\。核心集用于解决各种计算大数据模型下机器学习的基本问题。近十年来,许多建议的核心集都使用了,或可能使用了一个通用框架来构建核心集,其大小取决于总灵敏度$t$的平方。在本文中,我们将这个界限从$O(t^2)$改进为$O(t\log t)$。因此,我们的结果意味着许多问题的空间效率更高,包括投影聚类、$k$线聚类和子空间近似。主要技术成果是对学习一类VC维有界函数的样本复杂性进行了一般性降低。我们证明,使用适当的参数$\nu$和$\alpha$为这类函数获取$(\nu,\alpha)$-sample足以实现节省空间的$\epsilon$-coreset。我们的结果表明,对于机器学习中的一些有趣问题,核心集构造更加有效;我们展示了$k$-media/$k$-均值、$k$-line聚类、$j$-子空间近似和整数$(j,k)$-投影聚类问题的应用。
亚太地区
Braverman,V.、Feldman,D.、Lang,H.、Statman,A.和Zhou,S.(2021)。通过灵敏度抽样的有效核心集构造。第十三届亚洲机器学习会议论文集,英寸机器学习研究进展157:948-963可从https://proceedings.mlr.press/v157/bolderman21a.html。

相关材料