基于灵敏度抽样的高效核集构造
弗拉基米尔·布拉弗曼(Vladimir Braverman)、丹·费尔德曼(Dan Feldman)、哈里·朗(Harry Lang)、阿迪尔·斯塔特曼(Adiel Statman)、萨姆森·周(Samson Zhou)
第十三届亚洲机器学习会议论文集,PMLR 157:948-9632021年。
摘要
点集的核集是加权点的一个小子集,它近似地保留了原始集的重要属性。具体地说,如果$P$是一组点,$Q$是一组查询,$f:P\times Q\to\mathbb{R}$是一个成本函数,那么权重为$w:P\to[0,\infty)$的集合$S\substeq P$是一些参数$\epsilon>0$的$\epsilon$核心集,如果$\sum_{S\in S}w(S)f(S,Q)$是$\sum_{P\ in P}f(P,Q)的$(1+\epsilon)$乘法近似$代表q$中的所有$q\。核心集用于解决各种计算大数据模型下机器学习的基本问题。近十年来,许多建议的核心集都使用了,或可能使用了一个通用框架来构建核心集,其大小取决于总灵敏度$t$的平方。在本文中,我们将这个界限从$O(t^2)$改进为$O(t\log t)$。因此,我们的结果意味着许多问题的空间效率更高,包括投影聚类、$k$线聚类和子空间近似。主要技术成果是对学习一类VC维有界函数的样本复杂性进行了一般性降低。我们证明,使用适当的参数$\nu$和$\alpha$为这类函数获取$(\nu,\alpha)$-sample足以实现节省空间的$\epsilon$-coreset。我们的结果表明,对于机器学习中的一些有趣问题,核心集构造更加有效;我们展示了$k$-media/$k$-均值、$k$-line聚类、$j$-子空间近似和整数$(j,k)$-投影聚类问题的应用。
引用本文
相关材料