Efficient Coreset Constructions via Sensitivity Sampling

Vladimir Braverman; Dan Feldman; Harry Lang; Adiel Statman; Samson Zhou

基于灵敏度抽样的高效核集构造

弗拉基米尔·布拉弗曼（Vladimir Braverman）、丹·费尔德曼（Dan Feldman）、哈里·朗（Harry Lang）、阿迪尔·斯塔特曼（Adiel Statman）、萨姆森·周（Samson Zhou）

第十三届亚洲机器学习会议论文集，PMLR 157:948-9632021年。

摘要

点集的核集是加权点的一个小子集，它近似地保留了原始集的重要属性。具体地说，如果$P$是一组点，$Q$是一组查询，$f:P\times Q\to\mathbb｛R｝$是一个成本函数，那么权重为$w:P\to[0，\infty）$的集合$S\substeq P$是一些参数$\epsilon>0$的$\epsilon$核心集，如果$\sum_｛S\in S｝w（S）f（S，Q）$是$\sum_｛P\ in P｝f（P，Q）的$（1+\epsilon）$乘法近似$代表q$中的所有$q\。核心集用于解决各种计算大数据模型下机器学习的基本问题。近十年来，许多建议的核心集都使用了，或可能使用了一个通用框架来构建核心集，其大小取决于总灵敏度$t$的平方。在本文中，我们将这个界限从$O（t^2）$改进为$O（t\log t）$。因此，我们的结果意味着许多问题的空间效率更高，包括投影聚类、$k$线聚类和子空间近似。主要技术成果是对学习一类VC维有界函数的样本复杂性进行了一般性降低。我们证明，使用适当的参数$\nu$和$\alpha$为这类函数获取$（\nu，\alpha）$-sample足以实现节省空间的$\epsilon$-coreset。我们的结果表明，对于机器学习中的一些有趣问题，核心集构造更加有效；我们展示了$k$-media/$k$-均值、$k$-line聚类、$j$-子空间近似和整数$（j，k）$-投影聚类问题的应用。

引用本文

BibTeX公司

@会议记录{pmlr-v157-braverman21a，title={通过灵敏度抽样的有效核心集构造}，author={Braverman、Vladimir和Feldman、Dan和Lang、Harry和Statman、Adiel和Zhou、Samson}，booktitle={第13届亚洲机器学习会议论文集}，页数={948--963}，年份={2021}，editor={Balasubramanian，Vineeth N.和Tsang，Ivor}，体积={157}，series={机器学习研究论文集}，月={11月17日--19日}，publisher={PMLR}，pdf={https://processes.mlr.press/v157/bolderman21a/bullerman21a.pdf}，url={https://processes.mlr.press/v157/bolderman21a.html}，abstract={一组点的核心集是加权点的一个小子集，它近似地保留了原始集的重要属性。具体来说，如果$P$是一组点，$Q$是一个查询集，而$f:P\times Q\to\mathbb{R}$是成本函数，如果S}w（S）f（S，q）$中的$\sum_{S\是P}f（P，q）中$\sum_{P\的$（1+\epsilon）$乘法近似值，则权重为$w:P\到[0，\infty）$的集合$S\subsetq P$是某些参数$\epsillon>0$的$\epsilon$-核心集$代表q$中的所有$q\。核心集用于解决各种计算大数据模型下机器学习的基本问题。近十年来，许多建议的核心集都使用了，或可能使用了一个通用框架来构建核心集，其大小取决于总灵敏度$t$的平方。在本文中，我们将这个界限从$O（t^2）$改进为$O（t\log t）$。因此，我们的结果意味着许多问题的空间效率更高，包括投影聚类、$k$线聚类和子空间近似。主要技术成果是对学习一类VC维有界函数的样本复杂性进行了一般性降低。我们证明，使用适当的参数$\nu$和$\alpha$为这类函数获取$（\nu，\alpha）$-sample足以实现节省空间的$\epsilon$-coreset。我们的结果表明，对于机器学习中的许多有趣问题，核心集构造更有效；我们展示了$k$-中值/$k$-均值、$k$-线性聚类、$j$-子空间近似和整数$（j，k）$-投影聚类问题的应用。}}

尾注

%0会议论文%基于灵敏度抽样的T有效核集构造%弗拉基米尔·布拉弗曼%丹·费尔德曼%哈里·朗%Adiel Statman先生%萨姆森·周%B第13届亚洲机器学习大会论文集%C机器学习研究进展%D 2021年%E Vineeth N.Balasubramanian公司%E Ivor Tsang先生%F pmlr-v157-旅行者21a%我PMLR%电话948--963%U型https://proceedings.mlr.press/v157/bolderman21a.html%第157页%X点集的核集是加权点的一个小子集，它近似地保留了原始集的重要属性。具体地说，如果$P$是一组点，$Q$是一个查询集，$f:P\times Q\to-mathbb{R}$是成本函数，那么权重为$w:P\to[0，\infty）$的集合$S\substeq P$是某些参数$\epsilon>0$的$\epsilon$-核心集，如果S}w（S）f（S，Q）$中的$\sum{S\S是对P}f（P，Q）中的$\sum{P\的$乘法近似）$代表q$中的所有$q\。核心集用于解决各种计算大数据模型下机器学习的基本问题。近十年来，许多建议的核心集都使用了，或可能使用了一个通用框架来构建核心集，其大小取决于总灵敏度$t$的平方。在本文中，我们将这个界限从$O（t^2）$改进为$O（t\log t）$。因此，我们的结果意味着许多问题的空间效率更高，包括投影聚类、$k$线聚类和子空间近似。主要技术成果是对学习一类VC维有界函数的样本复杂性进行了一般性降低。我们证明，使用适当的参数$\nu$和$\alpha$为这类函数获取$（\nu，\alpha）$-sample足以实现节省空间的$\epsilon$-coreset。我们的结果表明，对于机器学习中的一些有趣问题，核心集构造更加有效；我们展示了$k$-media/$k$-均值、$k$-line聚类、$j$-子空间近似和整数$（j，k）$-投影聚类问题的应用。

亚太地区

Braverman，V.、Feldman，D.、Lang，H.、Statman，A.和Zhou，S.（2021）。通过灵敏度抽样的有效核心集构造。第十三届亚洲机器学习会议论文集，英寸机器学习研究进展157:948-963可从https://proceedings.mlr.press/v157/bolderman21a.html。

基于灵敏度抽样的高效核集构造

摘要

引用本文

相关材料