Nearly tight sample complexity bounds for learning mixtures of Gaussians via sample compression schemes

哈桑·阿什蒂亚尼（Hassan Ashtiani）、谢本·达维德（Shai Ben-David）、尼古拉斯·哈维（Nicholas Harvey）、克里斯托弗·利奥（Christopher Liaw）、阿巴斯·梅赫拉比安（Abbas Mehrabian）、

我们证明了ϴ（kd^2/ε^2）样本对于学习R^d中的k高斯混合，直到总变差距离中的误差ε都是必要的和充分的。这改善了这个问题的已知上界和下界。对于轴对齐Gaussian的混合物，我们证明O（k d/ε^2）样本足够，匹配一个已知的下限。

上限基于基于样本压缩概念的分布学习新技术。任何一类允许这样的样本压缩方案的分布也可以用很少的样本来学习。此外，如果一类分布具有这样的压缩方案，那么这些分布的乘积类和混合类也是如此。我们主要结果的核心是表明R^d中的高斯类具有有效的样本压缩。