污染匪徒的最佳武器识别

杰森·阿尔舒勒(Jason Altschuler)、维克托·埃曼纽尔·布鲁内尔(Victor-Emmanuel Brunel)、阿兰·马利克(Alan Malek)。

年份:2019年,数量:20,版本:91,页码:1−39


摘要

本文在稳健统计的背景下研究主动学习。具体来说,我们提出了受污染土匪的最佳武器识别问题的一种变体,其中每一次武器拉动都有概率ε,即从任意污染分布而非真正的潜在分布中生成样本。其目标是确定具有高概率的最佳(或近似最佳)真实分布,次要目标是保证此分布的质量。受污染土匪环境的主要挑战是,即使有无限个样本,真实分布也只能部分识别。为了解决这个问题,我们为污染样本的前两个稳健矩(中间值和中间值绝对偏差)的高概率估计开发了严格的非渐近样本复杂度边界。这些集中度不等式是本文的主要技术贡献,可能具有独立的意义。利用这些结果,我们将几种经典的最佳臂识别算法应用于受污染的盗贼环境,并导出了问题的样本复杂度上界。最后,我们提供了匹配信息——样本复杂度的理论下限(高达一个小对数因子)。

PDF格式 BibTeX公司