计算机科学>机器学习
标题: 高效、准确地从选择数据中恢复$K$
摘要: 学习排名和选择建模的交叉点是电子商务、信息检索和社会科学应用的一个活跃研究领域。 在诸如推荐系统之类的一些应用中,统计学家主要感兴趣的是使用被动收集的离散选择数据尽可能有效地从大的项目池中恢复排名靠前的项目集合,即,用户从多个项目集合中选择一个项目。 出于这种实际考虑,我们提出了基于选择的Borda计数算法,作为一种快速准确的排名算法,用于排名前$K$的恢复,即正确识别所有排名前$K的项目。 我们证明了在一类广泛的随机效用模型下,基于选择的Borda计数算法对于前$K$恢复具有最佳的样本复杂度。 我们证明,在极限条件下,基于选择的Borda计数算法产生的top-$K$估计与常用的最大似然估计方法相同,但前者的速度和简单性在实践中带来了相当大的优势。 在合成数据集和实际数据集上的实验表明,计数算法在准确性方面与常用的排序算法相比具有竞争力,但速度要快几个数量级。