Plackett-Luce的在线排名激励:决斗强盗方法

的一部分神经信息处理系统进展28(NIPS 2015)

Biptex公司 元数据 纸类 评论 补充

作者

Balázs Szörényi、róbert Busa-Fekete、Adil Paul、Eyke Hüllermier

摘要

我们研究在线排名启发问题,假设一组备选方案的排名服从Plackett-Luce分布。在决斗强盗问题设置之后,学习者可以查询备选方案之间的成对比较,即以在线方式抽取分布的成对边缘。利用这些信息,学习者试图可靠地预测最可能的排名(或首选)。我们的方法基于基于排序过程构建排名的代理概率分布,其中两两边际可证明与Plackett-Luce分布的边际一致。除了正式的性能和复杂性分析外,我们还进行了首次实验研究。