软贝叶斯:对数损失的专家混合产品
Laurent Orseau、Tor Lattimore、Shane Legg
第28届算法学习理论国际会议论文集,PMLR 76:372-3992017年。
摘要
我们考虑在对数损失下使用专家建议进行预测,目的是推导高效且稳健的算法。我们认为现有的算法,如指数梯度法、在线梯度下降法和在线牛顿步法不能充分满足这两个要求。我们的主要贡献是对Prod算法的分析,该算法对任何数据序列都具有鲁棒性,并且运行时间与每轮专家的数量呈线性关系。尽管对数损失具有无界性,但我们推导出了一个与最大损失和最大梯度无关的界,并且仅取决于专家数量和时间范围。此外,我们给出了Prod的贝叶斯解释,并对算法进行了调整,以得出跟踪遗憾。
引用本文
相关材料