软贝叶斯:对数损失的专家混合产品

Laurent Orseau、Tor Lattimore、Shane Legg
第28届算法学习理论国际会议论文集,PMLR 76:372-3992017年。

摘要

我们考虑在对数损失下使用专家建议进行预测,目的是推导高效且稳健的算法。我们认为现有的算法,如指数梯度法、在线梯度下降法和在线牛顿步法不能充分满足这两个要求。我们的主要贡献是对Prod算法的分析,该算法对任何数据序列都具有鲁棒性,并且运行时间与每轮专家的数量呈线性关系。尽管对数损失具有无界性,但我们推导出了一个与最大损失和最大梯度无关的界,并且仅取决于专家数量和时间范围。此外,我们给出了Prod的贝叶斯解释,并对算法进行了调整,以得出跟踪遗憾。

引用本文


BibTeX公司
@会议记录{pmlr-v76-orseau17a,title={软贝叶斯:具有对数损失的专家的混合产物},author={Orseau、Laurent和Lattimore、Tor和Legg、Shane},booktitle={第28届算法学习理论国际会议论文集},页数={372--399},年份={2017年},editor={Hanneke,Steve和Reyzin,Lev},体积={76},series={机器学习研究论文集},月={10月15日--17日},publisher={PMLR},pdf={http://proceedings.mlr.press/v76/orseau17a/orseau17a.pdf},url={https://proceedings.mlr.press/v76/orseau17a.html},抽象={我们考虑在对数损失下使用专家建议进行预测,目的是导出高效且稳健的算法。我们认为现有的算法,如指数梯度、在线梯度下降和在线牛顿步长,不能充分满足这两个要求。我们的主要贡献是分析了Prod算法,即robust对任何数据序列都适用,并且与每轮专家的数量呈线性关系。尽管对数损失具有无界性,但我们推导出了一个与最大损失和最大梯度无关的界,并且仅取决于专家数量和时间范围。此外,我们给出了Prod的贝叶斯解释,并对算法进行了调整,以导出跟踪遗憾。}}
尾注
%0会议论文%T软贝叶斯:对数损失专家混合的乘积%劳伦特·奥尔索%Tor Lattimore公司%谢恩腿%第28届算法学习理论国际会议论文集%C机器学习研究进展%D 2017年%E史蒂夫·汉内克%E Lev Reyzin公司%F pmlr-v76-orseau17a型%我PMLR%电话372--399%U型https://proceedings.mlr.press/v76/orseau17a.html%76伏%我们考虑在对数损失下使用专家建议进行预测,目的是推导出高效且稳健的算法。我们认为现有的算法,如指数梯度法、在线梯度下降法和在线牛顿步法不能充分满足这两个要求。我们的主要贡献是对Prod算法的分析,该算法对任何数据序列都具有鲁棒性,并且运行时间与每轮专家的数量呈线性关系。尽管对数损失具有无界性,但我们推导出了一个与最大损失和最大梯度无关的界,并且仅取决于专家数量和时间范围。此外,我们对Prod进行了贝叶斯解释,并对算法进行了调整,以导出跟踪遗憾。
亚太地区
Orseau,L.,Lattimore,T.&Legg,S.(2017年)。软贝叶斯(Soft-Bayes):为具有对数损失的专家组合设计。第28届算法学习理论国际会议论文集,英寸机器学习研究进展76:372-399网址:https://proceedings.mlr.press/v76/orseau17a.html。

相关材料