Multi-objective Bandits: Optimizing the Generalized Gini Index

Róbert Busa-Fekete; Balázs Szörényi; Paul Weng; Shie Mannor

多目标匪徒：优化广义基尼指数

Róbert Busa-Fekete、Balázs SzöRényi、Paul Weng、Shie Mannor

第34届国际机器学习会议记录，PMLR 70:625-6342017年。

摘要

我们研究了多臂盗贼（MAB）问题，其中代理接收到一个矢量反馈，该反馈编码了许多可能要优化的竞争目标。代理人的目标是找到一个能够以公平的方式同时优化这些目标的策略。该多目标在线优化问题采用广义基尼指数（GGI）聚合函数形式化。我们提出了一种在线梯度下降算法，该算法利用了GGI聚集函数的凸性，并以谨慎的方式控制搜索，以高概率实现无分布遗憾$\ tilde{O}（T^{-1/2}）$。我们在合成数据和电池控制问题上测试了我们的算法，其目标是权衡使用电池的不同电池，以平衡其各自的降解率。

引用本文

BibTeX公司

@会议记录{pmlr-v70-busa-fekete17a，title={多目标Bandits:优化广义{G}ini索引}，author={R{'o}贝特·布萨·费科特和巴尔{'a}zs Sz{“o}R{'e}nyi和保罗·翁和谢·曼诺尔}，booktitle={第34届机器学习国际会议论文集}，页数={625--634}，年份={2017年}，editor={Precup、Doina和Teh、Yee Whye}，体积＝{70}，series={机器学习研究论文集}，月={06--8月11日}，publisher={PMLR}，pdf={http://processes.mlr.press/v70/busa-fekete17a/busa-fekete 17a.pdf}，url={https://procedures.mlr.press/v70/busa-fekete17a.html}，abstract={我们研究多武器土匪（MAB）代理接收到矢量反馈的问题，该反馈对许多可能相互竞争的目标进行编码以进行优化。代理人的目标是找到一个能够以公平的方式同时优化这些目标的策略。利用广义基尼指数（GGI）聚合函数对该多目标在线优化问题进行了形式化描述。我们提出了一种在线梯度下降算法，该算法利用了GGI聚集函数的凸性，并以谨慎的方式控制搜索，以高概率实现无分布遗憾$\ tilde{O}（T^{-1/2}）$。我们在合成数据和电池控制问题上测试了我们的算法，其目标是权衡使用电池的不同电池，以平衡其各自的降解率。}}

尾注

%0会议论文%T多目标匪徒：优化广义基尼指数%Róbert Busa-Fekete先生%A Balázs Szörényi%保罗·翁%阿什叶风格%第34届机器学习国际会议论文集%C机器学习研究进展%D 2017年%E Doina Precup公司%叶惠德%对于pmlr-v70-busa-fekete17a%我PMLR%电话625--634%U型https://proceedings.mlr.press/v70/busa-fekete17a.html%70伏%X我们研究了多武装强盗（MAB）问题，其中代理接收矢量反馈，该矢量反馈对许多可能竞争的目标进行编码以进行优化。代理人的目标是找到一个能够以公平的方式同时优化这些目标的策略。利用广义基尼指数（GGI）聚合函数对该多目标在线优化问题进行了形式化描述。我们提出了一种在线梯度下降算法，该算法利用了GGI聚合函数的凸性，并以谨慎的方式控制探索，以高概率实现无分布的遗憾$\tilde｛O｝（T^｛-1/2｝）$。我们在合成数据和电池控制问题上测试了我们的算法，其目标是权衡使用电池的不同电池，以平衡其各自的降解率。

亚太地区

Busa-Fekete，R.，SzöRényi，B.，Weng，P.&Mannor，S.（2017）。多目标匪徒：优化广义基尼指数。第34届国际机器学习会议记录，英寸机器学习研究进展70:625-634可从https://proceedings.mlr.press/v70/busa-fekete17a.html。

多目标匪徒：优化广义基尼指数

摘要

引用本文

相关材料