多目标匪徒:优化广义基尼指数
Róbert Busa-Fekete、Balázs SzöRényi、Paul Weng、Shie Mannor
第34届国际机器学习会议记录,PMLR 70:625-6342017年。
摘要
我们研究了多臂盗贼(MAB)问题,其中代理接收到一个矢量反馈,该反馈编码了许多可能要优化的竞争目标。代理人的目标是找到一个能够以公平的方式同时优化这些目标的策略。该多目标在线优化问题采用广义基尼指数(GGI)聚合函数形式化。我们提出了一种在线梯度下降算法,该算法利用了GGI聚集函数的凸性,并以谨慎的方式控制搜索,以高概率实现无分布遗憾$\ tilde{O}(T^{-1/2})$。我们在合成数据和电池控制问题上测试了我们的算法,其目标是权衡使用电池的不同电池,以平衡其各自的降解率。
引用本文
相关材料