Bayesian Optimization for Policy Search via Online-Offline Experimentation

Benjamin Letham; Eytan Bakshy

在线实地实验是评估真实世界交互式机器学习系统变化的黄金标准方法。然而，我们探索复杂、多维政策空间的能力，例如在推荐和排名问题中发现的空间，往往受到可同时进行的实验数量有限的限制。为了缓解这些限制，我们使用离线模拟器增加在线实验，并应用多任务贝叶斯优化来调整实时机器学习系统。我们描述了这些类型的应用程序中出现的实际问题，包括使用模拟器时产生的偏差以及对多任务内核的假设。我们测量了经验学习曲线，这些曲线显示了从包含有偏离线实验的数据中获得的实质性收益，并显示了这些学习曲线如何与多任务高斯过程泛化的理论结果一致。我们发现，改进的核推理是多任务泛化的重要驱动因素。最后，我们展示了贝叶斯优化的几个例子，通过结合离线和在线实验，有效地调整了一个实时机器学习系统。

基于在线-离线实验的贝叶斯优化策略搜索

摘要