×

后悔在线组合优化。 (英语) Zbl 1341.68309号

摘要:当决策者的可能行为由二进制向量表示时,我们解决了在线线性优化问题。决策者的遗憾在于,她所意识到的损失与她事后选择最佳行动所能实现的最小损失之间的差异。我们的目标是了解最大可能后悔的程度。我们在决策者收到反馈的三种不同假设下研究了该问题:完全信息,以及所谓“半强盗”和“强盗”问题的部分信息模型。在全信息情况下,我们证明了标准指数加权平均预测是一种可证明的次优策略。对于半强盗模型,通过结合镜像下降算法和隐式规范化预测(INF)策略,我们能够证明第一个最优界。最后,在强盗案例中,我们根据一个新的下限讨论了现有结果,并提出了该案例中最优后悔的一个猜想。

MSC公司:

68周27 在线算法;流式算法
90C27型 组合优化
91A60型 概率博弈;赌博
91B06型 决策理论
PDF格式BibTeX公司 XML格式引用