Multi-scale Online Learning: Theory and Applications to Online Auctions and Pricing

Sébastien Bubeck; Nikhil R. Devanur; Zhiyi Huang; Rad Niazadeh

我们考虑在线拍卖/定价问题中的收入最大化。卖家在每个时期向新买家或新买家群出售相同的商品。对于在线定价问题，无论是当到达的买家出价还是只对公布的价格作出响应时，我们都设计了一种算法，该算法的后悔约束范围是事后看来最好的固定价格，而不是值的范围。在投标模型下，我们进一步证明了我们的算法实现的收入收敛速度与单物品单买家拍卖的离线样本复杂度相匹配。与要求市场份额下限的基准相比，我们还显示了无规模的遗憾边界，并与离线样本复杂性相匹配。我们进一步将我们的结果扩展到定价以外的多买家拍卖，并获得拍卖的在线学习算法，收敛速度与在线单项目多买家拍卖的已知样本复杂度上界匹配。这些结果是通过将专家的经典学习和多武器盗贼问题推广到其多尺度版本而得到的。在这个版本中，每个动作的奖励都在不同的范围内，对于给定动作的后悔会根据其范围而不是最大范围来衡量。我们通过引入一种新的在线镜像下降（OMD）算法来获得几乎最优的多尺度后悔界，该算法的镜像图是负熵函数的多尺度版本。通过引入该OMD算法的随机变量，我们进一步推广到强盗设置。

多尺度在线学习：理论及其在在线拍卖和定价中的应用

摘要