Transfer learning for contextual multi-armed bandits

摘要

受一系列应用的启发，本文研究了协变量转移模型下非参数上下文多武装盗贼的转移学习问题，其中我们在目标盗贼学习开始之前从源盗贼那里收集了数据。建立了累积后悔的最小最大收敛速度，并提出了一种新的达到最小最大后悔的转移学习算法。结果量化了源域数据在非参数上下文多武装盗贼环境下对目标域学习的贡献。

鉴于通常不可能适应未知平滑度，我们开发了一种数据驱动算法，该算法可以实现接近最优的统计保证（达到对数因子），同时在附加的自相似假设下自动适应大量参数空间上的未知参数。进行了仿真研究，以说明利用源域数据在目标域中进行学习的好处。

蔡昌晓。 T.Tony Cai。李洪哲。 “针对背景下多武装匪徒的转移学习。” 安。统计师。 52 (1) 207 - 232, 2024年2月。 https://doi.org/10.1214/23-AOS2341

接收日期：2022年11月1日;修订日期：2023年11月1日;发布日期：2024年2月

欧几里德项目首次推出：2024年3月7日

数学科学网：MR4718413型

数字对象标识符：10.1214/23-AOS2341

学科：

主要用户：62G08号

次要：62升12

关键词：适应性,背景下的多武器强盗,协变量移位,最低最高利率,遗憾界限,自相似性,迁移学习