计算机科学>机器学习
标题: 记录数据的半监督批学习
摘要: 非策略学习方法旨在从记录的数据中学习策略,其中包括每个样本点的上下文、操作和反馈(成本或回报)。 在这项工作中,我们建立在反事实风险最小化框架的基础上,该框架还假设可以获得倾向得分。 对于某些样本缺少反馈的问题,我们提出了学习方法,因此在记录的数据中存在带有反馈的样本和缺少反馈的样本。 我们将这种类型的学习称为基于日志数据的半监督批处理学习,它出现在广泛的应用领域中。 为了解决这类学习问题,我们推导了在逆倾向得分估计下真实风险的一个新的上界。 利用这个界,我们提出了一种带记录数据的正则化半监督批学习方法,其中正则化项是反馈相关的,因此可以使用记录的缺失反馈数据进行评估。 因此,即使反馈仅针对某些样本,也可以通过利用缺失反馈样本来学习学习策略。 基于基准数据集的实验结果表明,与日志策略相比,这些算法实现的策略具有更好的性能。