Semi-supervised Batch Learning From Logged Data

Aminian, Gholamali; Behnamnia, Armin; Vega, Roberto; Toni, Laura; Shi, Chengchun; Rabiee, Hamid R.; Rivasplata, Omar; Rodrigues, Miguel R. D.

计算机科学>机器学习

arXiv:2209.07148（cs）

【2022年9月15日提交(第1版)，上次修订日期：2024年2月18日（本版本，第3版）]

标题：记录数据的半监督批学习

作者：Gholamali阿米尼亚语,阿明·贝纳姆尼亚,罗伯托·维加,劳拉·托尼,石成春,哈米德·拉比（Hamid R.Rabiee）,奥马尔·里瓦斯普拉塔,米盖尔·罗德里格斯

查看PDF

摘要：非策略学习方法旨在从记录的数据中学习策略，其中包括每个样本点的上下文、操作和反馈（成本或回报）。在这项工作中，我们建立在反事实风险最小化框架的基础上，该框架还假设可以获得倾向得分。对于某些样本缺少反馈的问题，我们提出了学习方法，因此在记录的数据中存在带有反馈的样本和缺少反馈的样本。我们将这种类型的学习称为基于日志数据的半监督批处理学习，它出现在广泛的应用领域中。为了解决这类学习问题，我们推导了在逆倾向得分估计下真实风险的一个新的上界。利用这个界，我们提出了一种带记录数据的正则化半监督批学习方法，其中正则化项是反馈相关的，因此可以使用记录的缺失反馈数据进行评估。因此，即使反馈仅针对某些样本，也可以通过利用缺失反馈样本来学习学习策略。基于基准数据集的实验结果表明，与日志策略相比，这些算法实现的策略具有更好的性能。

评论：	46页，
学科：	机器学习（cs.LG）; 人工智能；信息理论（cs.IT）
引用为：	arXiv公司：2209.07148【cs.LG】
	（或 arXiv:2209.07148v3【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2209.07148

提交历史记录

发件人：Gholamali Aminian[查看电子邮件]
[第1版]2022年9月15日星期四08:58:28 UTC（160 KB）
[版本2]2022年9月28日星期三09:46:14 UTC（175 KB）
[第3版]2024年2月18日星期日15:26:01 UTC（456 KB）

计算机科学>机器学习

标题：记录数据的半监督批学习

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：记录数据的半监督批学习

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目