样本选择偏差下的稳健分类

的一部分神经信息处理系统进展27(NIPS 2014)

Biptex公司 元数据 纸类 评论 补充的

作者

刘安琪、布莱恩·齐巴特

摘要

在许多重要的机器学习应用中,用于估计概率分类器的源分布与分类器用于预测的目标分布不同。由于其渐近性质,样本重加权损失最小化是处理这种差异的常用技术。然而,给定有限数量的标记源数据,该技术在具有较大样本选择偏差的设置中存在显著的估计误差。我们开发了一个框架,用于使用极小极大估计公式鲁棒学习概率分类器,以适应不同的样本选择偏差。我们的方法只需要对源分布下的统计数据进行准确估计,否则对条件标签分布的未知属性尽可能稳健,除非包含明确的泛化假设。我们证明了我们的方法在合成和UCI二进制分类任务上的行为和有效性。