主页

论文

提交文件

新闻

编辑委员会

特殊问题

开源软件

程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

贝叶斯非参数众包

巴勃罗·莫雷诺(Pablo G.Moreno)、安东尼奥·阿泰斯·罗德里格斯(Antonio Artes-Rodriguez)、叶维德(Yee Whye Teh)、弗恩(Fern)、奥佩雷斯-克鲁兹(o Perez-Cruz); 16(48):1607−1627, 2015.

摘要

众包已被证明是注释大型数据集的有效工具。用户注释通常是有噪声的,因此有必要使用方法来组合注释以生成对地面真实情况的可靠估计。我们声称,在这个组合步骤中考虑用户集群的存在可以提高性能。这在众包实施的早期阶段尤其重要,因为在早期阶段,注释的数量很少。在这个阶段,没有足够的信息来准确估计每个注释器分别引入的偏差,因此我们不得不求助于考虑它们之间统计联系的模型。此外,发现这些集群本身也很有趣,因为了解注释器池的行为可以实现有效的主动学习策略。基于此,我们在本文中提出了两个新的完全无监督模型,基于中餐厅流程(CRP)先验和允许结合基本事实和用户属性推断这些群体的层次结构。提出了基于辅助变量吉布斯抽样的高效推理算法。最后,我们在合成数据库和真实数据库上进行了实验,以展示我们的模型相对于最先进算法的优势。

[腹肌][pdf格式][围兜]      
©JMLR公司2015(编辑,贝塔)

乳齿象