CEKA:人群环境及其知识分析


张静(音译)
东南大学网络科学与工程学院
电子邮件:jingz AT seu.edu.cn

CEKA已经被来自30多个国家的研究人员下载。(细节)

CEKA是一个用Java编写的软件包,专注于分析通过众包从多名员工那里获得的数据。具体来说,CEKA致力于揭示工人用以注释数据的标签。CEKA整合了数据挖掘软件威卡(Waikato Environment for Knowledge Analysis)集成到其功能中,提供方便、简单的界面。


首先,CEKA提供了易于使用的数据加载方法。一旦加载了数据,CEKA可以利用强大的方法对众包数据执行共识(标签集成)。CEKA向用户提供了KOS(Karger、Oh和Shah)和DS(Dawid和Skene)等共识方法,这两种方法均以其创建者的名字命名。由于众包(一个人工过程)不可避免地会导致一些数据注释错误,CEKA还提供了一些噪声过滤器和噪声校正方法可以用来减少错误的影响。CEKA的几个噪声滤波器包括分类滤波器和多分区滤波器。


CEKA架构

CEKA支持整个知识发现过程,包括分析、推理和模型学习。它具有层次结构。在数据层中,CEKA能够读取由威卡, 其中包含用于后续模型构建的实例的功能。在推理和学习层,它提供了大量的推理算法和一批噪声处理算法。该层中的核心类派生自中的相关类威卡在应用层,CEKA提供了许多实用程序,例如计算性能评估指标(即准确性、召回率、精确度、F源、AUC、M-AUC),操作数据(即,洗牌、拆分和合并数据)等。



单击相应链接访问方形BATC公司.


算法

CEKA目前提供了大量不可知推理算法,如多数投票(MV)、,自适应加权多数投票(AWMV)、Dawid&Skene算法(DS)、GLAD、KOS等。,以及一批噪声处理算法,如分类滤波(CF)、迭代分区滤波(IPF)、,多分区滤波(MPF)、投票滤波(VF)、抛光标签校正(PLC)等。


用法示例

下面的例子演示了一个简单的实验,包括基本真理推理,噪声校正和性能评估。在这个示例代码中,如DS,所有推理算法都提供统一的接口函数do推断它为每个实例分配一个集成标签。这个班级数据集与类完全兼容实例在里面威卡可以直接由威卡分类器作为其参数来训练模型。正如代码所示,当类性能统计应用于数据集提供了基本事实的对象。


有关CEKA及其使用方法的更多信息,请查看用户指南.


点击在这里下载CEKA的最新稳定版本。


或者,您可以访问sourceforge.net来源CEKA的项目摘要页面(您也可以在其中下载CEKA)在这里.