×

BigDansing公司

swMATH ID: 37874
软件作者: Khayyaty,Z.,Ilyasz,I.F.,Jindal,A.,Madden,S.,Ouzzani,M.,Papotti,P.,Quianíe-Ruiz,J.A.,Tang,N.,Yin,S。
描述: BigDansing:大数据清理系统。数据清理方法通常侧重于检测和修复错误,而很少注意扩展到大数据集。这是一个严重的障碍,因为数据清理通常涉及昂贵的计算,例如枚举元组对、处理不等式连接和处理用户定义的函数。在本文中,我们介绍了BigDansing,这是一个大数据清理系统,用于解决数据清理中的效率、可扩展性和易用性问题。该系统可以在最常见的通用数据处理平台上运行,从DBMS到类似MapReduce的框架。用户友好的编程界面允许用户以声明方式和程序方式表达数据质量规则,无需了解底层分布式平台。BigDansing将这些规则引入一系列转换中,从而实现分布式计算和一些优化,例如共享扫描和专用联接运算符。在合成数据集和实际数据集上的实验结果表明,BigDansing在不牺牲修复算法提供的质量的情况下,比现有基线系统的性能高出两个数量级以上。
主页: https://dl.acm.org/doi/10.1145/2723372.2747646
相关软件: AlexNet公司;OpenML-CC18接口;AlphaD3M(字母3M);TPOT公司;开放多媒体程序库;SMAC公司;可调性;超波段;类鸟群;自动调谐;样品清洁;活动清洁;AlphaClean公司;Distil公司;超参数猎人;全息清洗;科尼托;探索工具包;卡塔拉;顾问
引用于: 1文件

在1个字段中引用

1 计算机科学(68至XX)

按年份列出的引文