跳到主要内容
10.1145/2661829.2661837acm会议文章/章节视图摘要出版物页面cikm公司会议记录会议集合
演示

Cleanix:大数据清洁Parfait

出版:2014年11月3日出版历史

摘要

在这个演示中,我们展示了Cleanix,一个用于清理关系型大数据的原型系统。Cleanix从多个数据源中获取集成的数据,并在无共享的机器集群上清理这些数据。后端系统建立在可扩展和灵活的数据并行基础Hyracks框架之上。Cleanix支持各种数据清理任务,如异常值检测和更正、不完整数据填充、重复数据消除和冲突解决。我们证明了Cleanix是一个实用的工具,支持大规模高效的数据清理。

工具书类

  1. Vinayak R.Borkar、Michael J.Carey、Raman Grover、Nicola Onose和Rares Vernica。Hyracks:数据密集型计算的灵活且可扩展的基础。在ICDE中,第1151--1162页,2011年。谷歌学者谷歌学者数字图书馆数字图书馆
  2. Vinayak R.Borkar、Michael J.Carey和Chen Li。“大数据管理”内部:食人魔、洋葱还是帕菲?EDBT,第3-14页,2012年。谷歌学者谷歌学者数字图书馆数字图书馆
  3. 杰弗里·迪恩(Jeffrey Dean)和桑杰·盖马沃特(Sanjay Ghemawat)。MapReduce:简化大型集群上的数据处理。在OSDI中,第137-150页,2004年。谷歌学者谷歌学者数字图书馆数字图书馆
  4. 范文飞、李建忠、马帅、唐楠和于文元。CerFix:使用特定修复程序清除数据的系统。PVLDB,4(12):1375--13782011年。谷歌学者谷歌学者数字图书馆数字图书馆
  5. 海伦娜·加尔哈达斯(Helena Galhardas)、丹妮拉·弗洛雷斯库(Daniela Florescu)、丹尼斯·沙沙(Dennis Shasha)、埃里克·西蒙(Eric Simon)和克里斯蒂安·阿古斯汀·赛塔。声明性数据清理:语言、模型和算法。在VLDB中,第371-380页,2001年。谷歌学者谷歌学者数字图书馆数字图书馆
  6. 托马斯·赫尔佐格(Thomas N.Herzog)、弗里茨·J·舍伦(Fritz J.Scheuren)和威廉·温克勒(William E.Winkler)。数据质量和记录链接技术。施普林格,2007年。谷歌学者谷歌学者数字图书馆数字图书馆
  7. Li Lingli,Wang Hongzhi,Hong Gao,and Jianzhong Li。EIF:有效实体识别的框架。WAIM,第717-728页,2010年。谷歌学者谷歌学者数字图书馆数字图书馆

索引术语

  1. Cleanix:大数据清洁Parfait

    建议

    评论

    登录选项

    检查您是否可以通过登录凭据或您的机构访问本文。

    登录

    完全访问权限

    • 发布于

      封面图片ACM会议
      CIKM’14:第23届ACM信息和知识管理国际会议记录
      2014年11月
      2152页
      国际标准图书编号:9781450325981
      内政部:10.1145/2661829

      版权所有©2014所有者/作者

      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的部分或全部数字或硬拷贝以供个人或课堂使用。必须尊重本作品第三方组件的版权。对于所有其他用途,请联系所有者/作者。

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      • 出版:2014年11月3日

      检查更新

      限定符

      • 演示

      接受率

      2014年CIKM纸张接受率175属于838提交文件,21%总体验收率1,861属于8,427提交文件,22%

      即将召开的会议

      CIKM’24
      第33届ACM信息与知识管理国际会议
      2024年10月21日至25日
      博伊西,身份证件,美国

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用eReader联机查看。

    电子阅读器