跳到主要内容
采访

Cleanix:并行大数据清理系统

出版:2016年5月9日出版历史
跳过抽象节

摘要

对于大数据来说,数据质量问题更为严重。大数据清理系统需要可扩展性和处理混合错误的能力。基于此,我们开发了Cleanix,一个用于清理关系型大数据的原型系统。Cleanix从多个数据源获取集成的数据,并在一个无共享的机器集群上对其进行清理。后端系统构建在可扩展且灵活的数据并行基板Hyracks框架之上。Cleanix支持各种数据清理任务,如异常值检测和纠正、不完整数据填充、消除重复和冲突解决。在本文中,我们展示了Cleanix的组织、数据清理算法以及设计。

工具书类

  1. 托马斯·赫尔佐格(Thomas N.Herzog)、弗里茨·J·舍伦(Fritz J.Scheuren)和威廉·温克勒(William E.Winkler)。数据质量和记录链接技术。施普林格,2007年。谷歌学者谷歌学者数字图书馆数字图书馆
  2. 范文飞、李建忠、马帅、唐楠和于文元。CerFix:使用特定修复程序清除数据的系统。PVLDB,4(12):1375--13782011年。谷歌学者谷歌学者数字图书馆数字图书馆
  3. 海伦娜·加尔哈达斯(Helena Galhardas)、丹妮拉·弗洛雷斯库(Daniela Florescu)、丹尼斯·沙沙(Dennis Shasha)、埃里克·西蒙(Eric Simon)和克里斯蒂安·阿古斯汀·赛塔。声明性数据清理:语言、模型和算法。在VLDB中,第371-380页,2001年。谷歌学者谷歌学者数字图书馆数字图书馆
  4. Vinayak R.Borkar、Michael J.Carey、Raman Grover、Nicola Onose和Rares Vernica。Hyracks:数据密集型计算的灵活且可扩展的基础。在ICDE中,第1151--1162页,2011年。谷歌学者谷歌学者数字图书馆数字图书馆
  5. Ahmed K.Elmagarmid、Panagiotis G.Ipeirotis和Vassilios S.Verykios。重复记录检测:一项调查。IEEE传输。知识。数据工程,19(1):1--16,2007。谷歌学者谷歌学者数字图书馆数字图书馆
  6. Erhard Rahm和Hong Hai Do。数据清理:问题和当前方法。IEEE数据工程公告。,23(4):3--13, 2000.谷歌学者谷歌学者
  7. 菲利普·博哈农(Philip Bohannon)、范文飞(Wenfei Fan)、弗洛里斯·吉尔茨(Floris Geerts)、贾喜倍(Xibei Jia)和阿纳斯塔西奥斯·凯门齐迪斯(Anastasios Kementsietsidis)。数据清理的条件函数依赖性。在ICDE中,第746-755页,2007年。谷歌学者谷歌学者交叉引用交叉引用
  8. 范文飞和弗洛里斯·吉尔茨。相对信息完整性。ACM事务处理。数据库系统。,35(4):27, 2010.谷歌学者谷歌学者数字图书馆数字图书馆
  9. 菲利普·博哈农(Philip Bohannon)、迈克尔·弗拉斯特(Michael Flaster)、范文飞(Wenfei Fan)和拉杰夫·拉斯托吉(Rajeev Rastogi)。通过价值修正修复约束的基于成本的模型和有效启发式。2005年6月14日至16日,美国马里兰州巴尔的摩举行的ACM SIGMOD国际数据管理会议记录,第143-154页,2005年。谷歌学者谷歌学者数字图书馆数字图书馆
  10. 高聪、范文飞、弗洛里斯·吉茨、贾西贝和马帅。提高数据质量:一致性和准确性。2007年9月23日至27日,奥地利维也纳大学第33届超大数据库国际会议记录,第315-326页。谷歌学者谷歌学者数字图书馆数字图书馆
  11. Amélie Marian和Minji Wu。网络来源的验证信息。IEEE数据工程公告。,34(3):11--17, 2011.谷歌学者谷歌学者
  12. Xin Luna Dong、Laure Berti-Equille和Divesh Srivastava。整合冲突数据:源依赖的作用。PVLDB,2(1):550-5612009年。谷歌学者谷歌学者数字图书馆数字图书馆
  13. 王洪志、李明达、卜英一、李建忠、高红和张嘉诚。Cleanix:一个大数据清洁帕菲。2014年11月3日至7日,中国上海,第23届ACM信息与知识管理国际会议记录,第2024-2026页,2014年。谷歌学者谷歌学者数字图书馆数字图书馆
  14. Vinayak R.Borkar、Michael J.Carey和Chen Li。“大数据管理”内部:食人魔、洋葱还是帕菲?EDBT,第3-14页,2012年。谷歌学者谷歌学者数字图书馆数字图书馆
  15. 埃斯科·乌科宁。使用q-grams和最大匹配的近似字符串匹配。西奥。计算。科学。,92(1):191--211, 1992.谷歌学者谷歌学者数字图书馆数字图书馆
  16. Li Lingli,Wang Hongzhi,Hong Gao,and Jianzhong Li。EIF:有效实体识别的框架。WAIM,第717-728页,2010年。谷歌学者谷歌学者数字图书馆数字图书馆

建议

评论

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

登录

完全访问权限

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器