摘要
Vinayak R.Borkar、Michael J.Carey、Raman Grover、Nicola Onose和Rares Vernica。 Hyracks:数据密集型计算的灵活且可扩展的基础。 在ICDE中,第1151--1162页,2011年。 谷歌学者 数字图书馆 Vinayak R.Borkar、Michael J.Carey和Chen Li。“大数据管理”内部:食人魔、洋葱还是帕菲? EDBT,第3-14页,2012年。 谷歌学者 数字图书馆 杰弗里·迪恩(Jeffrey Dean)和桑杰·盖马沃特(Sanjay Ghemawat)。 MapReduce:简化大型集群上的数据处理。 在OSDI中,第137-150页,2004年。 谷歌学者 数字图书馆 范文飞、李建忠、马帅、唐楠和于文元。 CerFix:使用特定修复程序清除数据的系统。 PVLDB,4(12):1375--13782011年。 谷歌学者 数字图书馆 海伦娜·加尔哈达斯(Helena Galhardas)、丹妮拉·弗洛雷斯库(Daniela Florescu)、丹尼斯·沙沙(Dennis Shasha)、埃里克·西蒙(Eric Simon)和克里斯蒂安·阿古斯汀·赛塔。 声明性数据清理:语言、模型和算法。 在VLDB中,第371-380页,2001年。 谷歌学者 数字图书馆 托马斯·赫尔佐格(Thomas N.Herzog)、弗里茨·J·舍伦(Fritz J.Scheuren)和威廉·温克勒(William E.Winkler)。 数据质量和记录链接技术。 施普林格,2007年。 谷歌学者 数字图书馆 Li Lingli,Wang Hongzhi,Hong Gao,and Jianzhong Li。EIF:有效实体识别的框架。 WAIM,第717-728页,2010年。 谷歌学者 数字图书馆
建议
Cleanix:并行大数据清理系统 对于大数据来说,数据质量问题更为严重。 大数据清理系统需要可扩展性和处理混合错误的能力。 基于此,我们开发了Cleanix,一个用于清理关系型大数据的原型系统。 Cleanix获取数据。。。