摘要
托马斯·赫尔佐格(Thomas N.Herzog)、弗里茨·J·舍伦(Fritz J.Scheuren)和威廉·温克勒(William E.Winkler)。 数据质量和记录链接技术。 施普林格,2007年。 谷歌学者 数字图书馆 范文飞、李建忠、马帅、唐楠和于文元。 CerFix:使用特定修复程序清除数据的系统。 PVLDB,4(12):1375--13782011年。 谷歌学者 数字图书馆 海伦娜·加尔哈达斯(Helena Galhardas)、丹妮拉·弗洛雷斯库(Daniela Florescu)、丹尼斯·沙沙(Dennis Shasha)、埃里克·西蒙(Eric Simon)和克里斯蒂安·阿古斯汀·赛塔。 声明性数据清理:语言、模型和算法。 在VLDB中,第371-380页,2001年。 谷歌学者 数字图书馆 Vinayak R.Borkar、Michael J.Carey、Raman Grover、Nicola Onose和Rares Vernica。 Hyracks:数据密集型计算的灵活且可扩展的基础。 在ICDE中,第1151--1162页,2011年。 谷歌学者 数字图书馆 Ahmed K.Elmagarmid、Panagiotis G.Ipeirotis和Vassilios S.Verykios。 重复记录检测:一项调查。 IEEE传输。 知识。 数据工程,19(1):1--16,2007。 谷歌学者 数字图书馆 Erhard Rahm和Hong Hai Do。数据清理:问题和当前方法。 IEEE数据工程公告。, 23(4):3--13, 2000. 谷歌学者 菲利普·博哈农(Philip Bohannon)、范文飞(Wenfei Fan)、弗洛里斯·吉尔茨(Floris Geerts)、贾喜倍(Xibei Jia)和阿纳斯塔西奥斯·凯门齐迪斯(Anastasios Kementsietsidis)。 数据清理的条件函数依赖性。 在ICDE中,第746-755页,2007年。 谷歌学者 交叉引用 范文飞和弗洛里斯·吉尔茨。 相对信息完整性。 ACM事务处理。 数据库系统。, 35(4):27, 2010. 谷歌学者 数字图书馆 菲利普·博哈农(Philip Bohannon)、迈克尔·弗拉斯特(Michael Flaster)、范文飞(Wenfei Fan)和拉杰夫·拉斯托吉(Rajeev Rastogi)。 通过价值修正修复约束的基于成本的模型和有效启发式。 2005年6月14日至16日,美国马里兰州巴尔的摩举行的ACM SIGMOD国际数据管理会议记录,第143-154页,2005年。 谷歌学者 数字图书馆 高聪、范文飞、弗洛里斯·吉茨、贾西贝和马帅。提高数据质量:一致性和准确性。 2007年9月23日至27日,奥地利维也纳大学第33届超大数据库国际会议记录,第315-326页。 谷歌学者 数字图书馆 Amélie Marian和Minji Wu。 网络来源的验证信息。 IEEE数据工程公告。, 34(3):11--17, 2011. 谷歌学者 Xin Luna Dong、Laure Berti-Equille和Divesh Srivastava。 整合冲突数据:源依赖的作用。 PVLDB,2(1):550-5612009年。 谷歌学者 数字图书馆 王洪志、李明达、卜英一、李建忠、高红和张嘉诚。 Cleanix:一个大数据清洁帕菲。 2014年11月3日至7日,中国上海,第23届ACM信息与知识管理国际会议记录,第2024-2026页,2014年。 谷歌学者 数字图书馆 Vinayak R.Borkar、Michael J.Carey和Chen Li。“大数据管理”内部:食人魔、洋葱还是帕菲? EDBT,第3-14页,2012年。 谷歌学者 数字图书馆 埃斯科·乌科宁。 使用q-grams和最大匹配的近似字符串匹配。 西奥。 计算。 科学。, 92(1):191--211, 1992. 谷歌学者 数字图书馆 Li Lingli,Wang Hongzhi,Hong Gao,and Jianzhong Li。EIF:有效实体识别的框架。 WAIM,第717-728页,2010年。 谷歌学者 数字图书馆
建议
Cleanix:大数据清洁Parfait CIKM’14:第23届ACM信息和知识管理国际会议记录 在这个演示中,我们展示了Cleanix,一个用于清理关系型大数据的原型系统。 Cleanix从多个数据源中获取集成的数据,并在无共享的机器集群上清理这些数据。 后端系统建立在可扩展和。。。