×

ERBlox:将匹配依赖项与机器学习相结合,用于实体解析。 (英语) Zbl 1404.68093号

摘要:实体解析(ER)是一个重要而常见的数据清理问题,它涉及检测相同外部实体的数据重复表示,并将其合并为单个表示。最近,声明性规则被称为匹配依赖项(MD)被提出用于指定相似条件,在这些条件下,数据库记录中的属性值被合并。在这项工作中,我们展示了集成ER四个组件的过程和好处:(a)为使用机器学习(ML)技术构建的重复/非重复记录对构建分类器;(b) 使用MD支持ML的阻塞阶段;(c) 基于分类器结果的记录合并;和(d)声明性语言的使用逻辑QL–由逻辑Blox平台——用于与数据处理以及MD的规范和实施相关的所有活动。

MSC公司:

68T05型 人工智能中的学习和自适应系统
第68页,共15页 数据库理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abiteboul,S。;船体,R。;维亚努,V.,《数据库基础》(1995),艾迪森·韦斯利·Zbl 0848.68031号
[2] Arasu,A。;Ré,Ch。;Suciu,D.,《使用重复数据消除的约束条件下的大规模重复数据消除》,(第25届国际数据工程会议论文集。第25届数据工程国际会议论文集,ICDE(2009)),952-963
[3] Aref,M。;十Cate,B。;格林·T·J。;Kimelfeld,B。;奥尔特阿努,D。;帕萨利克,E。;Veldhuizen,T。;Washburn,G.,《LogicBlox系统的设计与实现》,(《ACM国际数据管理会议纪要》,《ACM数据管理国际会议纪要,SIGMOD(2015)》),1371-1382
[4] Bahmani,Z。;贝托西,L。;科拉希,S。;Lakshmanan,L.,通过匹配依赖项和答案集程序进行声明性实体解析,(《第十三届知识表示和推理原则国际会议论文集》,KR(2012),380-390
[5] Bahmani,Z。;贝托西,L。;Vasilogou,N.,ERBlox:将匹配依赖性与机器学习相结合,以实现实体解析,(第九届可扩展不确定性管理国际会议议事录。第九届国际可扩展不确定度管理会议议事录,第九届不确定度国际会议议事稿。第九次国际可扩展管理会议议事稿,SUM,LNAI,第9310卷(2015),施普林格),399-414
[7] Bahmani,Z。;Bertossi,L.,《使用数据日志强制关系匹配依赖关系以实现实体解析》,2016年
[8] Baudat,G。;Anouar,F.,使用核方法的广义判别分析,神经计算。,12, 3, 2385-2404 (2000)
[9] 巴克斯特,R。;Christen,P。;Churches,T.A.,《记录链接的快速阻塞方法比较》(ACM SIGKDD数据清理、记录链接和对象识别研讨会(2003)),234-256
[10] 本杰伦,O。;Garcia-Molina,H。;梅内斯特琳娜,D。;苏,Q。;Euijong Whang,S。;Widom,J.,Swoosh:实体解析的通用方法,VLDB J.,18,1255-276(2009)
[11] 贝托西,L。;科拉希,S。;Lakshmanan,L.,《数据:使用匹配依赖项和匹配函数进行清理和查询应答》,《理论计算》。系统。,52, 3, 441-482 (2013) ·Zbl 1270.68102号
[12] 巴塔查里亚,I。;Getoor,L.,关系数据中的集合实体解析,ACM Trans。知识。迪斯科。数据,1,1,15-51(2007)
[13] 布莱霍尔德,J。;Naumann,F.,数据融合,ACM计算。调查。,41, 1 (2008)
[14] Brewka,G。;Th.艾特。;Truszczynski,M.,回答集编程一览,Commun。ACM,54,12,92-103(2011)
[15] Ceri,S。;Gottlob,G。;Tanca,L.,《逻辑编程与数据库》(1989),施普林格出版社
[16] Christen,P.,使用种子最近邻和支持向量机分类的自动记录链接,(第14届ACM知识发现和数据挖掘国际会议论文集,第14届AC知识发现和数据库挖掘国际会议文献集,SIGKDD(2008)),151-159
[17] Christen,P.,《可扩展记录链接和重复数据消除的索引技术调查》,IEEE Trans。知识。数据工程,19,1,1-16(2011)
[18] Christen,P。;Goiser,K.,《数据链接和重复数据消除的质量和复杂性度量》(Guillet,F.;Hamilton,H.,《数据挖掘中的质量度量》(2010),Springer),127-151
[19] 科恩,W.C。;拉维库马尔,P.D。;Fienberg,S.E.,《匹配名称和记录的字符串度量的比较》(KDD数据清理和对象整合研讨会(2003年))
[20] 盖,T.M。;Hart,P.E.,最近邻模式分类,IEEE Trans。Inf.理论,13,1,21-27(1967)·Zbl 0154.44505号
[21] 北卡罗来纳州克里斯蒂亚尼尼。;Shawe-Taylor,J.,《支持向量机和其他基于核的学习方法简介》(2000),剑桥大学出版社
[22] Dash,M。;Liu,H.,分类特征选择,Intell。数据分析。,1, 1-4, 131-156 (1997)
[23] Diligenti,M。;戈里,M。;马格吉尼,M。;Rigutini,L.,桥接逻辑和内核机器,马赫。学习。,86, 1, 57-88 (2012) ·兹比尔1243.68238
[24] 美国德拉伊斯巴赫。;Naumann,F.,《重复检测的分块和加窗算法的比较和推广》,(VLDB QDB研讨会(2009年),43-52
[25] Elmagarmid,A。;伊佩罗提斯,P。;Verykios,V.,《重复记录检测:调查》,IEEE Trans。知识。数据工程,19,1,1-16(2007)
[26] Fan,W.,《为提高数据质量而重新审视依赖关系》,(第二十七届ACM SIGMOD-SIGACT-SIGART数据库系统原理研讨会论文集,第二十六届ACM SIMOD-SIGAT-SIGART数据库系统原理会议论文集,PODS(2008)),159-170
[27] 风扇,W。;贾,X。;李,J。;Ma,S.,《关于记录匹配规则的推理》,Proc。荷兰VLDB。,2, 1, 407-418 (2009)
[28] Flach,P.,《机器学习》(2014),剑桥大学出版社·Zbl 1317.68005号
[29] Fürnkranz,J。;Gamberger,D。;Lavrać,N.,《规则学习基础》(2012),施普林格出版社·Zbl 1263.68002号
[30] (Getoor,L.;Taskar,B.,《统计关系学习导论》(2007),麻省理工学院出版社)·Zbl 1141.68054号
[31] Halpin,T。;Rugaber,S.,《LogiQL:智能数据库的查询语言》(2015),CRC出版社
[32] Herzog,T.N。;Scheuren,F.J。;Winkler,W.E.,《数据质量和记录链接技术》(2007),施普林格出版社·Zbl 1262.62004号
[33] Jaro,M.,用于匹配Tampa,J.Amer 1985年人口普查的记录链接方法的进展。Stat.Soc.,84,406,414-420(1989)
[34] Jaro,M.A.,大型公共卫生数据文件的概率链接,《统计医学杂志》,第14、1、491-498页(1995年)
[35] Kopcke,H。;Rahm,E.,《实体匹配框架:比较》,《数据知识》。工程,69,2,197-210(2010)
[37] Navarro,G.,《近似字符串匹配导览》,ACM Compute。调查。,33, 1, 31-88 (2001)
[38] Nin,J。;蒙特斯,V。;Martinez-Bazan,N。;Larriba,J.,《语义块技术在数据清理和集成中的应用》(Proc.IDEAS(2007),IEEE Press),190-198
[39] Papadakis,G。;斯维尔斯基,J。;加尔,A。;Palpanas,T.,实体解析近似分块技术的比较分析,Proc。荷兰VLDB。,9, 9, 684-695 (2016)
[40] 帕彭布罗克,T。;Naumann,F.,《功能依赖性发现的混合方法》(Proc.SIGMOD(2016)),821-833
[41] 拉斯托吉,V。;Dalvi,N.N。;Garofalakis,M.N.,《大规模集体实体匹配》,Proc。荷兰VLDB。,208-218年4月4日(2011年)
[42] 萨尔顿,G。;Buckley,C.,自动文本检索中的术语加权方法,Inf.Process。管理。,24, 5, 513-523 (1988)
[43] Song,S。;Chen,L.,发现匹配依赖,(CIKM Proc.(2009)),1421-1424
[44] Song,S。;Chen,L.,匹配依赖的相似约束的高效发现,数据知识。工程,87,146-166(2013)
[45] 斯特尔斯,R。;文图拉,S。;萨迪丽娜,M。;Fienberg,S.,《记录链接阻塞方法的比较》,(Proc.Privacy in Statistical Databases.Proc.Privation in Statistic Databases,PSD.Proc.Privision in Statustical Databases。Proc.Privocy in Statistical Database,PSD,LNCS,vol.8744(2014),Springer),第253-268页
[46] Tang,J。;Alelyani,S。;刘浩,《分类的特征选择:综述》,(数据分类:算法与应用(2015),CRC出版社),37-64·Zbl 1377.68210号
[47] 托维克,I。;Smalheiser,R.,《medline中的作者姓名消歧》,ACM Trans。知识。迪斯科。数据,11,3,1-29(2009)
[48] Vapnik,V.N.,《统计学习理论的本质》(2000),斯普林格出版社·Zbl 0934.62009号
[49] 黄,S。;O.Benjelloun。;Garcia-Molina,H.,带否定规则的通用实体解析,VLDB J.,18,6,1261-1277(2009)
[50] 黄,S。;梅内斯特琳娜,D。;库特里卡,G。;西奥博尔德,M。;Garcia-Molina,H.,带迭代块的实体解析,(《ACM国际数据管理会议议事录》,《ACM数据管理国际会议议事录,SIGMOD(2009)》),219-232
[51] Winkler,W.E.,《记录关联状态和当前研究问题》(1999年),美国人口普查局,技术报告
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。