×

一种测量模糊XML文档结构相似性的方法。 (英语) Zbl 1369.68174号

摘要:文档匹配已成为数据集成的关键任务。文献中提出了大量用于比较XML文档的算法。然而,现有方法在识别模糊XML文档的结构相似性方面存在不足。为了填补这一空白,在本文中,我们提供了一种集成的比较方法来处理模糊XML文档的结构相似性。首先,我们提出了一种新的模糊XML文档树模型来表示模糊XML文档。其次,我们提供了元素/属性特征相似性度量方法来识别匹配节点。第三,我们提出了一种基于树编辑距离的有效算法来检测用该模型表示的模糊XML文档树之间的结构相似性。最后,实验结果表明,我们的方法可以有效地执行模糊XML文档的结构相似性度量。

MSC公司:

68第05页 数据结构
68英里11 互联网主题

软件:

ProTDB公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Thomo A,Venkatesh S(2008)重写用于xml数据集成的可视下推语言。摘自:第17届ACM信息和知识管理会议记录。纳帕谷ACM,第521-530页·Zbl 1225.68084号
[2] Nierman A,Jagadish HV(2002)评估XML文档中的结构相似性。收录:ACM SIGMOD WebDB会议记录,第2卷。ACM,麦迪逊,第61-66页
[3] Dalamagas T,Cheng T,Winkel KJ等人(2006)一种按结构对XML文档进行聚类的方法。信息系统31(3):187-228。doi:10.1016/j.is.2004.11.009·doi:10.1016/j.is.2004.11.009
[4] Guha S、Jagadish HV、Koudas N、Srivastava D、Yu T(2006)使用近似联接集成XML数据源。ACM跨数据库系统31(1):161-207·数字对象标识代码:10.1145/1132863.1132868
[5] Köpcke H,Rahm E(2010)《实体匹配框架:比较》。数据知识工程69(2):197-210。doi:10.1016/j.datak.2009.10.003·doi:10.1016/j.datak.2009.10.003
[6] Ribeiro L,[H\ddot{a}\]a¨rder T(2006)XML文档中的实体标识。In:第18届GI-数据库基础车间,第130-134页
[7] Weis M、Naumann F、Brosy F(2006)XML(和关系)数据的重复检测基准。信息系统信息质量SIGMOD 2006研讨会。芝加哥
[8] Oliboni B,Pozzani G(2008)用XML模式表示模糊信息。摘自:第19届数据库和专家系统应用国际会议论文集。都灵,第683-687页。doi:10.1109/DEXA.2008.44·Zbl 1202.68121号
[9] Abiteboul S,Segoufin L,Vianu V(2006)用不完整信息表示和查询XML。ACM Trans数据库系统31(1):208-254·doi:10.1145/1132863.1132869
[10] Nierman A,Jagadish HV(2002)ProTDB:XML中的概率数据。收录:第28届国际会议关于各种大型数据库的会议记录。香港,VLDB捐赠基金,第646-657页。doi:10.1016/B978-155860869-6/50063-9
[11] Negoita C,Zadeh L,Zimmermann H(1978)模糊集作为可能性理论的基础。模糊集系统1:3-28·Zbl 0377.04002号 ·doi:10.1016/0165-0114(78)90028-3
[12] Gaurav A,Alhajj R(2006)在XML中引入模糊性并将模糊关系数据映射到模糊XML。摘自:2006年ACM应用计算研讨会论文集。ACM,Dijon,第456-460页。doi:10.145/1141277.1141386
[13] Turowski K,Weng U(2002)表示和处理模糊信息——基于XML的方法。基于知识的系统15(1):67-75。doi:10.1016/S0950-7051(01)00122-8·doi:10.1016/S0950-7051(01)00122-8
[14] Tekli J,Chbeir R,Traina AJ,Traina C,Fileto R(2015)基于文档语法树相似性的近似XML结构验证。《信息科学》295:258-302·Zbl 1360.68388号 ·doi:10.1016/j.ins.2014.09.044
[15] Tekli J,Chbeir R(2012)基于子树共性和标签语义的新型XML文档结构比较框架。网络语义11:14-40。doi:10.1016/j.websem.2011.10.002·doi:10.1016/j.websem.2011.10.002
[16] Algergawy A,Nayak R,Saake G(2010)XML模式匹配中的元素相似性度量。《信息科学》180(24):4975-4998。doi:10.1016/j.ins.2010.08.022·Zbl 1046.35091号 ·doi:10.1016/j.ins.2010.08.022
[17] Wojnar A,MlínkováI,Dokulil J(2010),文档类型定义和XML模式相似性的结构和语义方面。信息科学180(10):1817-1836·doi:10.1016/j.ins.2009.12.024
[18] Sabbah T,Selamat A,Ashraf M,Herawan T(2014)同义词库大小对模式匹配质量的影响。基于知识的系统71:211-226。doi:10.1016/j.knosys.2014.08.002·doi:10.1016/j.knosys.2014.08.002
[19] Ma ZM,Yan L(2007)使用UML和关系数据模型进行模糊XML数据建模。数据知识工程63(3):972-996。doi:10.1016/j.datak.2007.06.003·doi:10.1016/j.datak.2007.06.003
[20] Nicol G、Wood L、Champion M等人(2001)文档对象模型(DOM)级别3核心规范。W3C工作草案13:1-146
[21] Cohen W W、Ravikumar P、Fienberg S E(2003)《姓名匹配任务字符串距离度量的比较》。In:Kdd数据清理和对象整合研讨会,第3卷。华盛顿,第73-78页
[22] Lin D(1998)相似性的信息理论定义。摘自:机器学习国际会议论文集。麦迪逊,第296-304页
[23] Levenshtein VI(1966)能够纠正删除的二进制代码。插入反转Sov Phys Doklady 6:707-710
[24] Navarro G(2001)一个近似字符串匹配的导游。ACM计算概况33(1):31-88·doi:10.1145/375360.375365
[25] Marie A,Gal A(2008)《推进模式匹配器》。在:OTM 2008联合会国际会议记录。会议。斯普林格,蒙特雷,第283-300页
[26] XML数据存储库。http://www.cs.washington.edu/research/xmldatasets网站/
[27] Sorrentino S,Bergamaschi S,Gawinecki M,Po L(2010)用于改进模式匹配的模式标签规范化。数据知识工程69(12):1254-1273。doi:10.1016/j.datak.2010.10.004·doi:10.1016/j.datak.2010.10.004
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。