×

使用紧凑骨架查询网站。 (英语) Zbl 1054.68037号

摘要:一些商业应用程序,如在线比较购物和流程自动化,需要集成分散在多个网站或XML文档中的信息。对此问题进行了大量研究,产生了一些研究原型和商业实现。这样的系统依赖于包装器,包装器为网站提供关系或其他结构化接口。传统上,包装器是在每个站点上手工构建的,这限制了系统的可伸缩性。我们引入了一种称为紧凑骨架的网站结构推理机制,这是朝着自动生成包装器的方向迈出的一步。紧凑框架提供了从网站或其他层次数据(如XML文档)到关系表的转换。我们研究了几类紧骨架,并提供了多项式时间算法和启发式算法,用于从网站自动构建紧骨架。实验结果表明,我们的启发式算法在实践中效果良好。我们还认为,紧凑骨架是商业部署的包装构造技术的自然延伸。

MSC公司:

68第05页 数据结构
68M10个 计算机系统中的网络设计和通信
68M99型 计算机系统组织

软件:

无DoSE
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] S.Abiteboul,查询半结构化数据,收录于:《数据库理论国际会议论文集》,1997年。;S.Abiteboul,《查询半结构化数据》,载于:《数据库理论国际会议论文集》,1997年。
[2] B.Adelberg,Nodose-从文本文档中半自动提取结构化和半结构化数据的工具,收录于:ACM SIGMOD国际数据管理会议记录,1998年。;B.Adelberg,Nodose-从文本文档中半自动提取结构化和半结构化数据的工具,收录于:ACM SIGMOD国际数据管理会议记录,1998年。
[3] N.Ashish,C.Knoblock,《互联网信息源的半自动包装器生成》,收录于:1997年《CoopIS学报》。;N.Ashish,C.Knoblock,《互联网信息源的半自动包装器生成》,收录于:1997年《CoopIS学报》。
[4] 阿什什,N。;Knoblock,C.,《半结构化互联网源的包装器生成》,SIGMOD Rec.,26,4,8-15(1997)
[5] P.Atzeni,G.Mecca,剪切与粘贴,载于:第十六届ACM数据库系统原理研讨会论文集,1997年,第144-153页。;P.Atzeni,G.Mecca,剪切与粘贴,载于:第十六届ACM数据库系统原理研讨会论文集,1997年,第144-153页·Zbl 0939.68156号
[6] C.Beeri,T.Milo,《结构化和半结构化数据的集成和翻译模式》,摘自:《数据库理论国际会议论文集》,1999年。;C.Beeri,T.Milo,《结构化和半结构化数据的集成和翻译模式》,载于:《数据库理论国际会议论文集》,1999年。
[7] S.Brin,《从万维网中提取模式和关系》,收录于:国际WebDB研讨会,西班牙巴伦西亚,1998年,第172-183页。;S.Brin,《从万维网中提取模式和关系》,收录于:国际WebDB研讨会,西班牙巴伦西亚,1998年,第172-183页。
[8] P.Buneman,S.Davidson,M.Fernandez,D.Suciu,《为非结构化数据添加结构》,载《数据库理论国际会议论文集》,1997年。;P.Buneman,S.Davidson,M.Fernandez,D.Suciu,《为非结构化数据添加结构》,载于:《数据库理论国际会议论文集》,1997年。
[9] P.Buneman,S.Davidson,G.Hillebrand,D.Suciu,非结构化数据的查询语言和优化技术,摘自:ACM SIGMOD国际数据管理会议论文集,1996年。;P.Buneman,S.Davidson,G.Hillebrand,D.Suciu,非结构化数据的查询语言和优化技术,收录于:ACM SIGMOD国际数据管理会议论文集,1996年。
[10] V.Christophides,S.Abiteboul,S.Cluet,M.Scholl,《从结构化文档到新型查询工具》,载于:《ACM SIGMOD国际数据管理会议论文集》,1994年。;V.Christophides,S.Abiteboul,S.Cluet,M.Scholl,从结构化文档到新型查询工具,载于:ACM SIGMOD国际数据管理会议论文集,1994年。
[11] S.Cluet、C.Delobel、J.Simeon、K.Smaga,你的调解人需要数据转换!in:1998年ACM SIGMOD国际数据管理会议记录。;S.Cluet、C.Delobel、J.Simeon、K.Smaga,你的调解人需要数据转换!载于:1998年ACM SIGMOD国际数据管理会议记录。
[12] R.Doorenbos,O.Etzioni,D.S.Weld,全球网络的可扩展比较跳跃代理,载于:《第一届自治代理国际会议论文集》,1997年。;R.Doorenbos,O.Etzioni,D.S.Weld,全球网络的可扩展比较跳跃代理,载于:《第一届自治代理国际会议论文集》,1997年。
[13] D.W.Embley,D.M.Campbell,Y.S.Jiang,Y.-K Ng,R.D.Smith,S.W.Liddle,D.W.Quass,从网络中提取数据的概念建模方法,载于:《第17届国际概念建模会议论文集》(ER'98),1998年。;D.W.Embley,D.M.Campbell,Y.S.Jiang,Y.-K.Ng,R.D.Smith,S.W.Liddle,D.W.Quass,从网络中提取数据的概念建模方法,收录于:第17届国际概念建模会议(ER'98),1998年。
[14] D.W.Embley,L.Xu,非结构化多记录web文档中的记录位置和重新配置,收录于:JJCAI-2001自适应文本提取和挖掘研讨会,2001年。;D.W.Embley,L.Xu,非结构化多记录web文档中的记录位置和重新配置,收录于:JJCAI-2001自适应文本提取和挖掘研讨会,2001年。
[15] Garcia-Molina,H。;Papakonstantinou,Y。;奎斯·D·。;Rajaraman,A。;萨吉夫,Y。;乌尔曼,J.D。;瓦萨洛斯五世。;Widom,J.,《中介数据模型和语言的TSIMMIS方法》,J.Intell。通知。系统,8,2,117-132(1997)
[16] Garey,M.R。;Johnson,D.S.,《计算机与难处理性:NP-完全性理论指南》(1979),W.H.Freeman and Company:W.H.Freeman和Company,纽约州纽约市·Zbl 0411.68039号
[17] M.Garofalakis,A.Gionis,R.Rastogi,S.Seshadri,K.Shim,XTRACT:从XML文档中提取文档类型描述符的系统,收录于:ACM SIGMOD国际数据管理会议论文集,2000年。;M.Garofalakis,A.Gionis,R.Rastogi,S.Seshadri,K.Shim,《XTRACT:从XML文档中提取文档类型描述符的系统》,载于:《ACM SIGMOD国际数据管理会议论文集》,2000年。
[18] R.Goldman,J.Widom,《数据指南:在半结构化数据库中实现查询公式化和优化》,载《第23届超大数据库国际会议论文集》,1997年。;R.Goldman,J.Widom,《数据指南:在半结构化数据库中实现查询公式化和优化》,载《第23届超大数据库国际会议论文集》,1997年。
[19] A.Gupta,V.Harinarayan,D.Quass,A.Rajaraman,构建半结构化信息查询和解释的方法和装置,美国专利号58262581998。;A.Gupta,V.Harinarayan,D.Quass,A.Rajaraman,构建半结构化信息查询和解释的方法和设备,美国专利号58262581998。
[20] A.Gupta,V.Harinarayan,A.Rajaraman,虚拟数据库技术,摘自:《第十四届国际数据工程会议论文集》,1998年2月23日至27日,美国佛罗里达州奥兰多,IEEE计算机学会,马里兰州银泉,1998年,第297-301页。;A.Gupta,V.Harinarayan,A.Rajaraman,虚拟数据库技术,摘自:《第十四届国际数据工程会议论文集》,1998年2月23日至27日,美国佛罗里达州奥兰多,IEEE计算机学会,马里兰州银泉,1998年,第297-301页。
[21] J.Hammer,H.Garcia-Molina,J.Cho,R.Aranha,A.Crespo,《从网络中提取半结构化信息》,收录于:半结构化数据管理研讨会,1997年。;J.Hammer,H.Garcia-Molina,J.Cho,R.Aranha,A.Crespo,《从网络中提取半结构化信息》,收录于:半结构化数据管理研讨会,1997年。
[22] IBM公司,IBM公司网站上的工作清单,;IBM公司,IBM公司网站上的工作清单,
[23] L.Jensen,W.Cohen,《对提取字段进行分组》,载于:WebDB(非正式会议),2000年,第123-128页。;L.Jensen,W.Cohen,《对提取字段进行分组》,载于:WebDB(非正式会议记录),2000年,第123-128页。
[24] N.Kushmerick,D.S.Weld,R.Doorenbos,《信息提取的包装归纳法》,载《1997年国际人工智能联合会议论文集》,1997年。;N.Kushmerick,D.S.Weld,R.Doorenbos,《信息提取的包装归纳法》,载于:《1997年国际人工智能联合会议论文集》,1997年。
[25] A.Y.Levy,A.Rajaraman,J.J.Ordille,《使用源描述查询异构信息源》,载于《第22届超大数据库国际会议论文集》,1996年,第251-262页。;A.Y.Levy,A.Rajaraman,J.J.Ordille,《使用源描述查询异构信息源》,载《第22届超大数据库国际会议论文集》,1996年,第251-262页。
[26] T.Milo,S.Zohar,《使用模式匹配简化异构数据翻译》,载《第24届超大数据库国际会议论文集》,1998年。;T.Milo,S.Zohar,《使用模式匹配简化异构数据翻译》,载于:《第24届超大数据库国际会议论文集》,1998年。
[27] I.Muslea,S.Minton,C.Knoblock,《Stalker:半结构化网络信息源的学习提取规则》,收录于:《1998年AAAI会议记录:人工智能与信息集成研讨会》,1998年。;I.Muslea,S.Minton,C.Knoblock,《Stalker:半结构化网络信息源的学习提取规则》,收录于:《1998年AAAI会议记录:人工智能与信息集成研讨会》,1998年。
[28] S.Nestorov,S.Abiteboul,R.Motwani,从半结构化数据中提取模式,收录于:ACM SIGMOD国际数据管理会议论文集,1998年。;S.Nestorov,S.Abiteboul,R.Motwani,《从半结构化数据中提取模式》,载于《ACM SIGMOD国际数据管理会议论文集》,1998年。
[29] S.Nestorov,J.Ullman,J.Wiener,S.Chawathe,《代表性对象:半结构化层次数据的重合表示》,载《第十三届国际数据工程会议论文集》,1997年。;S.Nestorov,J.Ullman,J.Wiener,S.Chawathe,《代表性对象:半结构化层次数据的重合表示》,载《第13届国际数据工程会议论文集》,1997年。
[30] D.Quass,A.Rajaraman,Y.Sagiv,J.Ullman,J.Widom,查询半结构化、异构信息,载于:第四届演绎和面向对象数据库国际会议论文集,1995年。;D.Quass,A.Rajaraman,Y.Sagiv,J.Ullman,J.Widom,查询半结构化、异构信息,摘自:第四届演绎和面向对象数据库国际会议论文集,1995年。
[31] J.Shanmugasundaram,K.Tufte,G.He,C.Zhang,D.DeWitt,J.Naughton,用于查询XML文档的关系数据库:局限性和机遇,收录于:《第25届超大数据库国际会议论文集》,1999年。;J.Shanmugasundaram,K.Tufte,G.He,C.Zhang,D.DeWitt,J.Naughton,用于查询XML文档的关系数据库:局限性和机遇,收录于:《第25届超大数据库国际会议论文集》,1999年。
[32] S.Soderland,《学习从万维网中提取基于文本的信息》,载于:第三届知识发现和数据挖掘国际会议论文集,1997年。;S.Soderland,《学习从万维网中提取基于文本的信息》,载于《第三届知识发现和数据挖掘国际会议论文集》,1997年。
[33] Sun Microsystems网站上的职位列表。;太阳微系统公司,太阳微系统公司网站上的职位列表。
[34] 砰!实验室,Flipdog.com求职网站。;砰!实验室,Flipdog.com求职网站。
[35] 砰!实验室,WhizBang!实验室公司网站。;砰!实验室,WhizBang!实验室公司网站。
[36] M.Yannakakis,《非循环数据库方案的算法》,载《第七届超大数据库国际会议论文集》,1981年,第82-94页。;M.Yannakakis,《非循环数据库方案的算法》,载《第七届超大数据库国际会议论文集》,1981年,第82-94页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。