计算机科学››2017,第44卷››问题(9):208-215。数字对象标识:10.11896/j.issn.1002-137X.2017.09.039

软件与数据库技术 • 上一篇   下一篇

基于列重合度的网络表格一致性扩展

齐飞,王宁,张丽方,孙伟娟  

  1. 北京交通大学计算机与信息技术学院 北京100044,北京交通大学计算机与信息技术学院 北京100044,北京交通大学计算机与信息技术学院 北京100044,北京交通大学计算机与信息技术学院 北京100044
  • 出版日期:2018-11-13 发布日期:2018-11-13
  • 基金资助:
    本文受国家自然科学基金面上项目(61370060)资助

基于列重叠的一致Web表增强

齐飞、王宁、张丽芳、孙伟娟  

  • 在线:2018-11-13 出版:2018-11-13

摘要:网络表格的扩展是根据已知信息扩展与主列相关的其他属性列,以满足人们通过表格获取感兴趣信息的需求。目前的研究工作主要针对由主列和待扩展列组成的实体-属性二元表,并将主列视为其他属性列扩展的唯一依据,但该技术运用到具有多个待扩展列的网络表格时,由多个二元表拼接而成的结果表很容易出现实体不一致现象。综合考虑各属性列间以及元组行间的关系,提出一致性支持度概念,设计并实现了基于列重合度的表格一致性扩展系统CCA、,中国计算机辅助控制系统有更高的精确度、覆盖率、一致性,以及更低的查询时间代价。

关键词: 网络表格扩展,列重合度,列映射,一致性支持度

摘要:Web表扩充是指基于主列或其他已知信息扩展表内容,帮助人们获取感兴趣的信息。当前的研究重点是由主列和扩展列组成的实体属性二进制表,其中主列是唯一的基础。当应用于具有多个要扩展列的表时,由二进制表合并的结果表会出现实体不一致问题。我们提出了基于列之间以及表中元组之间关系的一致性支持度,并实现了基于列重叠的表一致性增强CCA系统。我们的方法使用尽可能少的源表来保持候选值的高匹配分数,以避免实体不一致。实验结果表明,与现有方法相比,该CCA系统具有更高的准确性、覆盖率、一致性和更低的查询时间开销。

关键词: Web表增强、列重叠度、列映射、一致支持度

[1] CAFARELLA M J,HALEVY A,WANG D Z,等.网络Ta-bles:探索网络上表格的力量[J]。Vldb捐赠会议记录,2008年,1(1):538-549。
[2] CAFARELLA M J,HALEVY A Y,ZHANG Y,等.揭示关系网络[C]‖网络与数据库国际研讨会,WEBDB 2008.2008。
[3] LIAO T,LIU Z T,SUN R.Web表定位技术的研究和实现[J]。计算机科学,2009,36(9):227-230廖涛,刘宗田,孙荣.网状物表格定位技术的研究与实现[J] ●●●●。计算机科学,2009,36(9):227-230.
[4] 王恩,任海伟.检测Web表的快照[J]。计算机科学,2015,42(7):5-11王宁,任红伟.网络表格间的快照关系发现[J] ●●●●。计算机科学,2015,42(7):5-11.
[5] CAFARELLA M J,HALEVY A,KHOUSSAINOVA N.关系Web的数据集成[J]。Vldb捐赠会议记录,2009,2(1):1090-1101。
[6] GONZALE H,HALEVY A Y,JENSEN C S等。谷歌融合表:以网络为中心的数据管理和协作[C]‖ACM SIGMOD国际数据管理会议(SIGMOD 2010)。2010:1061-1066。
[7] GONZALE H,HALEVY A,JENSEN C S,et al.谷歌融合表:云计算中的数据管理、集成和协作[C]‖首届ACM云计算研讨会论文集。美国医学会,2010:175-180。
[8] SARMA A D,FANG L,GUPTA N,等。查找相关表格[C]‖Acm Sigmod国际数据管理会议。美国医学会,2012:817-828。
[9] BALAKRISHNAN S,HALEVY A,HARB B,et al.WebTables在实践中的应用[C]‖创新数据系统研究两年期会议.2015。
[10] YAKOUT M,GANJAM K,CHAKR ABARTI K,等.信息专家:通过与web表的整体匹配进行实体增强和属性发现[C]‖ACM SIGMOD国际数据管理会议。美国医学会,2012:97-108。
[11] 张M,CHAKRABARTI K.InfoGather+:Web表中数字和时变属性的语义匹配与注释[C]‖ACM SIGMOD国际数据管理会议.2013:145-156。
[12] YANG M,DING B,CHAUDURI S,et al.使用关键字在知识库中查找模式以组成表格答案[J]。Vldb捐赠会会议记录,2014,7(14):1809-1820。
[13] 王C,CHAKRABARTI K,HE Y,等.利用Web表进行概念扩展[C]‖第24届万维网国际会议论文集.2015:1198-1208。
[14] PIMPLIKAR R,SARAWAGI S.使用列关键字回答网上的表查询[J]。Vldb捐赠会议记录,2012,5(10):908-919。
[15] GUPTA R,SARAWAGI S.从网络上的非结构化列表中回答表扩充查询[J]。Vldb捐赠会议记录,2009,2(1):289-300。
[16] LEHMBERG O,RITZE D,RISTOSKI P,et al.使用来自一百多万个网站的数据扩展表格[C]‖Semantic Web Challenge.2014。
[17] BIZER C.搜索与网络联合[C]‖ICDT.2014:3。
[18] 李明博,李泽德,李斯托斯基,等.曼海姆搜索引擎[J]。万维网上的Web语义科学服务与代理,2015,35(P3):159-166。
[19] BRAUNSCHWEIG K,THIELE M,E BERIUS J,等.网络表的特定列上下文提取[C]‖ACM应用计算专题讨论会。美国医学会,2015:1072-1077。
[20] EBERIUS J,THIELE M,BRAUNSCHWEIG K,等.使用一致集合覆盖的Top-kentity增强[C]‖SSDBM.2015:1-12。
[21]LAUTERT L R,SCHEIDT M M,DORNELES C F.Web表分类和形式化[J]。ACM Sigmod记录,2013,42(3):28-33。
[22]宋S,张A,陈L,等.用广泛相似邻域丰富数据插补[J]。Vldb捐赠会议记录,2015,8(11):1286-1297。

找不到相关文章!
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!