跳到主要内容
10.1145/2254129.2254207交流会议文章/章节视图摘要出版物页面wims公司会议记录会议集合
短纸

用于信息提取和在线评论挖掘的计算有效算法

出版:2012年6月13日 出版历史
  • 获取引文警报
  • 摘要

    万维网提供具有类似语义结构的连续信息源,如新闻源、用户评论和用户对各种主题的评论。这些资源对于在线意见挖掘的目标至关重要。本文提出了一种计算效率高的网页结构化信息提取算法。该算法结合了结构化数据分析和文本内容的自然语言处理。它将包含新闻、评论或用户评论的HTML页面映射到自定义设计的RSS提要式结构。这些信息通常包括文本意见,以及出版日期、产品价格、作者姓名和影响力等事实信息。由于数据源的实时性,这种解决方案的计算复杂性应该是线性的或接近线性的。该算法的计算复杂度是线性的。相比之下,以前发布的类似方法的复杂性不小于O(运行)(n个2). 此外,我们使用真实数据进行了实验,提取精度达到84%至92%,与该领域的最新结果相当。最后,本文对实验结果进行了讨论,并分享了所获得的经验,这些经验可以为该算法在其他领域的应用提供借鉴。

    工具书类

    [1]
    Baxter I.D.、Yahin A.、Moura L.、Sant’Anna M.、Bier L.1998年。使用抽象语法树进行克隆检测。程序。ICSM’98的.
    [2]
    Ciravegna F.2000。学习标记以从文本中提取信息。程序。ECAI-2000的.
    [3]
    Crescenzi V.,麦加G.2004。从大型网站自动提取信息。美国临床医学杂志美国纽约州纽约市第5号第51卷:ACM(2004)第731-779页。
    [4]
    Ferrara E.,Baumgartner R.,2011年。智能方法与应用的结合——施普林格。
    [5]
    Ferrara E.、Fiumara G.、Baumgartner R.,2010年。“Web数据提取、应用和技术:综述”,技术报告.
    [6]
    Freitag D.1998年。从HTML中提取信息:通用学习方法的应用。程序。第十五届全国人工智能大会(AAAI-98)。
    [7]
    Godbole N.、Srinivasaiah M.、Skiena S.,2007年。新闻和博客的大规模情绪分析,ICWSM。
    [8]
    Grefenslette G.、Qu Y.、Evans和D.A.、Shanahan J.G.,2006年。验证用于情感分析的词汇资源覆盖率并沿语义轴自动分类新词,Springer。
    [9]
    Hassan A.,Radev D.,2010年。使用随机走动识别文本极性,计算语言学协会会议录.
    [10]
    Muslea I.,Minton S.,Knoblock C.A.,1999年。包装归纳法的层次方法。程序。国际自治代理大会(代理'99),第190-197页。
    [11]
    Peng F.,McCallum A.2004年。使用条件随机场从研究论文中准确提取信息,HLT-NAACL04号机组第329-336页。
    [12]
    Satpal S.、Bhadra S.、Sundararajan S.、Rastogi R.、Sen P.,2011年。第20届国际会议论文集,万维网,美国纽约州纽约市ACM。
    [13]
    Tekli J.、Chbeir R.、Yetongnon K.,2009年。“XML相似性概述:背景、当前趋势和未来方向”,《计算机科学评论》,第3卷,第3期,第151-173页.
    [14]
    杨伟1991。识别两个程序之间的句法差异。软件实践实验,21(7),第739-755页。
    [15]
    翟瑜,刘斌,2005。使用基于实例的学习提取Web数据。程序。第六届网络信息系统工程国际会议(WISE’05),第318-331页。
    [16]
    Zhai Y.,Liu B.2005基于部分树对齐的Web数据提取。程序。第14届国际互联网会议(WWW'05),第76-85页。

    引用人

    查看全部
    • (2021)基于模式匹配和自动回溯的文本提取新技术2021年IEEE电力电子、计算机应用国际会议(ICPECA)10.1109/ICPECA51329.2021.9362630(79-82)在线发布日期:2021年1月22日
    • (2016)在线数据挖掘的前景和挑战数据挖掘与大数据10.1007/978-3-319-40973-3_2(15-23)在线发布日期:2016年6月14日
    • (2014)SORM公司2014年IEEE/WIC/ACM网络智能(WI)和智能代理技术(IAT)国际联合会议记录-第01卷10.1109/WI-于2019年14月20日(78-85)在线发布日期:2014年8月11日
    • 显示更多引用者

    索引术语

    1. 用于信息提取和在线评论挖掘的计算有效算法

      建议

      评论

      信息和贡献者

      问询处

      发布于

      封面图片ACM其他会议
      WIMS’12:第二届网络智能、挖掘和语义国际会议论文集
      2012年6月
      571页
      国际标准图书编号:9781450309158
      DOI(操作界面):10.1145/2254129
      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

      赞助商

      • 加州大学:克拉奥瓦大学
      • 西挪威研究所

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      出版:2012年6月13日

      权限

      请求对此文章的权限。

      检查更新

      作者标记

      1. 信息提取
      2. 树匹配
      3. 包装器

      限定符

      • 短片

      资金来源

      会议

      WIMS’12
      赞助商:
      • UCV公司
      • WNRI公司
      WIMS’12:第二届网络智能、挖掘和语义国际会议
      2012年6月13日至15日
      罗马尼亚克拉奥瓦

      接受率

      总体接受率278份提交文件中的140份,50%

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 下载次数(过去12个月)2
      • 下载次数(最近6周)0

      其他指标

      引文

      引用人

      查看全部
      • (2021)一种新的基于模式匹配和自动回溯的文本提取技术2021年IEEE电力电子、计算机应用国际会议(ICPECA)10.1109/ICPECA51329.2021.9362630(79-82)在线发布日期:2021年1月22日
      • (2016)在线数据挖掘的前景和挑战数据挖掘与大数据10.1007/978-3-319-40973-3_2(15-23)在线发布日期:2016年6月14日
      • (2014)SORM公司2014年IEEE/WIC/ACM网络智能(WI)和智能代理技术(IAT)国际联合会议记录-第01卷10.1109/WI-IAT.2014.19(78-85)在线发布日期:2014年8月11日
      • (2014)高等教育系统与区域劳动力市场互动决策的信息空间建模2014年第十二届电子仪器工程实际问题国际会议(APEIE)10.1109/APEIE.2014.7040759(617-623)在线发布日期:2014年10月

      视图选项

      获取访问权限

      登录选项

      完全访问权限

      查看选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享