Web内容挖掘
WWW-2005和WISE-2005上提供的教程
Web挖掘是一个快速发展的研究领域。它包括Web使用挖掘、Web结构挖掘和Web内容挖掘。Web使用挖掘是指从Web使用日志中发现用户访问模式。Web结构挖掘试图从超链接的结构中发现有用的知识。Web内容挖掘旨在从网页内容中提取/挖掘有用的信息或知识。本教程重点介绍Web内容挖掘。
Web内容挖掘与数据挖掘和文本挖掘相关但不同。它与数据挖掘相关,因为许多数据挖掘技术可以应用于Web内容挖掘。它与文本挖掘有关,因为大多数web内容都是文本。然而,它与数据挖掘也有很大不同,因为Web数据主要是半结构化和/或非结构化的,而数据挖掘主要处理结构化数据。由于Web的半结构性质,Web内容挖掘也不同于文本挖掘,而文本挖掘侧重于非结构化文本。因此,Web内容挖掘需要创造性地应用数据挖掘和/或文本挖掘技术以及它自己独特的方法。在过去几年中,Web内容挖掘领域的活动迅速扩展。这并不奇怪,因为Web内容的显著增长和这种挖掘的巨大经济效益。然而,由于Web数据的异构性和缺乏结构,自动发现目标或意外的知识信息仍然存在许多具有挑战性的研究问题。在本教程中,我们将研究以下重要的Web内容挖掘问题,并讨论解决这些问题的现有技术。还将调查其他一些新出现的问题。
- 数据/信息提取:我们的重点将是从网页中提取结构化数据,如产品和搜索结果。提取这样的数据允许提供服务。本文介绍了两种主要的技术,机器学习和自动提取。
- Web信息集成与模式匹配:尽管Web包含大量数据,但每个网站(甚至页面)都以不同的方式表示相似的信息。在许多实际应用中,如何识别或匹配语义相似的数据是一个非常重要的问题。研究了一些现有技术和问题。
- 在线来源的意见提取:有许多在线意见来源,例如客户对产品的评论、论坛、博客和聊天室。挖掘意见(尤其是消费者意见)对于营销情报和产品标杆管理非常重要。我们将介绍一些任务和技术来挖掘此类资源。
- 知识合成:概念层次结构或本体在许多应用程序中都很有用。然而,手动生成它们非常耗时。本文将介绍一些探索Web信息冗余的现有方法。主要应用是合成和组织Web上的信息片段,为用户提供主题领域的连贯图片。。
- 网页分割与噪声检测:在许多Web应用程序中,只需要网页的主要内容,而不需要广告、导航链接和版权声明。自动分割网页以提取页面的主要内容是一个有趣的问题。在过去几年中,提出了许多有趣的技术。
所有这些任务都提出了重大的研究挑战,它们的解决方案也具有直接的现实应用。本教程将从Web内容挖掘的简短动机开始。然后,我们讨论了web内容挖掘和文本挖掘的区别,以及web内容挖掘与数据挖掘的区别。接下来介绍上述问题和当前最先进的技术。还将提供各种示例,以帮助参与者更好地理解如何部署此技术并帮助企业。本教程的所有部分都将融合研究和行业风格,阐述开创性的研究概念,并从行业角度看待技术。
PDF格式的幻灯片
- 每页2张幻灯片
- 欢迎您的评论。
- 如果你需要PowerPoint文件,请给我发一封电子邮件。
(如果我错过了你的工作,请告诉我,我会补充)
2005年5月15日创建人 刘冰(Bing Liu).