Web内容挖掘

WWW-2005和WISE-2005上提供的教程


新书: Web数据挖掘-浏览超链接,内容和使用数据

Web挖掘是一个快速发展的研究领域。它包括Web使用挖掘、Web结构挖掘和Web内容挖掘。Web使用挖掘是指从Web使用日志中发现用户访问模式。Web结构挖掘试图从超链接的结构中发现有用的知识。Web内容挖掘旨在从网页内容中提取/挖掘有用的信息或知识。本教程重点介绍Web内容挖掘。

Web内容挖掘与数据挖掘和文本挖掘相关但不同。它与数据挖掘相关,因为许多数据挖掘技术可以应用于Web内容挖掘。它与文本挖掘有关,因为大多数web内容都是文本。然而,它与数据挖掘也有很大不同,因为Web数据主要是半结构化和/或非结构化的,而数据挖掘主要处理结构化数据。由于Web的半结构性质,Web内容挖掘也不同于文本挖掘,而文本挖掘侧重于非结构化文本。因此,Web内容挖掘需要创造性地应用数据挖掘和/或文本挖掘技术以及它自己独特的方法。在过去几年中,Web内容挖掘领域的活动迅速扩展。这并不奇怪,因为Web内容的显著增长和这种挖掘的巨大经济效益。然而,由于Web数据的异构性和缺乏结构,自动发现目标或意外的知识信息仍然存在许多具有挑战性的研究问题。在本教程中,我们将研究以下重要的Web内容挖掘问题,并讨论解决这些问题的现有技术。还将调查其他一些新出现的问题。

所有这些任务都提出了重大的研究挑战,它们的解决方案也具有直接的现实应用。本教程将从Web内容挖掘的简短动机开始。然后,我们讨论了web内容挖掘和文本挖掘的区别,以及web内容挖掘与数据挖掘的区别。接下来介绍上述问题和当前最先进的技术。还将提供各种示例,以帮助参与者更好地理解如何部署此技术并帮助企业。本教程的所有部分都将融合研究和行业风格,阐述开创性的研究概念,并从行业角度看待技术。

PDF格式的幻灯片

工具书类

(如果我错过了你的工作,请告诉我,我会补充)


2005年5月15日创建人 刘冰(Bing Liu).