×

LSCrawler(LS爬虫)

swMATH ID: 36765
软件作者: M.Yuvarani、N.C.S.N.Iyengar、A.Kannan
描述: LSCrawler:基于链接语义的增强型聚焦Web爬虫框架。聚焦网络爬虫的传统过程是获取聚焦于主题子空间的网络文档集合。聚焦爬虫的复杂性在于确定下一个最重要和相关的链接。聚焦爬虫主要依靠概率模型来预测文档的相关性。Web文档具有超文本的良好特征,超文本可用于确定文档与搜索域的相关性。链接的语义表征了所引用文档的语义。在本文中,提出了一种新颖、独特的主题爬虫,名为LSCrawler。这个LSCrawler系统通过根据链接中的关键字和链接周围的文本推测文档的相关性来检索文档。通过测量链接中的关键字和特定领域的分类层次结构之间的语义相似性,计算文档的相关性。该系统利用了链接中关键字的语义,因此具有更好的召回能力。
主页: https://dl.acm.org/doi/10.1109/WI.2006.112
相关软件: Swoogle标志;SPARQL公司
引用于: 0个文档