×

web文档分类的混合表示模型。 (英语) Zbl 1140.68379号

摘要:大多数Web内容分类方法都是基于信息检索的向量空间模型。这种表示模型的一个最重要的优点是,它既可以用于基于实例的分类器,也可以用于基于模型的分类器。然而,这种流行的文档表示方法并没有捕获重要的结构信息,例如单词出现的顺序和接近程度或单词在文档中的位置。它也没有使用可以从Web文档HTML标记中轻松提取的标记信息。最近开发的基于图形的Web文档表示模型可以保留Web文档的结构信息。结果表明,该算法优于使用(k)-最近邻(k)-NN)分类算法的传统矢量表示。然而,问题是急切的(基于模型的)分类器不能直接使用这种表示。在本文中,提出了三种新的Web文档分类的混合方法,它们建立在图形和向量空间表示的基础上,从而保留了各自的优点并克服了各自的局限性。在几个基准Web文档集合上,使用C4.5决策树和概率朴素贝叶斯分类器,将本文提出的混合方法与基于向量的模型进行了比较。结果表明,在大多数情况下,本文提出的混合方法在分类精度方面都优于现有方法,并且显著缩短了分类时间。

MSC公司:

68第20页 信息存储和数据检索
68M10个 计算机系统中的网络设计与通信
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 网络信息:处理过载问题。In:Proc Information 1997,苏格兰佩斯利图书馆协会CIG斯特拉斯克莱德商学院;1997年11月。第37-44页。
[2] , . 使用超链接增强超文本分类。在:,编辑器中。1998年美国计算机学会SIGMOD国际数据管理会议记录,西雅图,华盛顿州。SIGMOD 98。纽约:ACM出版社;1998年6月1日至4日。第307–318页。
[3] , . Web内容挖掘的图论技术。机器感知和人工智能系列。新泽西州哈肯萨克:世界科学;2005年,第62页·Zbl 1077.68007号 ·数字对象标识代码:10.1142/5832
[4] Bunke,图案识别Lett 18 pp 689–(1997)
[5] Bunke,IEEE Trans-Pattern Ana Mach Intell 21第917页–(1999)
[6] C4.5:机器学习程序。加利福尼亚州旧金山:Morgan Kaufmann;1993
[7] 估计贝叶斯分类器中的连续分布。收录于:加拿大魁北克省蒙特利尔市麦吉尔大学第十一届人工智能不确定性大会。加利福尼亚州圣马特奥:Morgan Kaufmann;1995年,第338–345页。
[8] Salton,J Commun ACM 18第613页–(1975)
[9] 博利,AI Rev 13 pp 365–(1999)
[10] , . 评估新闻分类的自适应用户配置文件。In:葡萄牙马德拉Funchal第九届智能用户界面国际会议;2004年1月。
[11] 基于主题的网络新闻检索。In:第23届国际ACM SIGIR信息检索研究与开发年会,希腊雅典;2000年7月。
[12] 比较Naive Bayes文本分类的事件模型。In:Proc AAAI-98文本分类学习研讨会,美国威斯康星州麦迪逊;1998
[13] Weiss,J IEEE Intell Syst 14第63页–(1999)
[14] 自动文本检索中的术语权重方法。技术报告:TR87-881,康奈尔大学,纽约州伊萨卡;1988年11月。
[15] 现代信息检索导论。纽约:McGraw-Hill;1983. ·Zbl 0523.68084号
[16] Apt'e,ACM Trans Inf Syst 12第233页–(1994年)
[17] .使用很少的单词对文档进行分层分类。In:Proc ICML-97,第14届机器学习国际会议,田纳西州纳什维尔;1997年,第170–178页。
[18] 用于文档检索的短语自动索引实验:句法和非句法方法的比较。纽约州伊萨卡市康奈尔大学计算机科学系博士论文;1987
[19] , . Wordnet改进了文本文档聚类。In:加拿大多伦多第26届国际ACM SIGIR年会的Proc Semantic Web Workshop;2003
[20] 文本分类任务中短语和聚类表示的评估。In:Proc SIGIR-92,第15届ACM信息检索研究与开发国际会议,丹麦哥本哈根;ACM,1992年。第37-50页。
[21] 学习使用ILP方法对英语文本进行分类。In:编辑器。归纳逻辑程序设计进展。阿姆斯特丹:IOS出版社;1995年,第3-24页。
[22] 学习逻辑:归纳逻辑编程简介。技术报告:CS-EXT-1998-141;布里斯托尔大学,英国布里斯托尔,1988年。
[23] 昆兰,《新一代计算》13,第287页–(1995年)
[24] , , , . 学习从万维网上提取符号知识。In:美国威斯康星州麦迪逊第十五届全国人工智能会议(AAAI98);1998年,第509–516页。
[25] 结合朴素贝叶斯和n元语言模型进行文本分类。主题:《信息检索进展:第25届欧洲红外研究会议》,ECIR 2003,意大利比萨;2003年4月14日至16日。第335-350页。
[26] Tan,信息处理管理38第529页-(2002年)
[27] 。一种简单的、对结构敏感的Web文档分类方法。收录人:Szczepaniak PS等人,编辑。内容:网络智能进展。第三届大西洋网络情报会议(AWIC 2005),波兰罗兹。LNAI,第3528卷。柏林/海德堡:斯普林格·弗拉格;2005年,第293–298页。
[28] 高效的基于图形的Web文档表示。In:葡萄牙波尔图第三届采矿图、树和序列国际研讨会(MGTS2005);2005年10月7日。第52-62页。
[29] , . 以图形表示的Web文档的基于模型的分类。In:Proc WebKDD 2006在宾夕法尼亚州费城KDD举办的网络知识发现研讨会;2006年8月20日。第31-38页。
[30] Kuramochi,IEEE Trans Knowl Data Eng 16第1038页–(2004)
[31] .gSpan:基于图的子结构模式挖掘。收录于:2002年IEEE数据挖掘国际会议(ICDM’02)。华盛顿特区:IEEE计算机学会;2002年12月9日至12日。第721-724页。
[32] 图同构问题。加拿大阿尔伯塔省埃德蒙顿市阿尔伯塔大学计算科学系TR96-20技术报告;1996
[33] 计算机与难处理性:NP-完备性理论指南。纽约:W.H.弗里曼公司;1979. ·Zbl 0411.68039号
[34] Boley,《数据挖掘知识发现2》,第325页–(1998年)
[35] Boley,12月《支持系统》27页329–(1999)
[36] , . 相似性度量对网页聚类的影响。见:德克萨斯州奥斯汀,AAAI/MIT出版社,AAAI网络搜索人工智能研讨会(AAAI 2000);2000年7月。第58-64页。
[37] 波特,程序14,第130页–(1980)·doi:10.1108/eb046814
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。