×

基于中心的文本分类中的类规范化。 (英语) Zbl 1092.68665号

基于中心的分类是文本分类中最流行的算法之一。在这种方法中,当文本集合中的文档大小不同和/或类中的文档数量不平衡时,规范化是提高基于中心的分类器性能的一个重要因素。过去,大多数研究人员应用文档规范化,例如文档长度规范化,而一些研究人员考虑使用一种简单的类规范化,即所谓的类长度规范化来解决不平衡问题。然而,还没有深入的工作来澄清这些规范化如何影响分类性能,以及是否有其他有用的规范化。本文的目的是三方面的;(1) 为了研究文档和类长度规范化对几个数据集的有效性,(2)评估一些常用的规范化函数,(3)引入一种新型的类规范化,称为术语长度规范化,它利用类中文档之间的术语分布。实验结果表明,对于类中文档数量不平衡的数据集,采用权重-大小规范化方法(类长度规范化)的分类器比采用权重-规格化方法(文档长度规范化。对于归一化函数,基于术语权重的归一化平均性能优于其他函数。对于术语长度归一化,它有助于提高分类精度。术语和类长归一化的组合优于纯类长归一、纯术语长度归一化和非归一化,差距分别为4.29%、11.50%和30.09%。

MSC公司:

68吨10 模式识别、语音识别
68T05型 人工智能中的学习和自适应系统
68单位15 文本处理的计算方法;数学排版
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Nigam,K。;麦卡勒姆,A.K。;特龙,S。;Mitchell,T.M.,使用EM对标记和未标记文档进行文本分类,机器学习,39,2/3,103-134(2000),可从以下网站获得:·Zbl 0949.68162号
[2] Yang,Y.,《文本分类统计方法评估》,信息检索,1,1/2,69-90(1999),可从以下网站获得:
[3] 阿佩特,哥伦比亚特区。;Damerau,F.J。;Weiss,S.M.,文本分类决策规则的自动学习,ACM信息系统事务,12,3,233-251(1994),可从以下网站获得:
[4] Paliouras,G。;Karkaletsis,V。;Spyropoulos,C.D.,《大词汇量词义消歧的学习规则》(Dean,T.,《IJCAI-99会议录》,第16届国际人工智能联合会议,瑞典斯德哥尔摩(1999),Morgan Kaufmann出版社:Morgan Koufmann-Publishers San Francisco,USA),674-679,可从以下网站获得:
[5] Yang,Y。;Chute,C.G.,《文本分类和检索的基于示例的映射方法》,《ACM信息系统交易》,12,3,252-277(1994),可从以下网站获得:
[6] Yang,Y。;Liu,X.,文本分类方法的重新审视,(Hearst,M.A.;Gey,F.;Tong,R.,SIGIR-99会议录,第22届美国计算机学会信息检索研究与发展国际会议,美国伯克利(1999),美国计算机学会出版社:美国计算机学会出版社纽约),42-49,可从:
[7] Larkey,L.S.,使用文本分类技术进行自动论文评分,(Croft,W.B.;Moffat,A.;van Rijsbergen,C.J.;Wilkinson,R.;Zobel,J.,SIGIR-98会议记录,第21届ACM国际信息检索研究与开发会议,澳大利亚墨尔本(1998),ACM出版社:美国纽约ACM出版社),90-95,可从以下位置获得:
[8] D.B.Skalak,通过采样和随机变异爬山算法进行原型和特征选择,收录于:机器学习国际会议,1994年,第293-301页。可从以下位置获得:<http://citeseer.nj.nec.com/skalak94prototype.html>; D.B.Skalak,通过采样和随机变异爬山算法进行原型和特征选择,收录于:机器学习国际会议,1994年,第293-301页。可从以下位置获得:<http://citeseer.nj.nec.com/skalak94prototype.html>
[9] 韩,E.-H。;Karypis,G。;Kumar,V.,使用加权调整的最近邻分类进行文本分类,(Cheung,D.;Li,Q。;Williams,G.,PAKDD-01会议记录,第五届亚太知识发现和数据挖掘会议,中国香港。PAKDD-01会议记录,第五届亚太知识发现和数据挖掘会议,中国香港,计算机科学讲稿,第2035卷(2001),Springer-Verlag:Springer-Verlag Heidelberg,德国),53-65,可从以下网站获得:·Zbl 0978.68700号
[10] Hull,D.A.,《使用潜在语义索引改进路由问题的文本检索》(Croft,W.B.;van Rijsbergen,C.J.,《SIGIR-94会议录》,第17届ACM信息检索研究与开发国际会议,爱尔兰共和国都柏林(1994),斯普林格·弗拉格:斯普林格尔·弗拉格·海德堡,德国),282-289,可从以下位置获得:
[11] D.J.Ittner,D.D.Lewis,D.D.Ahn,低质量图像的文本分类,摘自:SDAIR-95论文集,第四届文献分析和信息检索年度研讨会,美国拉斯维加斯,1995年,第301-315页。可从以下位置获得:<http://www.research.att.com/lewis/papers/ittner95.ps>; D.J.Ittner,D.D.Lewis,D.D.Ahn,低质量图像的文本分类,摘自:SDAIR-95论文集,第四届文献分析和信息检索年度研讨会,美国拉斯维加斯,1995年,第301-315页。可从以下位置获得:<http://www.research.att.com/lewis/papers/ittner95.ps>
[12] Joachims,T.,《使用TFIDF对Rocchio算法进行文本分类的概率分析》,(Fisher,D.H.,《ICML-97会议录》,第14届国际机器学习会议,美国纳什维尔(1997),Morgan Kaufmann出版社:Morgan Koufmann-Publishers San Francisco,USA),143-151,可从以下网站获得:
[13] 庄,W.T。;Tiyyagura,A。;杨,J。;Giuffrida,G.,《分层文本分类的快速算法》,(Kambayashi,Y.;Mohania,M.;Tjoa,A.,《DaWaK-00会议论文集》,第二届数据仓库和知识发现国际会议,英国伦敦。《DaWaK-00会议记录》,第二届数据仓库和知识发现国际会议,英国伦敦,计算机科学讲义,第1874卷(2000),Springer-Verlag:Springer-Verlag Heidelberg,德国),409-418,可从以下网站获得:
[14] 邓,Z.-H。;唐,S.-W。;杨德清。;藏,M。;吴晓波。;Yang,M.,基于类别相关性因素的线性文本分类算法,(ICADL-02会议记录,第五届亚洲数字图书馆国际会议,新加坡(2002年),ACM出版社:ACM出版社,美国纽约),88-98·Zbl 1031.68708号
[15] Joachims,T.,《使用支持向量机进行文本分类:使用许多相关特性进行学习》(Nédellec,C。;Rouveirol,C.,《ECML-98会议记录》,第十届欧洲机器学习会议,德国Chemnitz。ECML-98会议记录,第十届欧洲机器学习会议,德国Chemnitz,计算机科学讲义,第1398卷(1998年),Springer-Verlag:Springer-Verlag Heidelberg,德国),137-142,可从以下网站获得:
[16] Ng,H.T。;Goh,W.B。;Low,K.L.,《特征选择、感知器学习和文本分类可用性案例研究》(Feature selection,perceptron learning,and a usability case study for text categorification),(Belkin,N.J.;Narasimhalu,a.D.;Willett,P.,《SIGIR-97会议记录》,第20届美国费城ACM信息检索研究与开发国际会议(1997),ACM出版社:美国纽约ACM出版社),67-73,可从以下位置获得:
[17] P.Koehn,将多类最大熵文本分类器与神经网络投票相结合,收录于:E.Ranchod,N.J.Mamede(Eds.),PorTAL-02,第三届国际自然语言处理进展会议,葡萄牙法罗,计算机科学讲稿,第2389卷,2002年,第125-132页。可从以下位置获得:<http://link.springer.de/link/service/series/0558/papers/2389/23890125.pdf>; P.Koehn,将多类最大熵文本分类器与神经网络投票相结合,收录于:E.Ranchod,N.J.Mamede(Eds.),PorTAL-02,第三届国际自然语言处理进展会议,葡萄牙法罗,计算机科学讲稿,第2389卷,2002年,第125-132页。可从以下位置获得:<http://link.springer.de/link/service/series/0558/papers/2389/238900125.pdf> ·Zbl 1045.68771号
[18] 鲁伊斯,M。;Srinivasan,P.,使用神经网络的层次文本分类,信息检索,5,1,87-118(2002),可从以下网站获得:·Zbl 0999.68185号
[19] E.-H.Han,G.Karypis,《基于中心的文档分类:分析和实验结果》,载于:《数据挖掘和知识发现原理》,2000年,第424-431页。可从以下网址获得:<citeseer.nj.nec.com/han00centroidbased.html>;E.-H.Han,G.Karypis,《基于中心的文档分类:分析和实验结果》,载于:《数据挖掘和知识发现原理》,2000年,第424-431页。可从以下网址获得:<citeseer.nj.nec.com/han00centroidbased.html>
[20] Rocchio,J.J.,信息检索中的相关性反馈,(Salton,G.,《SMART检索系统:自动文档处理实验》(1971年),普伦蒂斯·霍尔:普伦蒂斯霍尔·恩格尔伍德·克利夫斯,新泽西州),313-323
[21] V.Lertnattee,T.Theeramunkong,使用基于词分布的权重和特征选择改进基于中心的文本分类,收录于:INTECH-01会议记录,第二届智能技术国际会议,泰国曼谷,2001年,第349-355页。;V.Lertnattee,T.Theeramunkong,使用基于词分布的权重和特征选择改进基于中心的文本分类,收录于:INTECH-01会议记录,第二届智能技术国际会议,泰国曼谷,2001年,第349-355页。
[22] T.Theeramunkong,V.Lertnattee,使用基于词分布的权重系统和聚类改进基于中心的文本分类,摘自:ISCIT-01会议录,第二届通信和信息技术国际研讨会,泰国清迈,2001年,第1167-1182页。;T.Theeramunkong,V.Lertnattee,《使用基于词分布的权重系统和聚类改进基于中心的文本分类》,载于《ISCIT-01会议录》,第二届通信和信息技术国际研讨会,泰国清迈,2001年,第1167-1182页。
[23] 夏皮雷,R.E。;辛格,Y。;Singhal,A.,Boosting and Rocchio applied to text filtering,(Croft,W.B.;Moffat,A.;van Rijsbergen,C.J.;Wilkinson,R.;Zobel,J.,《SIGIR-98会议记录》,第21届ACM信息检索研究与开发国际会议,澳大利亚墨尔本(1998),ACM出版社:美国纽约ACM出版社),215-223,可从以下网站获得:
[24] Salton,G。;Buckley,C.,自动文本检索、信息处理和管理中的术语加权方法,24,5,513-523(1988)
[25] A.Singhal,G.Salton,C.Buckley,降级文本集合中的长度规范化,技术报告TR95-15071995。可从以下网址获得:<citeseer.nj.nec.com/singhal95length.html>;A.Singhal,G.Salton,C.Buckley,降级文本集合中的长度规范化,技术报告TR95-15071995。可从以下网址获得:<citeseer.nj.nec.com/singhal95length.html>
[26] Aizawa,A.N.,《tf-idf度量的信息理论视角》,信息处理与管理,39,1,45-65(2003)·Zbl 1033.68562号
[27] K.Cho,J.Kim,使用ICF(逆类别频率)加权对层次类别结构进行自动文本分类,收录于:KISS-97会议论文集,1997年,第507-510页。;K.Cho,J.Kim,使用ICF(反向类别频率)加权对层次类别结构进行自动文本分类,载于:KISS-97会议记录,KIIS会议,1997年,第507-510页。
[28] 德波尔,F。;Sebastiani,F.,《自动文本分类的监督术语权重》,(SAC-03会议记录,第18届ACM应用计算研讨会,澳大利亚墨尔本(2003),ACM出版社:美国纽约ACM出版社),可从以下网址获得:
[29] A.Singhal,C.Buckley,M.Mitra,Pivoted document length normalization,in:Research and Development in Information Retrieval,1996,第21-29页。可从以下网址获得:<citeseer.nj.nec.com/singhal96pivoted.html>;A.Singhal,C.Buckley,M.Mitra,Pivoted document length normalization,in:Research and Development in Information Retrieval,1996,第21-29页。可从以下网址获得:<citeseer.nj.nec.com/singhal96pivoted.html>
[30] 坎普斯,J。;de Rijke,M。;Sigurbjörnsson,B.,长度规范化对XML检索的重要性,信息检索,8631-654(2005)
[31] 科勒,D。;Sahami,M.,《使用极少单词对文档进行分层分类》(Fisher,D.H.,《ICML-97会议录》,第14届国际机器学习会议,美国纳什维尔(1997),Morgan Kaufmann出版社:Morgan Koufmann-Publishers San Francisco,USA),170-178,可从以下网站获得:
[32] W.T.Chuang,A.Tiyyagura,J.Yang,G.Giuffrida,分层文本分类的快速算法,载于:数据仓库和知识发现,2000年,第409-418页。可从以下网址获得:<citeseer.nj.nec.com/382331.html>;W.T.Chuang,A.Tiyyagura,J.Yang,G.Giuffrida,分层文本分类的快速算法,载《数据仓库与知识发现》,2000年,第409-418页。可从以下网址获得:<citeseer.nj.nec.com/382331.html>
[33] Robertson,S.E。;Walker,S.,概率加权检索的2-Poisson模型的一些简单有效近似,(Croft,W.B.;van Rijsbergen,C.J.,《第17届ACM-SIGIR信息检索研究与开发年会论文集》,爱尔兰都柏林,1994年7月3日至6日(SIGIR论坛特刊)(1994),ACM/Springer),232-241
[34] B.He,L.Ounis,《术语频率归一化的参数调谐研究》,载《CIKM-03会议录》,第12届国际知识管理会议,美国新奥尔良,2003年,第10-16页。;B.He,L.Ounis,《术语频率归一化的参数调谐研究》,载《CIKM-03会议录》,第12届国际知识管理会议,美国新奥尔良,2003年,第10-16页。
[35] J.Broglio,J.P.Callan,W.B.Croft,D.W.Nachbar,《使用INQUERY系统的文档检索和路由》,收录于:第三届文本检索会议(TREC-3)概述,1994年,美国国家标准与技术研究所,马里兰州盖瑟斯堡,1994年。第29-38页。可从以下网址获得:<citeseer.nj.nec.com/broglio95document.html>;J.Broglio,J.P.Callan,W.B.Croft,D.W.Nachbar,《使用INQUERY系统的文档检索和路由》,收录于:第三届文本检索会议(TREC-3)概述,1994年,美国国家标准与技术研究所,马里兰州盖瑟斯堡,1994年。第29-38页。可从以下网址获得:<citeseer.nj.nec.com/broglio95document.html>
[36] Lee,J.H.,结合来自加权方案不同性质的多重证据,(Fox,E.A.;Ingwersen,P.;Fidel,R.,SIGIR’95,第18届国际ACM SIGIR信息检索研究与开发会议论文集,1995年7月9日至13日,美国华盛顿州西雅图(SIGIR论坛特刊)(1995),ACM出版社),180-188
[37] Nigam,K。;McCallum,A.K。;特隆,S。;Mitchell,T.M.,《学习从标记和未标记的文档中分类文本》(《AAAI-98会议录》,美国人工智能协会第15届会议,美国麦迪逊(1998),AAAI出版社:AAAI Press Menlo Park,USA),792-799,扩展版如[1]所示。可从以下位置获得:
[38] Siolas,G。;d'Alche-Buc,F.,基于语义核的文本分类支持向量机,(Amari,S.-I.;Giles,C.L.;Gori,M.;Piuri,V.,《IJCNN-00会议录》,第11届神经网络国际联合会议,意大利科莫,第5卷(2000年),IEEE计算机社会出版社:IEEE Computer Society Press Los Alamitos,USA),205-209,可从以下位置获得:
[39] Toutanova,K。;陈,F。;波帕特,K。;Hofmann,T.,小训练集层次混合模型中的文本分类,(Paques,H.;Liu,L.;Grossman,D.,CIKM-01会议记录,第十届ACM信息与知识管理国际会议,美国亚特兰大(2001),ACM出版社:美国纽约ACM出版社),105-113,可从以下网站获得:
[40] McCallum,A.K。;罗森菲尔德,R。;米切尔,T.M。;Ng,A.Y.,《通过类层次结构中的收缩改进文本分类》(Shavlik,J.W.,《ICML-98会议录》,第15届国际机器学习会议,美国麦迪逊(1998),Morgan Kaufmann出版社:Morgan Koufmann-Publishers San Francisco,USA),359-367,可从以下网站获得:
[41] 克雷文,M。;迪帕斯科,D。;弗雷塔格,D。;McCallum,A.K。;米切尔,T.M。;Nigam,K。;Slattery,S.,《学习从万维网构建知识库》,人工智能,118,1/2,69-113(2000),可从以下网站获得:·Zbl 0939.68745号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。