文件Zbl 1092.68665-zbMATH Open

维拉尤斯·勒纳提埃（Verayuth Lertnattee）;塔纳鲁克Theeramunkong

基于中心的文本分类中的类规范化。（英语） Zbl 1092.68665号

信息科学。 176，第12期，1712-1738（2006）.

基于中心的分类是文本分类中最流行的算法之一。在这种方法中，当文本集合中的文档大小不同和/或类中的文档数量不平衡时，规范化是提高基于中心的分类器性能的一个重要因素。过去，大多数研究人员应用文档规范化，例如文档长度规范化，而一些研究人员考虑使用一种简单的类规范化，即所谓的类长度规范化来解决不平衡问题。然而，还没有深入的工作来澄清这些规范化如何影响分类性能，以及是否有其他有用的规范化。本文的目的是三方面的；（1）为了研究文档和类长度规范化对几个数据集的有效性，（2）评估一些常用的规范化函数，（3）引入一种新型的类规范化，称为术语长度规范化，它利用类中文档之间的术语分布。实验结果表明，对于类中文档数量不平衡的数据集，采用权重-大小规范化方法（类长度规范化）的分类器比采用权重-规格化方法（文档长度规范化。对于归一化函数，基于术语权重的归一化平均性能优于其他函数。对于术语长度归一化，它有助于提高分类精度。术语和类长归一化的组合优于纯类长归一、纯术语长度归一化和非归一化，差距分别为4.29%、11.50%和30.09%。

引用于2文件

MSC公司：

68吨10	模式识别、语音识别
68T05型	人工智能中的学习和自适应系统
68单位15	文本处理的计算方法；数学排版

关键词：

终端长度归一化

软件：

INQUERY（询问）

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Nigam，K。；麦卡勒姆，A.K。；特龙，S。；Mitchell，T.M.，使用EM对标记和未标记文档进行文本分类，机器学习，39，2/3，103-134（2000），可从以下网站获得：·Zbl 0949.68162号
[2]	Yang，Y.，《文本分类统计方法评估》，信息检索，1，1/2，69-90（1999），可从以下网站获得：
[3]	阿佩特，哥伦比亚特区。；Damerau，F.J。；Weiss，S.M.，文本分类决策规则的自动学习，ACM信息系统事务，12，3，233-251（1994），可从以下网站获得：
[4]	Paliouras，G。；Karkaletsis，V。；Spyropoulos，C.D.，《大词汇量词义消歧的学习规则》（Dean，T.，《IJCAI-99会议录》，第16届国际人工智能联合会议，瑞典斯德哥尔摩（1999），Morgan Kaufmann出版社：Morgan Koufmann-Publishers San Francisco，USA），674-679，可从以下网站获得：
[5]	Yang，Y。；Chute，C.G.，《文本分类和检索的基于示例的映射方法》，《ACM信息系统交易》，12，3，252-277（1994），可从以下网站获得：
[6]	Yang，Y。；Liu，X.，文本分类方法的重新审视，（Hearst，M.A.；Gey，F.；Tong，R.，SIGIR-99会议录，第22届美国计算机学会信息检索研究与发展国际会议，美国伯克利（1999），美国计算机学会出版社：美国计算机学会出版社纽约），42-49，可从：
[7]	Larkey，L.S.，使用文本分类技术进行自动论文评分，（Croft，W.B.；Moffat，A.；van Rijsbergen，C.J.；Wilkinson，R.；Zobel，J.，SIGIR-98会议记录，第21届ACM国际信息检索研究与开发会议，澳大利亚墨尔本（1998），ACM出版社：美国纽约ACM出版社），90-95，可从以下位置获得：
[8]	D.B.Skalak，通过采样和随机变异爬山算法进行原型和特征选择，收录于：机器学习国际会议，1994年，第293-301页。可从以下位置获得：<http://citeseer.nj.nec.com/skalak94prototype.html>; D.B.Skalak，通过采样和随机变异爬山算法进行原型和特征选择，收录于：机器学习国际会议，1994年，第293-301页。可从以下位置获得：<http://citeseer.nj.nec.com/skalak94prototype.html>
[9]	韩，E.-H。；Karypis，G。；Kumar，V.，使用加权调整的最近邻分类进行文本分类，（Cheung，D.；Li，Q。；Williams，G.，PAKDD-01会议记录，第五届亚太知识发现和数据挖掘会议，中国香港。PAKDD-01会议记录，第五届亚太知识发现和数据挖掘会议，中国香港，计算机科学讲稿，第2035卷（2001），Springer-Verlag:Springer-Verlag Heidelberg，德国），53-65，可从以下网站获得：·Zbl 0978.68700号
[10]	Hull，D.A.，《使用潜在语义索引改进路由问题的文本检索》（Croft，W.B.；van Rijsbergen，C.J.，《SIGIR-94会议录》，第17届ACM信息检索研究与开发国际会议，爱尔兰共和国都柏林（1994），斯普林格·弗拉格：斯普林格尔·弗拉格·海德堡，德国），282-289，可从以下位置获得：
[11]	D.J.Ittner，D.D.Lewis，D.D.Ahn，低质量图像的文本分类，摘自：SDAIR-95论文集，第四届文献分析和信息检索年度研讨会，美国拉斯维加斯，1995年，第301-315页。可从以下位置获得：<http://www.research.att.com/lewis/papers/ittner95.ps>; D.J.Ittner，D.D.Lewis，D.D.Ahn，低质量图像的文本分类，摘自：SDAIR-95论文集，第四届文献分析和信息检索年度研讨会，美国拉斯维加斯，1995年，第301-315页。可从以下位置获得：<http://www.research.att.com/lewis/papers/ittner95.ps>
[12]	Joachims，T.，《使用TFIDF对Rocchio算法进行文本分类的概率分析》，（Fisher，D.H.，《ICML-97会议录》，第14届国际机器学习会议，美国纳什维尔（1997），Morgan Kaufmann出版社：Morgan Koufmann-Publishers San Francisco，USA），143-151，可从以下网站获得：
[13]	庄，W.T。；Tiyyagura，A。；杨，J。；Giuffrida，G.，《分层文本分类的快速算法》，（Kambayashi，Y.；Mohania，M.；Tjoa，A.，《DaWaK-00会议论文集》，第二届数据仓库和知识发现国际会议，英国伦敦。《DaWaK-00会议记录》，第二届数据仓库和知识发现国际会议，英国伦敦，计算机科学讲义，第1874卷（2000），Springer-Verlag:Springer-Verlag Heidelberg，德国），409-418，可从以下网站获得：
[14]	邓，Z.-H。；唐，S.-W。；杨德清。；藏，M。；吴晓波。；Yang，M.，基于类别相关性因素的线性文本分类算法，（ICADL-02会议记录，第五届亚洲数字图书馆国际会议，新加坡（2002年），ACM出版社：ACM出版社，美国纽约），88-98·Zbl 1031.68708号
[15]	Joachims，T.，《使用支持向量机进行文本分类：使用许多相关特性进行学习》（Nédellec，C。；Rouveirol，C.，《ECML-98会议记录》，第十届欧洲机器学习会议，德国Chemnitz。ECML-98会议记录，第十届欧洲机器学习会议，德国Chemnitz，计算机科学讲义，第1398卷（1998年），Springer-Verlag:Springer-Verlag Heidelberg，德国），137-142，可从以下网站获得：
[16]	Ng，H.T。；Goh，W.B。；Low，K.L.，《特征选择、感知器学习和文本分类可用性案例研究》（Feature selection，perceptron learning，and a usability case study for text categorification），（Belkin，N.J.；Narasimhalu，a.D.；Willett，P.，《SIGIR-97会议记录》，第20届美国费城ACM信息检索研究与开发国际会议（1997），ACM出版社：美国纽约ACM出版社），67-73，可从以下位置获得：
[17]	P.Koehn，将多类最大熵文本分类器与神经网络投票相结合，收录于：E.Ranchod，N.J.Mamede（Eds.），PorTAL-02，第三届国际自然语言处理进展会议，葡萄牙法罗，计算机科学讲稿，第2389卷，2002年，第125-132页。可从以下位置获得：<http://link.springer.de/link/service/series/0558/papers/2389/23890125.pdf>; P.Koehn，将多类最大熵文本分类器与神经网络投票相结合，收录于：E.Ranchod，N.J.Mamede（Eds.），PorTAL-02，第三届国际自然语言处理进展会议，葡萄牙法罗，计算机科学讲稿，第2389卷，2002年，第125-132页。可从以下位置获得：<http://link.springer.de/link/service/series/0558/papers/2389/238900125.pdf> ·Zbl 1045.68771号
[18]	鲁伊斯，M。；Srinivasan，P.，使用神经网络的层次文本分类，信息检索，5，1，87-118（2002），可从以下网站获得：·Zbl 0999.68185号
[19]	E.-H.Han，G.Karypis，《基于中心的文档分类：分析和实验结果》，载于：《数据挖掘和知识发现原理》，2000年，第424-431页。可从以下网址获得：<citeseer.nj.nec.com/han00centroidbased.html>；E.-H.Han，G.Karypis，《基于中心的文档分类：分析和实验结果》，载于：《数据挖掘和知识发现原理》，2000年，第424-431页。可从以下网址获得：<citeseer.nj.nec.com/han00centroidbased.html>
[20]	Rocchio，J.J.，信息检索中的相关性反馈，（Salton，G.，《SMART检索系统：自动文档处理实验》（1971年），普伦蒂斯·霍尔：普伦蒂斯霍尔·恩格尔伍德·克利夫斯，新泽西州），313-323
[21]	V.Lertnattee，T.Theeramunkong，使用基于词分布的权重和特征选择改进基于中心的文本分类，收录于：INTECH-01会议记录，第二届智能技术国际会议，泰国曼谷，2001年，第349-355页。；V.Lertnattee，T.Theeramunkong，使用基于词分布的权重和特征选择改进基于中心的文本分类，收录于：INTECH-01会议记录，第二届智能技术国际会议，泰国曼谷，2001年，第349-355页。
[22]	T.Theeramunkong，V.Lertnattee，使用基于词分布的权重系统和聚类改进基于中心的文本分类，摘自：ISCIT-01会议录，第二届通信和信息技术国际研讨会，泰国清迈，2001年，第1167-1182页。；T.Theeramunkong，V.Lertnattee，《使用基于词分布的权重系统和聚类改进基于中心的文本分类》，载于《ISCIT-01会议录》，第二届通信和信息技术国际研讨会，泰国清迈，2001年，第1167-1182页。
[23]	夏皮雷，R.E。；辛格，Y。；Singhal，A.，Boosting and Rocchio applied to text filtering，（Croft，W.B.；Moffat，A.；van Rijsbergen，C.J.；Wilkinson，R.；Zobel，J.，《SIGIR-98会议记录》，第21届ACM信息检索研究与开发国际会议，澳大利亚墨尔本（1998），ACM出版社：美国纽约ACM出版社），215-223，可从以下网站获得：
[24]	Salton，G。；Buckley，C.，自动文本检索、信息处理和管理中的术语加权方法，24，5，513-523（1988）
[25]	A.Singhal，G.Salton，C.Buckley，降级文本集合中的长度规范化，技术报告TR95-15071995。可从以下网址获得：<citeseer.nj.nec.com/singhal95length.html>；A.Singhal，G.Salton，C.Buckley，降级文本集合中的长度规范化，技术报告TR95-15071995。可从以下网址获得：<citeseer.nj.nec.com/singhal95length.html>
[26]	Aizawa，A.N.，《tf-idf度量的信息理论视角》，信息处理与管理，39，1，45-65（2003）·Zbl 1033.68562号
[27]	K.Cho，J.Kim，使用ICF（逆类别频率）加权对层次类别结构进行自动文本分类，收录于：KISS-97会议论文集，1997年，第507-510页。；K.Cho，J.Kim，使用ICF（反向类别频率）加权对层次类别结构进行自动文本分类，载于：KISS-97会议记录，KIIS会议，1997年，第507-510页。
[28]	德波尔，F。；Sebastiani，F.，《自动文本分类的监督术语权重》，（SAC-03会议记录，第18届ACM应用计算研讨会，澳大利亚墨尔本（2003），ACM出版社：美国纽约ACM出版社），可从以下网址获得：
[29]	A.Singhal，C.Buckley，M.Mitra，Pivoted document length normalization，in：Research and Development in Information Retrieval，1996，第21-29页。可从以下网址获得：<citeseer.nj.nec.com/singhal96pivoted.html>；A.Singhal，C.Buckley，M.Mitra，Pivoted document length normalization，in：Research and Development in Information Retrieval，1996，第21-29页。可从以下网址获得：<citeseer.nj.nec.com/singhal96pivoted.html>
[30]	坎普斯，J。；de Rijke，M。；Sigurbjörnsson，B.，长度规范化对XML检索的重要性，信息检索，8631-654（2005）
[31]	科勒，D。；Sahami，M.，《使用极少单词对文档进行分层分类》（Fisher，D.H.，《ICML-97会议录》，第14届国际机器学习会议，美国纳什维尔（1997），Morgan Kaufmann出版社：Morgan Koufmann-Publishers San Francisco，USA），170-178，可从以下网站获得：
[32]	W.T.Chuang，A.Tiyyagura，J.Yang，G.Giuffrida，分层文本分类的快速算法，载于：数据仓库和知识发现，2000年，第409-418页。可从以下网址获得：<citeseer.nj.nec.com/382331.html>；W.T.Chuang，A.Tiyyagura，J.Yang，G.Giuffrida，分层文本分类的快速算法，载《数据仓库与知识发现》，2000年，第409-418页。可从以下网址获得：<citeseer.nj.nec.com/382331.html>
[33]	Robertson，S.E。；Walker，S.，概率加权检索的2-Poisson模型的一些简单有效近似，（Croft，W.B.；van Rijsbergen，C.J.，《第17届ACM-SIGIR信息检索研究与开发年会论文集》，爱尔兰都柏林，1994年7月3日至6日（SIGIR论坛特刊）（1994），ACM/Springer），232-241
[34]	B.He，L.Ounis，《术语频率归一化的参数调谐研究》，载《CIKM-03会议录》，第12届国际知识管理会议，美国新奥尔良，2003年，第10-16页。；B.He，L.Ounis，《术语频率归一化的参数调谐研究》，载《CIKM-03会议录》，第12届国际知识管理会议，美国新奥尔良，2003年，第10-16页。
[35]	J.Broglio，J.P.Callan，W.B.Croft，D.W.Nachbar，《使用INQUERY系统的文档检索和路由》，收录于：第三届文本检索会议（TREC-3）概述，1994年，美国国家标准与技术研究所，马里兰州盖瑟斯堡，1994年。第29-38页。可从以下网址获得：<citeseer.nj.nec.com/broglio95document.html>；J.Broglio，J.P.Callan，W.B.Croft，D.W.Nachbar，《使用INQUERY系统的文档检索和路由》，收录于：第三届文本检索会议（TREC-3）概述，1994年，美国国家标准与技术研究所，马里兰州盖瑟斯堡，1994年。第29-38页。可从以下网址获得：<citeseer.nj.nec.com/broglio95document.html>
[36]	Lee，J.H.，结合来自加权方案不同性质的多重证据，（Fox，E.A.；Ingwersen，P.；Fidel，R.，SIGIR’95，第18届国际ACM SIGIR信息检索研究与开发会议论文集，1995年7月9日至13日，美国华盛顿州西雅图（SIGIR论坛特刊）（1995），ACM出版社），180-188
[37]	Nigam，K。；McCallum，A.K。；特隆，S。；Mitchell，T.M.，《学习从标记和未标记的文档中分类文本》（《AAAI-98会议录》，美国人工智能协会第15届会议，美国麦迪逊（1998），AAAI出版社：AAAI Press Menlo Park，USA），792-799，扩展版如[1]所示。可从以下位置获得：
[38]	Siolas，G。；d'Alche-Buc，F.，基于语义核的文本分类支持向量机，（Amari，S.-I.；Giles，C.L.；Gori，M.；Piuri，V.，《IJCNN-00会议录》，第11届神经网络国际联合会议，意大利科莫，第5卷（2000年），IEEE计算机社会出版社：IEEE Computer Society Press Los Alamitos，USA），205-209，可从以下位置获得：
[39]	Toutanova，K。；陈，F。；波帕特，K。；Hofmann，T.，小训练集层次混合模型中的文本分类，（Paques，H.；Liu，L.；Grossman，D.，CIKM-01会议记录，第十届ACM信息与知识管理国际会议，美国亚特兰大（2001），ACM出版社：美国纽约ACM出版社），105-113，可从以下网站获得：
[40]	McCallum，A.K。；罗森菲尔德，R。；米切尔，T.M。；Ng，A.Y.，《通过类层次结构中的收缩改进文本分类》（Shavlik，J.W.，《ICML-98会议录》，第15届国际机器学习会议，美国麦迪逊（1998），Morgan Kaufmann出版社：Morgan Koufmann-Publishers San Francisco，USA），359-367，可从以下网站获得：
[41]	克雷文，M。；迪帕斯科，D。；弗雷塔格，D。；McCallum，A.K。；米切尔，T.M。；Nigam，K。；Slattery，S.，《学习从万维网构建知识库》，人工智能，118，1/2，69-113（2000），可从以下网站获得：·Zbl 0939.68745号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

基于中心的文本分类中的类规范化。（英语） Zbl 1092.68665号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

基于中心的文本分类中的类规范化。 （英语） Zbl 1092.68665号

MSC公司：

关键词：

软件：

参考文献：

基于中心的文本分类中的类规范化。（英语） Zbl 1092.68665号