×

关于主成分分析,信息检索中的余弦和欧几里德测度。 (英语) Zbl 1122.68417号

摘要:聚类组将对象表示为向量。广泛的向量空间可能会对应用这些方法造成障碍。因此,使用主成分分析(PCA)缩小了向量空间。传统的余弦测量并不是PCA的唯一选择,它涉及到数据的平均校正。由于平均校正会改变原点的位置,因此文档向量之间的角度也会改变。为了避免这种情况,我们在余弦测度和欧几里德距离之间使用了一种联系,并结合主成分分析(PCA)进行了基础搜索。我们将单一完整的链接和Ward聚类应用于芬兰文档,将其相关性评估作为一个新特征。数据归一化后,运行主成分分析并对相关文档进行聚类。

MSC公司:

68第20页 信息存储和数据检索

软件:

Matlab公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] R.Alkula,《从字符串到芬兰语单词(芬兰语)》,芬兰坦佩雷大学信息研究系博士论文,2000年。;R.Alkula,《从字符串到芬兰语单词(芬兰语)》,芬兰坦佩雷大学信息研究系博士论文,2000年。
[2] Alkula,R.,从普通字符串到有意义的单词:用形态学分析软件为屈折和复合语言生成更好的全文数据库,信息检索,4,3-4195-208(2001)·Zbl 0991.68108号
[3] Belew,R.K.,《发现关于搜索引擎技术和WWW的认知视角》(2000),剑桥大学出版社:剑桥大学出版社·Zbl 0971.68045号
[4] Berry,M.W。;Dumais,S.T。;O'Brien,G.W.,《使用代数进行智能信息检索》,SIAM Review,37,4,573-595(1995)·Zbl 0842.68026号
[5] Deerwester,S.公司。;Dumais,S.T。;Furnas,G.W。;Landauer,T.K。;Harsman,R.,潜在语义分析索引,美国信息科学学会期刊,41,6391-407(1990)
[6] 埃弗里特,B.S。;兰道,S。;Leese,M.,聚类分析(2001),阿诺德:阿诺德伦敦·Zbl 1205.62076号
[7] El-Hamdouchi,A。;Willet,P.,《文献检索中层次凝聚聚类方法的比较》,《计算机期刊》,32,3,220-227(1989)
[8] 格罗斯曼博士。;Frieder,O.,《信息检索、算法和启发式》(2004),Springer:Springer Berlin·Zbl 1066.68041号
[9] Hand,D.J。;Mannila,H。;Smyth,P.,《数据挖掘原理》(2001),麻省理工学院出版社:麻省剑桥
[10] 霍恩,R.A。;Johnson,C.R.,矩阵分析(1990),剑桥大学出版社:剑桥大学出版社·Zbl 0704.15002号
[11] Jain,A.K。;Dubes,R.C.,《聚类数据算法》(1988),恩格伍德悬崖:新泽西恩格伍德崖·Zbl 0665.62061号
[12] Jolliffe,I.T.,主成分分析(1986),Springer-Verlag:Springer-Verlag纽约·Zbl 1011.62064号
[13] Kang,B.-Y。;Kim,D.-W。;Lee,S.-J.,《利用概念簇进行基于内容的信息检索》,《信息科学》,第170期,第443-462页(2005年)
[14] 考夫曼,L。;Rousseeuw,P.J.,《数据中的发现群体》(1990),威利出版社:威利纽约·Zbl 1345.62009号
[15] J.Kekäläinen,《概率文本检索中查询复杂性扩展和结构对检索性能的影响》,芬兰坦佩雷大学信息研究系博士论文,1999年。;J.Kekäläinen,《查询复杂性扩展和结构对概率文本检索检索性能的影响》,芬兰坦佩雷大学信息研究系博士论文,1999年。
[16] Kekäläinen,J。;Järvelin,K.,《在IR评估中使用分级相关性评估》,《美国信息科学与技术学会杂志》,53,13,1120-1129(2002)
[17] Korenius,T.公司。;Laurikkala,J。;朱霍拉,M。;Järvelin,K.,《芬兰报纸文章集的层次聚类与分级相关性评估》,信息检索,9,33-53(2006)
[18] Lance,G.N。;威廉姆斯,W.T.,分类策略的一般理论,1。层次系统,《计算机杂志》,9373-380(1967)
[19] Lertnattee,V。;Theeramunkong,T.,基于中心的文本分类中的类规范化,信息科学,1761712-1738(2006)·Zbl 1092.68665号
[20] 曼宁,C.D。;Schütze,H.,《统计自然语言处理基础》(2000年),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥
[21] 毛切克,M.S。;Kačič,Z。;Horvat,B.,《高度屈折语言建模》,《信息科学》,166249-269(2004)·Zbl 1078.68794号
[22] Matlab Statistics Toolbox User's Guide,第四版,The Math Works Inc.,马萨诸塞州纳蒂克,2002年。;Matlab统计工具箱用户指南,第四版,The Math Works Inc.,马萨诸塞州纳蒂克,2002年。
[23] Mitchell,T.M.,《机器学习》(1997),McGraw-Hill:McGraw-Hill纽约·Zbl 0913.68167号
[24] 钱,G。;苏拉尔,S。;顾毅。;Pramanik,S.,最近邻查询的欧几里德和余弦角距离的相似性,(Haddad,H.M.;Omicini,A.;Wainwright,R.L.;Liebrock,L.M.,ACM应用计算研讨会(2004),ACM出版社),1232-1237
[25] 拉加万,V.V。;Wong,S.K.M.,《信息检索向量空间模型的批判性分析》,《美国信息科学学会杂志》,37279-287(1986)
[26] Rasmussen,E.,《聚类算法》(Frakes,W.B.;Baeza-Yates,R.,《信息检索:数据结构和算法》(1992),普伦蒂斯·霍尔出版社:新泽西普伦蒂斯霍尔出版社),419-442
[27] Rencher,A.C.,《多元分析方法》(2002年),威利出版社:威利纽约·Zbl 0995.62056号
[28] L.Ru,L.Zhao,M.Zhang,S.Ma,《改进的特征选择和冗余计算》,THUIR at TREC 2004 Novelty track,in:E.M.Voorhess,L.P.Buckland(Eds.),第十三届文本检索会议(TREC)2004,http://trec.nist.gov/pubs/trec13/papers/tsinghua-ma.geo.pdf; L.Ru,L.Zhao,M.Zhang,S.Ma,《改进的特征选择和冗余计算》,THUIR at TREC 2004 Novelty track,in:E.M.Voorhess,L.P.Buckland(Eds.),第十三届文本检索会议(TREC)2004,http://trec.nist.gov/pubs/trec13/papers/tsinghua-ma.geo.pdf
[29] Salton,G.,《自动文本处理:计算机信息的转换、分析和检索》(1989),Addison-Wesley:Addison-Whesley Reading,MA
[30] Salton,G。;Wong,A。;Yang,C.S.,自动索引的向量空间模型,ACM通信,18,613-620(1975)·Zbl 0313.68082号
[31] Sebastiani,F.,自动文本分类中的机器学习,ACM计算调查,34,1,1-47(2002)
[32] Sharma,S.,《应用多元技术》(1996),威利出版社:威利纽约
[33] Singhal,A。;巴克利,C。;Mitra,M.,Pivoted document length normalization,(Frei,H.-P.;Harman,D.;Schaüble,P.;Wilkinson,R.,《ACM SIGIR第19届信息检索研究与开发国际会议论文集》(1996),ACM出版社:ACM出版社纽约),21-29
[34] Späth,H.,《用于数据简化和对象分类的聚类分析算法》(1980),Ellis Horwood:Ellis Holwood New York·Zbl 0435.62059号
[35] 范德维德,Th.P。;van Bommel,P.,《衡量文档的增量信息价值》,《信息科学》,176,91-119(2006)·Zbl 1101.68545号
[36] Willet,P.,《分层文档聚类的最新趋势:评论》,《信息处理与管理》,第24、5、577-597页(1988年)
[37] 萨德罗尼。;Kacprzyk,J.,《文本处理用词的计算:文本分类方法》,信息科学,176,415-437(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。