文件Zbl 1122.68417-zbMATH Open

关于主成分分析，信息检索中的余弦和欧几里德测度。（英语） Zbl 1122.68417号

信息科学。 177，第22号，4893-4905（2007）.

摘要：聚类组将对象表示为向量。广泛的向量空间可能会对应用这些方法造成障碍。因此，使用主成分分析（PCA）缩小了向量空间。传统的余弦测量并不是PCA的唯一选择，它涉及到数据的平均校正。由于平均校正会改变原点的位置，因此文档向量之间的角度也会改变。为了避免这种情况，我们在余弦测度和欧几里德距离之间使用了一种联系，并结合主成分分析（PCA）进行了基础搜索。我们将单一完整的链接和Ward聚类应用于芬兰文档，将其相关性评估作为一个新特征。数据归一化后，运行主成分分析并对相关文档进行聚类。

引用于5文件

MSC公司：

68第20页

信息存储和数据检索

关键词：

信息检索;余弦测量;欧氏距离测度;主成分分析;群集;文件

软件：

Matlab公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	R.Alkula，《从字符串到芬兰语单词（芬兰语）》，芬兰坦佩雷大学信息研究系博士论文，2000年。；R.Alkula，《从字符串到芬兰语单词（芬兰语）》，芬兰坦佩雷大学信息研究系博士论文，2000年。
[2]	Alkula，R.，从普通字符串到有意义的单词：用形态学分析软件为屈折和复合语言生成更好的全文数据库，信息检索，4，3-4195-208（2001）·Zbl 0991.68108号
[3]	Belew，R.K.，《发现关于搜索引擎技术和WWW的认知视角》（2000），剑桥大学出版社：剑桥大学出版社·Zbl 0971.68045号
[4]	Berry，M.W。；Dumais，S.T。；O'Brien，G.W.，《使用代数进行智能信息检索》，SIAM Review，37，4，573-595（1995）·Zbl 0842.68026号
[5]	Deerwester，S.公司。；Dumais，S.T。；Furnas，G.W。；Landauer，T.K。；Harsman，R.，潜在语义分析索引，美国信息科学学会期刊，41，6391-407（1990）
[6]	埃弗里特，B.S。；兰道，S。；Leese，M.，聚类分析（2001），阿诺德：阿诺德伦敦·Zbl 1205.62076号
[7]	El-Hamdouchi，A。；Willet，P.，《文献检索中层次凝聚聚类方法的比较》，《计算机期刊》，32，3，220-227（1989）
[8]	格罗斯曼博士。；Frieder，O.，《信息检索、算法和启发式》（2004），Springer:Springer Berlin·Zbl 1066.68041号
[9]	Hand，D.J。；Mannila，H。；Smyth，P.，《数据挖掘原理》（2001），麻省理工学院出版社：麻省剑桥
[10]	霍恩，R.A。；Johnson，C.R.，矩阵分析（1990），剑桥大学出版社：剑桥大学出版社·Zbl 0704.15002号
[11]	Jain，A.K。；Dubes，R.C.，《聚类数据算法》（1988），恩格伍德悬崖：新泽西恩格伍德崖·Zbl 0665.62061号
[12]	Jolliffe，I.T.，主成分分析（1986），Springer-Verlag:Springer-Verlag纽约·Zbl 1011.62064号
[13]	Kang，B.-Y。；Kim，D.-W。；Lee，S.-J.，《利用概念簇进行基于内容的信息检索》，《信息科学》，第170期，第443-462页（2005年）
[14]	考夫曼，L。；Rousseeuw，P.J.，《数据中的发现群体》（1990），威利出版社：威利纽约·Zbl 1345.62009号
[15]	J.Kekäläinen，《概率文本检索中查询复杂性扩展和结构对检索性能的影响》，芬兰坦佩雷大学信息研究系博士论文，1999年。；J.Kekäläinen，《查询复杂性扩展和结构对概率文本检索检索性能的影响》，芬兰坦佩雷大学信息研究系博士论文，1999年。
[16]	Kekäläinen，J。；Järvelin，K.，《在IR评估中使用分级相关性评估》，《美国信息科学与技术学会杂志》，53，13，1120-1129（2002）
[17]	Korenius，T.公司。；Laurikkala，J。；朱霍拉，M。；Järvelin，K.，《芬兰报纸文章集的层次聚类与分级相关性评估》，信息检索，9，33-53（2006）
[18]	Lance，G.N。；威廉姆斯，W.T.，分类策略的一般理论，1。层次系统，《计算机杂志》，9373-380（1967）
[19]	Lertnattee，V。；Theeramunkong，T.，基于中心的文本分类中的类规范化，信息科学，1761712-1738（2006）·Zbl 1092.68665号
[20]	曼宁，C.D。；Schütze，H.，《统计自然语言处理基础》（2000年），麻省理工学院出版社：麻省理工学院出版社，马萨诸塞州剑桥
[21]	毛切克，M.S。；Kačič，Z。；Horvat，B.，《高度屈折语言建模》，《信息科学》，166249-269（2004）·Zbl 1078.68794号
[22]	Matlab Statistics Toolbox User's Guide，第四版，The Math Works Inc.，马萨诸塞州纳蒂克，2002年。；Matlab统计工具箱用户指南，第四版，The Math Works Inc.，马萨诸塞州纳蒂克，2002年。
[23]	Mitchell，T.M.，《机器学习》（1997），McGraw-Hill:McGraw-Hill纽约·Zbl 0913.68167号
[24]	钱，G。；苏拉尔，S。；顾毅。；Pramanik，S.，最近邻查询的欧几里德和余弦角距离的相似性，（Haddad，H.M.；Omicini，A.；Wainwright，R.L.；Liebrock，L.M.，ACM应用计算研讨会（2004），ACM出版社），1232-1237
[25]	拉加万，V.V。；Wong，S.K.M.，《信息检索向量空间模型的批判性分析》，《美国信息科学学会杂志》，37279-287（1986）
[26]	Rasmussen，E.，《聚类算法》（Frakes，W.B.；Baeza-Yates，R.，《信息检索：数据结构和算法》（1992），普伦蒂斯·霍尔出版社：新泽西普伦蒂斯霍尔出版社），419-442
[27]	Rencher，A.C.，《多元分析方法》（2002年），威利出版社：威利纽约·Zbl 0995.62056号
[28]	L.Ru，L.Zhao，M.Zhang，S.Ma，《改进的特征选择和冗余计算》，THUIR at TREC 2004 Novelty track，in：E.M.Voorhess，L.P.Buckland（Eds.），第十三届文本检索会议（TREC）2004，http://trec.nist.gov/pubs/trec13/papers/tsinghua-ma.geo.pdf; L.Ru，L.Zhao，M.Zhang，S.Ma，《改进的特征选择和冗余计算》，THUIR at TREC 2004 Novelty track，in：E.M.Voorhess，L.P.Buckland（Eds.），第十三届文本检索会议（TREC）2004，http://trec.nist.gov/pubs/trec13/papers/tsinghua-ma.geo.pdf
[29]	Salton，G.，《自动文本处理：计算机信息的转换、分析和检索》（1989），Addison-Wesley:Addison-Whesley Reading，MA
[30]	Salton，G。；Wong，A。；Yang，C.S.，自动索引的向量空间模型，ACM通信，18，613-620（1975）·Zbl 0313.68082号
[31]	Sebastiani，F.，自动文本分类中的机器学习，ACM计算调查，34，1，1-47（2002）
[32]	Sharma，S.，《应用多元技术》（1996），威利出版社：威利纽约
[33]	Singhal，A。；巴克利，C。；Mitra，M.，Pivoted document length normalization，（Frei，H.-P.；Harman，D.；Schaüble，P.；Wilkinson，R.，《ACM SIGIR第19届信息检索研究与开发国际会议论文集》（1996），ACM出版社：ACM出版社纽约），21-29
[34]	Späth，H.，《用于数据简化和对象分类的聚类分析算法》（1980），Ellis Horwood:Ellis Holwood New York·Zbl 0435.62059号
[35]	范德维德，Th.P。；van Bommel，P.，《衡量文档的增量信息价值》，《信息科学》，176，91-119（2006）·Zbl 1101.68545号
[36]	Willet，P.，《分层文档聚类的最新趋势：评论》，《信息处理与管理》，第24、5、577-597页（1988年）
[37]	萨德罗尼。；Kacprzyk，J.，《文本处理用词的计算：文本分类方法》，信息科学，176，415-437（2006）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

关于主成分分析，信息检索中的余弦和欧几里德测度。（英语） Zbl 1122.68417号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

关于主成分分析，信息检索中的余弦和欧几里德测度。 （英语） Zbl 1122.68417号

MSC公司：

关键词：

软件：

参考文献：

关于主成分分析，信息检索中的余弦和欧几里德测度。（英语） Zbl 1122.68417号