×

基于广义奇异值分解的聚类文本数据保结构降维。 (英语) Zbl 1061.68135号

摘要:在当今的矢量空间信息检索系统中,为了有效地处理海量数据,降维是必不可少的。为了有用,这种低维表示必须是完整文档集的良好近似。为此,我们改进并扩展了模式识别中使用的判别分析投影。该投影通过最大化簇之间的散射,同时最小化簇内的散射来保持簇结构。鉴别分析中跟踪优化的一个常见限制是其中一个散布矩阵必须是非奇异的,这限制了它在术语数不超过文档数的文档集中的应用。我们表明,通过使用广义奇异值分解(GSVD),无论术语文档矩阵的相对维度如何,我们都可以实现相同的目标。此外,应用GSVD可以避免散射矩阵的显式形成,而有利于直接处理数据矩阵,从而改善了该方法的数值特性。最后,我们给出了实验结果,验证了该方法的有效性。

MSC公司:

68吨10 模式识别、语音识别
68第20页 信息存储和数据检索
15A09号 矩阵反演理论与广义逆
62H30型 分类和区分;聚类分析(统计方面)
2015财年65 矩阵特征值和特征向量的数值计算
15甲18 特征值、奇异值和特征向量
PDF格式BibTeX公司 XML格式引用
全文: 内政部