×

基本的共现潜在语义向量空间模型。 (英语) Zbl 1436.62278号

摘要:向量表示是文档聚类或分类的重要组成部分之一,它可以量化文本。本文提出了一种新的共现潜在语义向量空间模型(CLSVSM),并进一步研究了共现分布。该模型基于向量空间模型(VSM),嵌入文档关键词的共现潜在语义来表示其向量。首先,使用中国国家知识基础设施(CNKI)的文档进行了实验以测试模型的性能。结果表明,在文档聚类测试中,CLMSVM的熵(E)、纯度(P)和F1值比VSM好20%,这表明CLSVSM可以提高文档聚类的准确性,同时降低向量的稀疏度。其次,最好估计潜在语义:最大值(MAX)、最小值(MIN)、平均值(AVE)和中间值(MED)?为了比较这四种估计量,进行了更多的实验。结果表明,最大值法和平均值法是首选方法,最小值法是最差方法,这与讨论一致。最后讨论了一些重要的问题。这些问题与同现频率的趋势、同现强度的函数及其分布有关,这强化了模型。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62兰特 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安东尼科,P。;玩具,S。;Niederhauser,D.,《在教育技术研究中使用聚类分析进行数据挖掘》,教育技术研究与开发,60383-398(2012)·doi:10.1007/s11423-012-9235-8
[2] 阿米戈,E。;Gonzalo,J。;Artiles,J。;Verdejo,F.,《基于形式约束的外部聚类评价指标比较》,信息检索,12,4,461-486(2009)·doi:10.1007/s10791-008-9066-8
[3] BAGGA,A.和BALDWIN,B.(1998),“评分会议链的算法”,摘自第一届国际语言资源会议和语言学会议评估研讨会,第563-566页。
[4] BELLEGARDA,J.、BUTZBERGER,J.和CHOW,Y.(1996),“基于潜在语义分析的新型单词聚类算法”,《ICASSP论文集》,第172-175页。
[5] BAN,Z.H.,LIU,J.G.,YUAN,L.L.,and YANG,H.(2015),“一种改进的基于密度的聚类算法及其实现”,《第九届模式识别与计算机视觉国际会议论文集》,第9813卷。
[6] Bandyopadhyay,S。;Maulik,U.,基于K-Means算法的R^N最优聚类进化技术,信息科学,146221-237(2002)·Zbl 1033.68595号 ·doi:10.1016/S0020-0255(02)00208-6
[7] 蒋,Lj;Liu,Cch;蔡,Yh;Kumar,A.,使用模糊聚类发现Web文档中的潜在语义,IEEE模糊系统事务,23,6,2122-2134(2015)·doi:10.1109/TFUZZ.2015.2403878
[8] Deerwester,S.公司。;Dumais,S。;Landauer,T。;Furnas,G。;Harshman,R.,《潜在语义分析索引》,《美国信息科学学会期刊》,41,6391-407(1990)·doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
[9] Fodeh,S。;Punch,B。;Tan,Pn,《使用核心语义特征、知识和信息系统的本体论驱动的文档聚类》,第28、2、395-421页(2011年)·文件编号:10.1007/s10115-010-0370-4
[10] 塔雷克·加里布(Tarek F.Gharib)。;穆罕默德·福阿德。;Aref,Mostafa M.,使用WordNet词汇类别的模糊文档聚类方法,计算科学和软件工程高级技术,181-186(2009),多德雷赫特:施普林格荷兰
[11] 加拉尔,M。;费尔南德斯,A。;Barrenechea,E.,《在多类分类问题中使用基于相似性的聚合增强困难类的能力》,信息科学,264135-157(2014)·Zbl 1335.68201号 ·doi:10.1016/j.ins.2013.12.053
[12] HOTHO,A.、STAAB,S.和STUMME,G.(1995),“Wordnet改进了文本文档聚类”,第26届国际ACM SIGIR年会论文集。
[13] JOLLIFFE,I.(2002),主成分分析,统计学中的Springer系列,Springer·Zbl 1011.62064号
[14] KARYPIS,M.S.G.、KUMAR,V.和STEINBACH,M.(2000),“文档聚类技术的比较,KDD文本挖掘研讨会,2000年。
[15] KAUFMAN,L.和ROUSSEEUW,P.J.(2008),《数据中的发现群:聚类分析导论》,John Wiley and Sons,Inc·Zbl 1345.62009号
[16] KARYPIS实验室(2014),gCLUTO[EB/OL]。[2014-01-20], http://glaros.dtc.umn.edu/gkhome/clugo/gcluto/download。
[17] Liu,Gz,语义向量空间模型:实现与评估,《美国信息科学学会杂志》,48,5,395-417(1997)·doi:10.1002/(SICI)1097-4571(199705)48:5<395::AID-ASI3>3.0.CO;第2季度
[18] Miller,Ga,WordNet:英语词汇数据库,ACM通讯,38,11,39-41(1995)·doi:10.1145/219717.219748
[19] 阮,Cd;Krzysztof,Jc,GAKREM:一种新的混合聚类算法,信息科学,1784205-4227(2008)·Zbl 1151.68613号 ·doi:10.1016/j.ins.2008.07.016
[20] Ja Nasir;瓦拉米斯,I。;卡里姆,A。;Tsatsaronis,G.,文本聚类的语义平滑,基于知识的系统,54,216-229(2013)·doi:10.1016/j.knosys.2013.09.012
[21] Noorinaeini,A。;Lehto,Mr,混合奇异值分解,人类文本分类模型,国际人为因素建模与仿真杂志,1,1,95-118(2006)·doi:10.1504/IJHFMS.2006.011684
[22] 帕特尔,Vm;阮,Hv;Vidal,R.,潜在空间稀疏和低秩子空间聚类,IEEE信号处理选定主题期刊,9,4,891-701(2015)·doi:10.10109/JSTSP.2015.2402643文件
[23] Paltoglou,G。;Salampasis,M。;Satratzemi,M.,Collection-非合作分布式信息检索环境的集成源选择,信息科学,180,14,2763-2776(2010)·doi:10.1016/j.ins.2010.03.020
[24] 潘继元;张江舍,用于聚类的关系矩阵非负分解,工程数学问题,2011,1-15(2011)·doi:10.1155/2011/864540
[25] 邱,Jp;Dong,K.,“文献深度聚合方法与引文网络实证研究”,以WOS数据库中的XML研究论文为例,《中国图书馆学杂志》,211-120(2013)
[26] 邱,Jp;Wang,Ff,基于共现与耦合的图书馆文献资源深度聚合分析,《中国图书馆学杂志》,3,25-33(2013)
[27] 萨尔顿,G。;Wong,A。;Yang,Cs,自动索引的向量空间模型,ACM通信,18,11,613-620(1975)·Zbl 0313.68082号 ·数字对象标识代码:10.1145/361219.361220
[28] SCHINDLER,M.、FOX,O.和RAUSCH,A.(2015),“使用维基百科通过语义相似性聚类源代码元素”,《第四届实现软件工程中人工智能协同的国际研讨会论文集》,第13-18页。
[29] Song,W。;梁,Jz;Park,Sc,Fuzzy Control GA with a New Hybrid Semantic Similarity Strategy for Text Clustering,信息科学,273,156-170(2014)·doi:10.1016/j.ins.2014.03.024
[30] Vozalis,镁;Margaritis,Kg,使用SVD和人口统计数据增强广义协同过滤,信息科学,1773017-3037(2008)·doi:10.1016/j.ins.2007.02.036
[31] WANG,P.和DOMENICONI,C.(2008),“使用维基百科构建文本分类的语义内核,第14届ACM知识发现和数据挖掘国际会议(SIGKDD)论文集,第713-721页。
[32] Wei,Tt;Lu,Yh;Chang,Hy;周,Q。;Bao,Xy,《使用WordNet和词汇链进行文本聚类的语义方法》,《应用专家系统》,42,4,2264-2275(2015)·doi:10.1016/j.eswa.2014.10.023
[33] 王,S。;朱伟。;朱,Qx;Min,F.,覆盖特征矩阵及其在布尔矩阵分解中的应用,信息科学,263186-197(2014)·Zbl 1328.68232号 ·doi:10.1016/j.ins.2013.10.18
[34] WONG,S.K.M,ZIARKO,W.和WONG,P.C.N.(1985),“信息检索中的广义向量空间模型”,载于第八届ACM SIGIR信息检索研究与发展年会论文集,ACM,18-25·Zbl 0568.68072号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。