冯、石;庞、军;王大玲;余、葛;杨峰;徐东平 一种基于图相似性的中文博客情感聚类新方法。 (英语) Zbl 1231.68055号 计算。数学。申请。 62,第7期,2770-2778(2011). 摘要:博客聚类是在线舆情分析的重要方法。传统的聚类方法通常根据关键词、故事和时间线对博客进行分组,而这些方法通常忽略了博客文章中表达的观点和情感。本文提出了一种基于图形的中文博客嵌入情感聚类集成模型。将一种新的基于图形的表示方法和相应的聚类算法应用于中文博客搜索结果。该模型不仅考虑了情感词,还考虑了博客中的结构信息。实验结果表明,与传统的基于图的文档表示模型和向量空间文档表示模型相比,本文提出的SoB-图模型在中文博客文档情感聚类方面取得了更好的性能。 理学硕士: 68英里11 互联网主题 62H30型 分类和区分;聚类分析(统计方面) 关键词:博客挖掘;情绪分析;博客集群;基于图形的表示 软件:JGibbLDA公司;群集查找 PDF格式BibTeX公司 XML格式引用 \textit{S.Feng}等人,计算。数学。申请。62,第7号,2770--2778(2011;Zbl 1231.68055) 全文: 内政部 参考文献: [1] CNNIC、,巨潮资讯网http://www.cnnic.net.cn; CNNIC公司,巨潮资讯网http://www.cnnic.net.cn [2] A.Schenker,M.Last,H.Bunke,A.Kandel,基于图形的文档聚类距离度量的比较,in:Proc。GbRPR,英国纽约,2003年,第202-213页。;A.Schenker,M.Last,H.Bunke,A.Kandel,基于图形的文档聚类距离度量的比较,in:Proc。GbRPR,英国纽约,2003年,第202-213页·Zbl 1040.68563号 [3] A.Schenker、H.Bunke、M.Last、A.Kandel,《web文档挖掘的基于图形的框架》,摘自:Proc。DAS,意大利佛罗伦萨,2004年,第401-412页。;A.Schenker、H.Bunke、M.Last、A.Kandel,《web文档挖掘的基于图形的框架》,摘自:Proc。DAS,意大利佛罗伦萨,2004年,第401-412页·Zbl 1104.68689号 [4] Schenker,A。;Bunke,H。;最后,M。;Kandel,A.,使用图表示的网络文档聚类,计算机视觉和模式识别中的应用图论,247-265(2007)·Zbl 1138.68506号 [5] 考夫曼,L。;Rousseeuw,P.,《数据中的发现群体:聚类分析导论》(1990),John Wiley&Sons:John Willey&Sons New York·Zbl 1345.62009号 [6] J.Bar-Ilan,《局外人对“主题博客”的看法》,摘自:Proc。WWW备选论文跟踪,纽约,纽约,美国。;J.Bar-Ilan,《局外人对“主题博客”的看法》,摘自:Proc。WWW备选论文跟踪,纽约,纽约,美国。 [7] N.Glance,M.Hurst,T.Tornkiyo,Blogpulse:weblogs的自动趋势发现,收录于:Proc。2004年,美国纽约州纽约市WWW网络日志生态系统研讨会。;N.Glance,M.Hurst,T.Tornkiyo,Blogpulse:weblogs的自动趋势发现,收录于:Proc。2004年,美国纽约州纽约市WWW网络日志生态系统研讨会。 [8] D.Shen,J.Sun,Q.Yang,Z.Chen,从博客数据挖掘潜在朋友,摘自:Proc。ICDM,中国香港,2006年,第552-561页。;D.Shen,J.Sun,Q.Yang,Z.Chen,从博客数据挖掘潜在朋友,摘自:Proc。ICDM,中国香港,2006年,第552-561页。 [9] A.Qamra,B.Tseng,E.Chang,使用基于社区和时间聚类挖掘博客故事,in:Proc。CIKM,华盛顿特区,美国,2004年,第58-67页。;A.Qamra,B.Tseng,E.Chang,使用基于社区和时间聚类挖掘博客故事,in:Proc。CIKM,华盛顿特区,美国,2004年,第58-67页。 [10] N.Bansal,F.Chiang,N.Koudas,F.Tompa,《在博客圈中寻找稳定的集群》,摘自:Proc。VLDB,奥地利维也纳大学,2007年,第806-817页。;N.Bansal,F.Chiang,N.Koudas,F.Tompa,在博客圈中寻找稳定的集群,在:Proc。VLDB,奥地利维也纳大学,2007年,第806-817页。 [11] N.Agarwal,M.Oliveras,H.Liu,S.Subramanya,用集体智慧聚集博客,收录于:Proc。ICWE,约克镇高地,美国纽约,2008年,第336-339页。;N.Agarwal,M.Oliveras,H.Liu,S.Subramanya,用集体智慧聚集博客,收录于:Proc。ICWE,约克镇高地,美国纽约,2008年,第336-339页。 [12] R.Kuo,H.Wang,T.Hu,S.Chou,蚂蚁K均值在聚类分析中的应用,计算机与数学应用,50(10-12)1709-1724。;R.Kuo,H.Wang,T.Hu,S.Chou,蚂蚁K均值在聚类分析中的应用,计算机与数学应用,50(10-12)1709-1724·Zbl 1085.68633号 [13] Karamolegkos,P。;帕特里卡基斯,C。;北卡罗来纳州杜拉米斯。;弗拉希亚斯,P。;Nikolakopoulos,I.,《用户社区评估范围内的聚类算法评估研究》,《计算机与数学应用》,58,8,1498-1519(2009)·Zbl 1189.91181号 [14] Pluempitiwiriyawej,C.公司。;Cercone,N。;An,X.,词汇习得和词义聚类到概念词典构建,计算机与数学与应用,57,9,1537-1546(2009)·Zbl 1186.68388号 [15] S.Feng,D.Wang,G.Yu,C.Yang,N.Yang,《情感聚类:博客圈中探索的新方法》,摘自:Proc。APWeb/WAIM,中国苏州,2009年,第332-344页。;S.Feng,D.Wang,G.Yu,C.Yang,N.Yang,《情感聚类:博客圈中探索的新方法》,摘自:Proc。APWeb/WAIM,中国苏州,2009年,第332-344页。 [16] S.Feng,D.Wang,G.Yu,C.Yang,N.Yang,基于隐藏情感因素的中文博客聚类,in:Proc。ADMA,中国北京,2009年8月17日至19日,第140-151页。;S.Feng,D.Wang,G.Yu,C.Yang,N.Yang,基于隐藏情感因素的中文博客聚类,in:Proc。ADMA,中国北京,2009年8月17日至19日,第140-151页。 [17] Efron,M.,《使用竞争信息评估网络文档中的政治倾向》,知识信息系统,9,4,492-511(2006) [18] 风扇,T。;Chang,C.,《情感导向语境广告》,《知识信息系统》(2009) [19] B.Pang,L.Lee,S.Vaithyanathan,大拇指?使用机器学习技术进行情感分类,in:Proc。EMNLP,费城,宾夕法尼亚州,美国,2002年,第79-86页。;B.Pang,L.Lee,S.Vaithyanathan,大拇指?使用机器学习技术进行情感分类,in:Proc。EMNLP,费城,宾夕法尼亚州,美国,2002年,第79-86页。 [20] P.Turny,大拇指向上还是向下?语义定向应用于评论的无监督分类,见《ACL学报》,宾夕法尼亚州费城,美国,2002年,第417-424页。;P.Turney,大拇指向上还是向下?语义定向应用于评论的无监督分类,见:《ACL学报》,宾夕法尼亚州费城,美国,2002年,第417-424页。 [21] 库马尔,R。;Novak,J。;Raghavan,P。;Tomkins,A.,《博客空间的结构和演变》,《ACM的传播》,第47、12、35-39页(2004年) [22] Lu Y.,C.Zhai,通过半监督主题建模进行意见整合,in:Proc。WWW,中国北京,2008年,第121-130页。;Lu Y.,C.Zhai,通过半监督主题建模进行意见整合,in:Proc。WWW,中国北京,2008年,第121-130页。 [23] Nguyen,C。;Phan,X。;Horiguchi,S。;Nguyen,T。;Ha,Q.,带隐藏主题的网络搜索聚类和标记,ACM亚洲语言信息处理汇刊,8,3,1-40(2009) [24] X.Phan,M.Nguyen,S.Horiguchi,《学习从大规模数据收集中对具有隐藏主题的短文本和稀疏文本及web进行分类》,摘自:Proc。WWW 2008,中国北京,2008,第91-100页。;X.Phan,M.Nguyen,S.Horiguchi,《学习从大规模数据收集中对具有隐藏主题的短文本和稀疏文本及web进行分类》,摘自:Proc。WWW 2008,中国北京,2008,第91-100页。 [25] R.Bekkerman,H.Raghavan,J.Allan,K.Eguchi,根据用户特定标准对文本集合进行交互式聚类,见:Proc。印度浦那,2007年,第684-689页。;R.Bekkerman,H.Raghavan,J.Allan,K.Eguchi,根据用户特定标准对文本集合进行交互式聚类,见:Proc。印度浦那IJCAI出版社,2007年,第684-689页。 [26] M.Hossain,R.Angryk,GDClust:一种基于图形的文档聚类技术,见:Proc。ICDM研讨会,2007年,第417-422页。;M.Hossain,R.Angryk,GDClust:一种基于图形的文档聚类技术,见:Proc。ICDM研讨会,2007年,第417-422页。 [27] 谷歌博客搜索,http://blogsearch.google.com/; 谷歌博客搜索,http://blogsearch.google.com/ [28] 刘,Q。;李S.,基于知网的词语相似度计算,计算语言学与汉语处理,59-76(2002) [29] ICTCLAS,http://www.ictclas.org; ICTCLAS,http://www.ictclas.org [30] 知网,网址:http://www.keenage.com/; 知网,网址:http://www.keenage.com/ [31] Ku,L.等人。;Chen,H.,《从网络中挖掘观点:超越相关性检索》,《美国信息科学与技术学会杂志》(JASIST),58,121838-1850(2007) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。