×

兹马思-数学第一资源

Twitter情感分类的大规模实现。(英语) Zbl公司 06920578
小结:由于Twitter数据的性质、多样性和数量,对Twitter数据的情绪分析确实是一个具有挑战性的问题。人们倾向于自由地表达自己的感受,这使得Twitter成为一个理想的来源,可以收集大量关于广泛话题的观点。这些信息量提供了巨大的潜力,可以用来接收对这些主题的情绪倾向。然而,由于没有人可以投入无限的时间来阅读这些tweet,因此需要一种自动化的决策方法。然而,大多数现有解决方案仅限于集中式环境中。因此,他们最多只能处理几千条微博。由于每天都有大量的tweet发布,这样的样本并不代表人们对于某个话题的情感极性。在这项工作中,我们开发了两个系统:第一个在MapReduce中,第二个在apachespark框架中用于大数据编程。该算法利用tweet中的所有标签和表情符号作为情感标签,并以并行和分布式的方式对不同的情感类型进行分类。此外,情绪分析工具基于机器学习方法和自然语言处理技术,并利用apachespark的机器学习库MLlib。为了解决大数据的特点,我们引入了一些在情感分析中取得更好结果的预处理步骤,以及Bloom过滤器来压缩中间数据的存储空间,提高算法的性能。最后,利用Twitter抓取的真实数据对系统进行训练和验证,通过大量的实验评估,我们证明了我们的解决方案是有效的、健壮的和可扩展的,同时也验证了我们的情绪识别质量。

理学硕士:
00 一般性和全局性主题;收藏
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 感情用事·Zbl公司 1293.91203
[2] 王,X。;魏,F。;刘,X。;周,男。;张,M。;主题情感分析:一种基于图的标签情感分类方法;ACM国际信息与知识管理会议记录:,1031-1040年。
[3] 表情符号。
[4] 林杰。;代尔,C;使用MapReduce进行数据密集型文本处理:加利福尼亚州圣拉斐尔,美国2010年。
[5] 范班纳维尔德,M。;北卡罗来纳州勒克。;克查迪,医学博士。;自然语言处理方法在白领犯罪侦查中的应用;未来数据与安全工程学报(FDSE):,29-43页。
[6] 阿加瓦尔,A。;谢乙。;沃夫沙,I。;兰博,哦。;帕索内奥,R。;Twitter数据的情感分析;社交媒体语言研讨会:2011年美国宾夕法尼亚州斯特劳德斯堡,30-38岁。
[7] 大卫杜夫。;特苏尔,O。;拉波波特,A。;使用Twitter标签和笑脸增强情感学习;计算语言学国际会议论文集,海报:,241-249。
[8] 江,L。;余,M。;周,男。;刘,X。;赵,T。;目标相关的Twitter情感分类;计算语言学协会年会论文集:人类语言技术;第一卷,151-160。
[9] 迪恩,J。;格马沃特,S。;MapReduce:在大型集群上简化数据处理;公社。ACM:2008年;第51卷,107-113页。
[10] 怀特,T;Hadoop:最终指南:Sebastopol,CA,USA 2012。
[11] 卡劳,H。;康文斯基,A。;温德尔,P。;扎哈里亚,M;学习火花:闪电般快速的大数据分析:塞巴斯托波尔,加利福尼亚州,美国2015年。
[12] 庞,乙。;李,L。;观点挖掘与情感分析;找到了。趋势信息回顾:2008年;第2卷,1-135页。
[13] 胡,M。;刘,B。;挖掘和总结客户评论;知识发现与数据挖掘国际会议论文集:,168-177年。
[14] 庄,L。;静,F。;朱晓阳。;电影评论挖掘与总结;ACM国际信息与知识管理会议记录:,43-50岁。
[15] 张伟。;余,C。;孟,W。;博客观点检索;ACM信息与知识管理会议(CIKM)会议记录:,831-840。
[16] Turney,P.D。;竖起大拇指还是竖起大拇指?语义取向在评论无监督分类中的应用;计算语言学协会年会论文集:,417-424。
[17] 威尔逊,T。;韦伯。;霍夫曼,P。;短语层次情感分析中的语境极性识别;自然语言处理中的人类语言技术和经验方法会议论文集:,347-354年。
[18] 威尔逊,T。;韦比,J。;霍夫曼,P。;语境极性的识别:短语级情感分析的特征探讨(英文);计算机。语言学家:2009年;第35卷,399-433页。
[19] 于,H。;哈茨瓦西罗格鲁,V。;在回答意见问题方面:将事实与观点分开,明确意见句的极性;自然语言处理经验方法会议论文集:,129-136页。
[20] 林,C。;他,Y。;情绪分析的联合情感/话题模型;ACM信息和知识管理会议记录:,375-384。
[21] 梅,Q。;凌,X。;旺德拉,M。;苏,H。;翟,C。;主题情感混合:在网络日志中建模方面和观点;万维网国际会议记录:,171-180页。
[22] 庞,乙。;李,L。;瓦蒂亚纳坦。;竖起大拇指?利用机器学习技术进行情感分类;自然语言处理经验方法学术会议论文集:,79-86年。
[23] 博伊,E。;莫恩斯,M。;提出了一种基于机器学习的多语言文本情感分析方法;参考文献:2009年;第12卷,526-558。
[24] Nasukawa,T。;易,J。;情感分析:利用自然语言处理捕捉偏好;知识获取国际会议记录:,70-77年。
[25] 丁,X。;刘,B。;语言规则在观点挖掘中的应用;信息检索研究与发展国际学术会议论文集:,811-812。
[26] 泽维尔,U.H.R。;好莱坞电影在Twitter上的情感分析;IEEE/ACM社会网络分析与挖掘进展国际会议论文集:,1401-1404年。
[27] 山本市。;熊本,T。;纳达莫托,A。;表情符号在Twitter多维情感分析中的作用;信息集成和基于Web的应用服务国际会议记录:,107-115。
[28] Waghode Poonam,B。;基尼卡,M。;Twitter表情分析;内景。工程计算机。科学:2015年;第4卷,11315-11321。
[29] Chikersal,P。;波里亚,S。;坎布里亚,E。;基于句子分析的有监督学习规则;语义评价国际研讨会论文集:,公元647-651年。
[30] 巴博萨,L。;冯,J。;基于有偏和噪声的Twitter情感检测;计算语言学国际会议论文集:海报:,36-44页。
[31] 脐带,N。;戈特伦,T。;库内吉斯,J。;阿尔哈迪,公元前。;坏消息传播迅速:基于内容的Twitter兴趣分析;第三届国际网络科学大会论文集(WebSci'11):,8: 1-8点7分。
[32] 纳科夫,P。;罗森塔尔。;科扎雷瓦,Z。;斯托亚诺夫,V。;里特,A。;威尔逊,T。;SemEval-2013任务2:Twitter中的情绪分析;第七届语义评价国际研讨会论文集(SemEval@NAACL-HLT公司): ; ,312-320。
[33] 罗森塔尔。;里特,A。;纳科夫,P。;斯托亚诺夫,V。;SemEval-2014任务9:Twitter中的情绪分析;第八届语义评价国际研讨会论文集(塞梅瓦尔@科林): ; ,73-80岁。
[34] 罗森塔尔。;纳科夫,P。;基里琴科S。;穆罕默德,S。;里特,A。;斯托亚诺夫,V。;SemEval-2015任务10:Twitter中的情绪分析;第九届语义评价国际研讨会论文集(SemEval@NAACL-HLT公司): ; ,451-463年。
[35] 纳科夫,P。;里特,A。;罗森塔尔。;塞巴斯蒂安尼,F。;斯托亚诺夫,V。;SemEval-2016任务4:Twitter中的情绪分析;第十届语义评价国际研讨会论文集(SemEval@NAACL-HLT公司): ; ,1-18页。
[36] 李,C。;罗斯,D。;提出了一种基于二次型约束的二次型优化算法;第32届国际机器学习会议论文集:,987-996年。
[37] 庄,Y。;秦,W。;胡安,Y。;林,C。;正则Logistic回归的分布牛顿法;第十九届亚太会议论文集,知识发现与数据挖掘进展(PAKDD):,690-703年。
[38] 萨尼,T。;钱达克。;北卡罗来纳州切德蒂。;辛格,M。;基于主观远程监控的Twitter情感分类;arXiv:2017年。
[39] 卡纳沃斯,A。;佩里科斯,I。;维卡托斯,P。;哈齐利格罗迪斯,我。;马克里斯,C。;Tsakalidis,A。;社交网络中的会话情感建模;IEEE人工智能工具国际会议论文集:,478-484年。
[40] 卡纳沃斯,A。;佩里科斯,I。;哈齐利格罗迪斯,我。;Tsakalidis,A。;整合用户情绪行为进行社区检测;网络信息系统与技术国际会议论文集:,355-362年。
[41] 巴尔塔斯,A。;卡纳沃斯,A。;Tsakalidis,A。;一个apachespark实现,用于Twitter数据上的情绪分析;云计算算法方面国际研讨会论文集(ALGOCLOUD):。
[42] 诺达拉基斯,N。;苏塔斯,S。;Tsakalidis,A。;齐马斯,G。;用Spark对Twitter进行大规模情绪分析;EDBT/ICDT研讨会论文集:·Zbl公司 06920578
[43] Khuc,V.N。;希瓦德,C。;拉姆纳特,R。;拉马纳森,J。;建立大规模分布式Twitter情感分析系统;年度应用计算学术研讨会论文集:,459-464年。
[44] Apache Spark·Zbl公司 1360.68697
[45] MLlib·Zbl公司 1360.68697
[第四十六条] 诺达拉基斯,N。;皮图拉E。;苏塔斯,S。;Tsakalidis,A。;Tsoumakos,D。;齐马斯,G。;kdANN+:大数据快速AkNN分类器;翻译。大规模数据知识。分。系统:2016年;第23卷,第139-168页。
[47] 大卫杜夫。;拉波波特,A。;利用对称模式和高频词有效地无监督地发现词类;计算语言学国际会议论文集:,297-304年。
[48] 布鲁姆,B.H。;允许误差的散列编码中的空间/时间权衡;公社。ACM:1970年;卷13422-426·Zbl公司 195.47003
[49] 在Twitter上使用Hadoop进行大规模分析:技术报告。
[50] 图塔诺娃,K。;克莱恩,D。;曼宁,哥伦比亚特区。;辛格,Y。;基于循环依赖网络的特征丰富词性标注;HLT-NAACL会议记录:,252-259年。
[51] Twitter开发者文档。
[52] 去吧,A。;巴亚尼,R。;黄,L;使用远程监控的Twitter情绪分类:斯坦福,加利福尼亚,美国2009年,1-6页。
[53] 感伤140 API。
[54] 郑,Z。;卡弗利,J。;李,K。;你就是你推特的地方:一种基于内容的定位Twitter用户的方法;ACM国际信息与知识管理会议记录:,759-768年。
[55] 推特Cikm 2010。
[56] Twitter情感分析训练语料库(Dataset)。
[57] 三元分类。
[58] 巴比里,F。;萨吉翁,H。;推特反讽建模:特征分析与评价;第九届国际语言资源与评价会议记录:,4258-4264。
[59] 博斯科,C。;帕蒂,V。;博利奥利,A。;情感分析语料库的开发:以反讽和感伤为例;IEEE国际。系统:2013年;第28卷,第55-63卷。
[60] 冈茨á里兹Ibáñez,R.I。;Muresan,S。;瓦乔尔德,N。;识别Twitter中的讽刺:仔细看;计算语言学协会(ACL)第49届年会论文集:,581-586年。
[61] 雷耶斯,A。;罗索,P。;小牛肉。;一种在Twitter中发现反讽的多维方法;语言资源。评估日期:2013年;第47卷,239-268页。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。