×

监测情绪和观点分析中罕见的类别:推特平台上的米兰大型活动。 (英语) Zbl 1458.62290号

摘要:本文提出了一种新的聚合分类方案,旨在支持在存在罕见文本类别的上下文中实现语义文本分析方法。该方法从Hopkins和King开发的聚合监督文本分类器开始,并依靠罕见事件采样方法向前推进。具体来说,它使分析员能够扩大估计情绪类别的数量,既保持估计准确性,又减少工作时间,从而无条件地增加训练集的大小。该方法被用于研究欧洲最后一个大型活动之一——米兰世博会——的网络声誉的日常演变。该语料库由一百多万条意大利语和英语推特组成,讨论该事件。该分析对世博会利益相关者的意见随时间的演变进行了有趣的描述,并可以确定世博会声誉的主要驱动因素。该算法将作为运行选项在下一版本的R包自述文件中实现。

MSC公司:

62第25页 统计学在社会科学中的应用
62H30型 分类和区分;聚类分析(统计方面)
62D20型 观察性研究的因果推断
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agosti M,Bacchin M,Ferro N,Melucci M(2002)《改进文本文档的自动检索》。参加:欧洲语言跨语言评估论坛研讨会。施普林格,第279-290页
[2] Aprosio AP,Moretti G(2016)Italy goes to stanford:意大利语corenlp模块集合。arXiv预打印arXiv:1609.06204
[3] 亚利桑那州伯杰;皮埃特拉,VJD;Pietra,SAD,《自然语言处理的最大熵方法》,Compute Ling,22,1,39-71(1996)
[4] Blei,DM,概率主题模型,Commun ACM,55,4,77-84(2012)
[5] 布莱,DM;Lafferty,JD,《科学的相关主题模型》,Ann Appl Stat,1,1,17-35(2007)·Zbl 1129.62122号
[6] 布莱,DM;Ng、AY;乔丹,密歇根州,《潜在的dirichlet分配》,J Mach Learn Res,3,993-1022(2003)·Zbl 1112.68379号
[7] Bouchet-Valat M(2014)SnowballC:基于C libstemer UTF-8库的滚雪球词干分析器。R包版本0.5.1
[8] 布雷曼,L。;弗里德曼,J。;斯通,C。;Olshen,R.,分类和回归树。《华兹华斯和布鲁克斯-科尔统计-概率系列》(1984),纽约:查普曼和霍尔出版社,纽约·Zbl 0541.62042号
[9] Breslow,NE,《流行病学统计:病例对照研究》,美国统计学会杂志,91,433,14-28(1996)·Zbl 0870.62082号
[10] Ceron,A。;库里尼,L。;Iacus,SM,《使用社交媒体预测选举结果:最新进展综述》,《Stat Appl Ital J Appl Stat》,25,3,239-261(2015)
[11] Ceron,A。;库里尼,L。;Iacus,SM,isa:一种快速、可扩展和准确的社交媒体内容情感分析算法,Inf Sci,367,105-124(2016)
[12] 陈,H。;Chiang,右;Storey、VC、商业智能和分析:从大数据到大影响,MIS Q,36,4,1165-1188(2012)
[13] Choi,D。;Kim,P.,《追踪突发事件的情绪分析:推特上的案例研究》,智能信息和数据库系统亚洲会议,285-294(2013),柏林:斯普林格,柏林
[14] Corallo,A。;福图纳托,L。;马特拉,M。;Alessi,M。;卡米洛,A。;切塔,V。;Giangreco,E。;斯托雷利,D。;Perner,P.,《政府情绪分析:优化方法》,模式识别中的机器学习和数据挖掘,98-112(2015),Cham:Springer,Cham
[15] 达席尔瓦,NF;俄勒冈州赫鲁晓卡;Hruschka,ER,推特情绪分析与分类器集合,决策支持系统,66170-179(2014)
[16] Das,SR;陈,我的,雅虎!《亚马逊:从网上闲聊中提取情感》,《Manag Sci》,第53、9、1375-1388页(2007年)
[17] Dave K,Lawrence S,Pennock DM(2003)《挖掘花生图库:产品评论的意见提取和语义分类》。摘自:第十二届万维网国际会议记录。ACM,纽约,WWW’03,第519-528页
[18] Deerwester,S.公司。;杜梅斯,ST;福纳斯,GW;蒂克斯·兰道尔;Harshman,R.,《利用潜在语义分析进行索引》,《美国社会科学杂志》,第41、6、391-407页(1990年)
[19] 罗德岛杜达;哈特,PE,模式分类和场景分析(1973),纽约:威利,纽约·Zbl 0277.68056号
[20] 埃洛舍娃,E。;费恩伯格,S。;Lafferty,J.,科学出版物的混合成员模型,Proc Natl Acad Sci,101,suppl 1,5220-5227(2004)
[21] Expo Milano(2015)2015米兰世博会:La sfida dell’italia per un’esplosione universale innovativa。网址:www.expo2015.org
[22] Feinerer I,Hornik K(2017)tm:文本挖掘包。R包版本0.7-3
[23] Gentry J(2015)推特:基于R的推特客户端。R包版本1.1.9
[24] 走,A。;巴亚尼,R。;Huang,L.,使用远程监督的推特情绪分类,《自然》,1,12,1-6(2009)
[25] 格里默,J。;Stewart,BM,《文本作为数据:政治文本自动内容分析方法的承诺和陷阱》,《政治分析》,21,3,267-297(2013)
[26] Hand,DJ,分类器技术与进步幻觉,《统计科学》,21,1,1-14(2006)·Zbl 1426.62188号
[27] 霍普金斯,DJ;King,G.,《社会科学的自动非参数内容分析方法》,《美国政治科学杂志》,54,1,229-247(2010)
[28] Hopkins D,King G(2017)自述文件:自动化内容分析软件。R包版本0.99837
[29] 因弗西尼,A。;Marchiori,E。;Dedekind,C。;坎通尼,L。;美国Gretzel。;法律,R。;Fuchs,M.,应用概念框架分析旅游目的地的在线声誉,信息和通信技术在旅游业中的应用,2010年,321-332(2010),维也纳:施普林格维也纳,维也纳
[30] 约阿希姆斯,T。;Nédellec,C。;Rouveirol,C.,《支持向量机的文本分类:具有许多相关特征的学习》,机器学习:ECML-98137-142(1998),柏林:斯普林格出版社,柏林
[31] 金·G。;Zeng,L.,罕见事件数据的Logistic回归,《政治分析》,9,2,137-163(2001)
[32] Laver,M。;Benoit,K。;Garry,J.,《使用文字作为数据从政治文本中提取政策立场》,《美国政治科学评论》,97,2,311-331(2003)
[33] Liaw A,Wiener M(2015)《随机森林分类与回归》。R Cran Repository R软件包版本4.6-12
[34] Lowe,W.,《理解单词分数》,《政治分析》,第16、4、356-371页(2008年)
[35] Mahalakshmi S,Sivasankar E(2015)使用不同的机器学习技术进行跨域情感分析。收录:Ravi V、Panigrahi BK、Das S、Suganthan PN(eds)第五届模糊和神经计算国际会议论文集。查姆斯普林格,FANCCO-2015,第77-87页
[36] 曼宁,CD;Raghavan,P。;tze Hinrich,S.,《信息检索导论》(2008),剑桥:剑桥大学出版社,剑桥·Zbl 1160.68008号
[37] 马丁,LW;Vanberg,G.,《解读政治文本的稳健转换程序》,《政治分析》,第16、1、93-100页(2008年)
[38] Monroe BL,Maeda K(2004)Talk的廉价:基于文本的修辞理想点评估。摘自:政治方法学会第21届年会,第29-31页
[39] Mudinas A,Zhang D,Levene M(2012)将词汇和基于学习的方法结合起来进行概念级情感分析。摘自:关于情绪发现和观点挖掘问题的第一次国际研讨会论文集。ACM,纽约,WISDOM’12,第1-8页
[40] Mukherjee S,Bhattacharyya P(2013)《情绪分析:文献综述》。arXiv预打印arXiv:1304.4520
[41] 米勒先生,是什么让一个活动成为一场盛会?定义和尺寸,Leis Stud,34,6,627-642(2015)
[42] Nirmala CR、Roopa GM、Kumar KRN(2015)失业危机推特数据分析。参加:2015年应用和理论计算与通信技术国际会议。印度卡纳塔克邦Davanagere。iCATccT,第420-423页
[43] 庞,B。;Lee,L.,《意见挖掘和情绪分析》,《Retrival发现趋势》,第2期,第1-2期,第1-135页(2008年)
[44] Pang B、Lee L、Vaithyanathan S(2002)《大拇指?:使用机器学习技术进行情绪分类。在:自然语言处理中的经验方法ACL-02会议记录,第10卷。计算语言学协会,斯特劳德斯堡,EMNLP’02,第79-86页
[45] 庞齐,LJ;CJ,Fombrun;Gardberg,NA,Reptrak™pulse:概念化和验证企业声誉的短期衡量,《企业声誉评论》,第14、1、15-35页(2011年)
[46] Rao,Y。;Lei,J。;L.Wenyin。;李,Q。;Chen,M.,构建在线新闻情感分析的情感词典,万维网,17,4,723-742(2014)
[47] Rao,Y。;李,Q。;毛,X。;Wenyin,L.,社会情感挖掘的情感主题模型,信息科学,266,90-100(2014)
[48] Rayner,J.,《管理声誉风险:遏制威胁,利用机会》(2004年),纽约:威利出版社
[49] FN里贝罗;Araújo,M。;Gonçalves,P。;安德烈·冈萨尔维斯,M。;Benevenuto,F.,Sentibench-国家实践情绪分析方法的基准比较,EPJ Data Sci,5,1,23(2016)
[50] 马萨诸塞州罗伯茨;BM斯图尔特;Airoldi,EM,《社会科学实验文本模型》,美国统计学会杂志,111,515,988-1003(2016)
[51] Salter-Townshend,M。;墨菲(Murphy),TB,《偏见情绪分析师的混合物》,《高级数据分析分类》,8,1,85-103(2014)·Zbl 1474.62245号
[52] Slapin,JB;Proksch,SO,从文本中估计时间序列政党立场的缩放模型,《美国政治科学杂志》,52,3,705-722(2008)
[53] Solari D、Sciandra A、Rinaldo M、Redaelli M、Finos L(2016)Textwiller:文本挖掘函数集合,专门用于意大利语。https://githubcom/livioivil/TextWiller
[54] Sparck Jones,K.,术语特异性的统计解释及其在检索中的应用,J Doc,28,1,11-21(1972)
[55] 斯通,PJ;德克斯特,CD;史密斯,理学硕士;Ogilvie,DM,《普通查询者:内容分析的计算机方法》,《美国社会学杂志》,73,5,634-635(1968)
[56] 塔博达,M。;布鲁克,J。;托菲洛斯基,M。;Voll,K。;Stede,M.,基于词汇的情感分析方法,Compute Ling,37,2,267-307(2011)
[57] 田,F。;Wu,F。;赵,KM;郑琦。;沙阿,N。;Lan,T。;Yue,J.,一种基于主题句子的实例转移方法在中文产品评论不平衡情绪分类中的应用,电子商务研究应用,16,66-76(2016)
[58] Tripathy,A。;阿格拉瓦尔,A。;Rath,SK,使用n-gram机器学习方法对情绪评论进行分类,专家系统应用,57,117-126(2016)
[59] 赵,H。;纪,X。;曾强。;江S.,基于情感分类的教学评价方法,国际计算科学数学杂志,7,1,54-62(2016)
[60] Zhou,Z。;张,X。;Sanderson,M。;Wang,H。;Sharaf,MA,通过基于主题的词汇扩展对推特进行情感分析,数据库理论与应用,98-109(2014),Cham:Springer,Cham
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。