文本预处理方法和工具对计算文本相似性的影响

Đor jad e Petrović,Milena Stanković

DOI编号
https://doi.org/10.22190/FUMI1905973D
第一页
973
最后一页
994

摘要


文本挖掘在很大程度上依赖于各种文本预处理技术。用于为进一步挖掘准备文本的预处理方法和工具可以分为依赖于语言的预处理和不依赖于语言。本研究的主题是分析这些方法和工具对进一步文本挖掘的影响。我们首先重点分析了向量空间模型简化对文本文档多维表示的影响。然后,我们分析了对计算文本相似度的影响,这是本研究的重点。我们得出的结论是,用塞尔维亚语实现各种文本预处理方法,用于文本文档多维表示的向量空间模型约简,取得了所需的结果。但是,为了计算文本相似性,使用塞尔维亚语特有的各种文本预处理方法可能会导致结果差异很大。

关键词

文本预处理;文本挖掘;文本相似性。

全文:

PDF格式

参考文献


Aggarwal,C.C.:文本的机器学习。s.l.:施普林格,2018年。

Alshammari,R.:使用机器学习进行阿拉伯语文本分类。《国际高级计算机科学与应用杂志》,9(3),第226-230页,2018年。

Batanović,V.,Furlan,B.&Nikolić,B.:确定塞尔维亚语短文语义相似性的软件系统。贝尔格莱德,第19届电信论坛(TELFOR)论文集,2011年。

Batanović,V.、Nikolić,B.和Milosavljević,M.:资源有限语言中情感分析的可靠基线:塞尔维亚电影评论数据集。斯洛文尼亚波托罗日,《第十届国际语言资源与评估会议记录》(LREC 2016),2016年。

Batanović,V.&Nikolić,B.:《塞尔维亚语文档的情感分类:形态规范化和单词嵌入的影响》,Telfor Journal,9(2),2017年。

Bird,S.、Klein,E.和Loper,E.:用Python进行自然语言处理:用自然语言工具包分析文本。s.l.:O'Reilly Media,Inc.,2009年。

Ceska,Z.和Fox,C.:文本预处理对剽窃检测的影响。保加利亚Borovets,RANLP国际会议,2009年。

Feldman,R.&Sanger,J.:文本挖掘手册。s.l.:剑桥大学出版社,2006年。

Jones,T.:塞尔维亚Stemmer分析。【在线】,2017年,网址:https://www.mediawiki.org/wiki/用户:TJones_(WMF)/Notes/Serbian_Stemmer_Analysis[2018年10月访问]。

Kajan,E.、Pljasković,A.和Crnišanin,A.:Normalizacija tekstualnih dokumenata na sprskom jeziku u cilju effikasnijeg pretaćivanja u sismima E-uprave。Zlatibor,ETRAN,2012年。

KAPK:认证和质量保证委员会,学生指南。【在线】,2018年。网址:网址:http://www.kapk.org【2018年访问】。

Kešelj,V.和Šipka,D.:对于塞尔维亚语的贪婪和最优的基于包容的词干器:一种基于后缀代换的方法,用于为具有稀疏资源的高影响语言构建词干器和引理器。Infotheca,Tom 9(1-2),第23a-33a页,2008年。

Lita,L.V.、Ittycheriah,A.、Roukos,S.和Kambhatla,N.:Truecasing。日本札幌,ACL’03第41届计算语言学协会年会会议记录,2003年。

Ljubešić,N.,Boras,D.&Kubelka,O.:检索克罗地亚语信息:构建简单高效的基于规则的词干分析器。萨格勒布,第一届国际会议,信息科学的未来(INFuture),2007年。

Manning,C.D.,Raghavan,P.&Schütze,H.:信息检索导论。s.l.:剑桥大学出版社,2008年。

Milošević,N.:塞尔维亚语Stemmer,s.l.:arXiv预印本arXiv:1209.44712012。

Miner,G.等人:非结构化文本数据应用的实用文本挖掘和统计分析。s.l.:学术出版社,2012年。

Porter,M.F.:后缀剥离算法。程序,14(3),第130-137页,1980年。

Schütze,H.&Silverstein,C.:高效文档聚类预测。宾夕法尼亚州费城,SIGIR’97年第20届ACM SIGIR信息检索研究与开发国际会议论文集,1997年。

Sluíbeni glasnik RS:Pravilnik o standardima i postepku za akreditaciju visokoškolskih ustanova,Sluбbeni grasnik RS,broj 88/17。【在线】,2017年。网址:http://www.kapk.org/en/accreditation网站/【2018年访问】

斯拉日贝尼格拉斯尼克RS:Zakon o visokom obrazovanju,斯拉日贝尼格拉斯尼克共和国Srbije,broj 73/18。【在线】,2018年。网址:http://www.parlament.gov.rs【2018年访问】。

Stranieri,A.和Zeleznikow,J.:法律数据库中的知识发现。s.l.:斯普林格出版社,2005年。

Vitas,D.等人:数字时代的塞尔维亚语。s.l.:施普林格,柏林,海德堡,2012年。




内政部:https://doi.org/10.22190/FUMI1905973D

倒退

  • 目前没有回复。




©尼什大学|创建于2013年11月
编号0352-9665(打印)
国际标准编号2406-047X(在线的)