×

标记文本中的词频-词库关系。 (英语) Zbl 07460622号

小结:我们分析了对应于三种不同语法类别的子词汇中的频度-频度关系(名词,动词、和其他)在英语文学作品集中,其单词已根据其语法作用自动标记。与假设属于每个类别的单词在整个作品的频率等级词汇中均匀分布的零假设相比,我们揭示了三个类别之间的统计显著差异。这一结果表明,频率-库关系可能反映了与语法功能相关的语言特征。

MSC公司:

82至XX 统计力学,物质结构

软件:

蟒蛇;NLTK公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Piantadosi,S.T.,《自然语言中的Zipf词频规律:批判性评论和未来方向》,《心理医生》。牛市。第21版,第1112页(2014年)
[2] Zipf,G.K.,《语言的心理生物学》(1935),霍顿·米夫林
[3] Simon,H.A.,关于一类斜分布函数,Biometrika,42425(1955)·Zbl 0066.11201号
[4] 扎内特,D.H。;蒙特默罗,M.A.,《文本生成与现实Zipf分布的动力学》,J.Quant。凌。,12, 29 (2005)
[5] Barabási,A.L。;Albert,R.,《随机网络中尺度的出现》,《科学》,286509(1999)·Zbl 1226.05223号
[6] 科诺米斯·穆特拉(Corominas-Murtra),B。;Hanel,R。;Thurner,S.,样本空间减少级联过程产生全谱标度指数,Sci。众议员,711223(2017)
[7] Bird,S。;克莱因,E。;Loper,E.,《使用Python进行自然语言处理:使用自然语言工具包分析文本》(2009),O'Reilly:O'Relly Sebastopol,CA·Zbl 1187.68630号
[8] Chacoma,A。;Zanette,D.H.,《标签文本中的堆定律和堆功能:语言相关性的证据》,R.Soc.开放科学。,7,第200008条pp.(2020)
[9] Heaps,H.S.,《信息检索:计算和理论方面》(1978),学术出版社:纽约学术出版社·Zbl 0471.68075号
[10] Gerlach,M。;Altmann,E.G.,自然语言词汇增长的随机模型,物理。修订版X,3,第021006条pp.(2013)
[11] Hart,M.,古腾堡项目(1971),www.Gutenberg.org
[12] 谢泼德,M。;Jones,D.,Faded page(2012),www.fadedpage.com
[13] Chacoma,A。;Zanette,D.H.,标签文本中的堆定律和堆功能:语言相关性的证据(2020年),Dryad Digital Repository
[14] Bird,S。;Loper,E.,NLTK项目(2001年),www.NLTK.org
[15] 黄,X。;Acero,A。;Reddy,R.,《口语处理:理论、算法和系统开发指南》(2001),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔上鞍河
[16] Klammer,T。;舒尔茨,M.R。;Della Volpe,A.,《英语语法分析》(2012),Longman:Longman Boston,MA
[17] 卡普兰,D.,《神经语言学和语言失语症》(1987),剑桥大学出版社:剑桥大学出版社
[18] 卢,Y。;Singhal,S。;支柱,F。;O.皮埃琴。;Courville,A.,交互式语言学习的监督种子迭代学习(2020),arXiv:2010.02975
[19] Namazifar,M。;Papangelis,A。;Tur,G。;Hakkani-Tür,D.,语言模型就是你所需要的:自然语言理解作为问题回答(2020),arXiv:2011.03023
[20] 菲卡迪特,V。;Cerqueti,R。;Ausloos,M.,《美国总统演讲修辞结构的联合文本挖掘库调查》,专家系统。申请。,123, 127 (2019)
[21] 菲卡迪特,V。;Cerqueti,R。;Ausloos,M。;Dhesi,G.,《确定政治文本中快乐核心的词语排名和赫希指数》,J.Informetr。,14,第101054条pp.(2020)
[22] Ghahramani,Z.,概率机器学习和人工智能,《自然》,521452(2015)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。