×

识别词频动态趋势。 (英语) Zbl 1269.82033号

摘要:语言的词库是一个复杂的动态系统,在这个系统中,单词被创造、进化并灭绝。更具动态性的是人口中个人使用单词的短期波动。基于最近的证据,即单词生态位是单词频率未来上升或下降的有力决定因素,在此,我们引入了一个模型,使我们能够区分频率的持续增加和暂时增加。我们的模型使用来自在线讨论组的(10^{8})单词数据库和数字化书籍的(10*11})词汇集合进行了说明。该模型揭示了单词传播变化与频率变化之间的密切关系。除了对短期词频动态的影响外,这些观察结果对语言进化可能也很重要,因为新词必须在短期内存活,才能在长期内存活。

MSC公司:

82B99型 平衡统计力学
第68页第50页 自然语言处理
91层20 语言学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Manning,C.D.,Schuetze,H.:统计自然语言处理基础。麻省理工学院出版社,剑桥(1999)·Zbl 0951.68158号
[2] Baayen,R.H.:词频分布。柏林施普林格出版社(2002年)·Zbl 0989.68146号
[3] Pagel,M.:人类语言是一种文化传递的复制因子。Nat.Rev.基因。10, 405-415 (2009)
[4] Gell-Mann,M.,Ruhlen,M.:语序的起源和演变。程序。国家。阿卡德。科学。108, 17290-17295 (2011) ·Zbl 1256.91050号 ·doi:10.1073/美国国家统计局.1113716108
[5] Altmann,E.G.,Pierrehumbert,J.B.,Motter,A.E.:超越词频:单词时间分布中的突发、间歇和缩放。《公共科学图书馆·综合》4(11),e7678(2009)·doi:10.1371/journal.pone.0007678
[6] Michel,J.-B.等人:使用数百万数字化书籍对文化进行定量分析。《科学》331,176-182(2010)·doi:10.1126/科学.1199644
[7] Dodds,P.S.,Harris,K.D.,Kloumann,I.M.,Bliss,C.A.,Danforth,C.M.:全球社交网络中幸福和信息的时间模式:Hedonometrics和Twitter。《公共科学图书馆·综合》6(12),e26752(2011)·doi:10.1371/journal.pone.0026752
[8] Lieberman,E.,Michel,J.-B.,Jackson,J.,Tang,T.,Nowak,M.A.:量化语言的进化动力学。《自然》449,713-716(2007)·doi:10.1038/nature06137
[9] Pagel,M.,Atkinson,A.,Meade,A.:词汇使用频率预测了整个印欧历史中词汇演变的速度。《自然》449717-720(2007)·doi:10.1038/nature06176
[10] Altmann,E.G.,Pierrehumbert,J.B.,Motter,A.E.:生态位是在线群体中单词命运的决定因素。《公共科学图书馆·综合》6(5),e19009(2011)·doi:10.1371/journal.pone.0019009
[11] Usenet档案,网址为网址:http://groups.google.com
[12] Google Books Ngram Corpuses,网址:http://books.google.com/ngrams/datasets
[13] Stephens,G.J.,Bialek,W.:单词中字母的统计力学。物理。版本E 81,066119(2010)·doi:10.1103/PhysRevE.81.066119
[14] Montemurro,M.,Zanette,D.H.:走向书面语言中编码的语义信息的量化。高级复杂系统。13, 135-153 (2010) ·Zbl 1206.68315号 ·doi:10.1142/S0219525910002530
[15] 费雷尔·坎乔(Ferrer i Cancho,R.)、索莱(Solé,R.V.):最小努力和人类语言缩放的起源。程序。国家。阿卡德。科学。美国100788-791(2003)·Zbl 1071.68096号 ·doi:10.1073/pnas.0335980100
[16] Prokopenko,M.,Ay,N.,Obst,O.,Polani,D.:最少努力沟通中的阶段转换。《统计力学杂志》。2010(11),P11025(2010)·doi:10.1088/1742-5468/2010/11/P11025
[17] Ferrer i Cancho,R.,Solé,R.V.:人类语言的小世界。程序。R.Soc.伦敦。B 2682261-2265(2001)·doi:10.1098/rspb.2001.1800
[18] Dorogovtsev,S.N.,Mendes,J.F.F.:语言是一个不断发展的单词网络。程序。R.Soc.伦敦。B 2682603-2606(2001)·doi:10.1098/rspb.2001.1824
[19] Motter,A.E.,de Moura,A.P.S.,Lai,Y.-C.,Dasgupta,P.:语言概念网络的拓扑。物理。版本E 65,065102(R)(2002)
[20] Sigman,M.,Cecchi,G.A.:Wordnet词典的全球组织。程序。国家。阿卡德。科学。美国99,1742-1747(2002)·doi:10.1073/pnas.022341799
[21] Serrano,M.A.,Flammini,A.,Menczer,F.:书写文本的统计特性建模。《公共科学图书馆·综合》4(4),e537(2009)
[22] Corral,R.、Ferrer-i-Cancho,R.,Boleda,G.、Diaz-Guilera,A.:书面语言中的普遍复合结构。arXiv:0901.2924v1[物理学.soc-ph](2009)
[23] Solé,R.V.,Corominas-Murtra,B.,Fortuny,J.:多样性,竞争,灭绝:语言变化的生态物理学。J.R.Soc.接口71647-1664(2010)·doi:10.1098/rsif.2010.0110
[24] Petersen,A.M.,Tenenbaum,J.,Havlin,S.,Stanley,H.E.:控制从单词诞生到单词死亡期间单词使用波动的统计规律。科学。众议员2133(2012年)
[25] Perc,M.:几个世纪以来最常见的英语单词和短语的演变。J.R.Soc.接口9,3323-3328(2012)·doi:10.1098/rsif.2012.0491
[26] Hruschka,D.J.,Christiansen,M.H.,Blythe,R.A.,Croft,W.,Heggarty,P.,Mufwene,S.S.,Pierrehumbert,J.B.,Poplack,S.:构建语言变化的社会认知模型。趋势认知。科学。13, 464-469 (2009) ·doi:10.1016/j.tics.2009.08.008
[27] Castellano,C.,Fortunato,S.,Loreto,V.:社会动力学的统计物理学。修订版Mod。物理。81, 591-646 (2009) ·doi:10.1103/RevModPhys.81.591
[28] Kessler,D.A.,Maruvka,Y.E.,Ouren,J.,Shnerb,N.M.:记忆和延迟支配名字动力学。《公共科学图书馆·综合》7(6),e38790(2012)·doi:10.1371/journal.pone.0038790
[29] 扎内特,D.H.:时尚的动力:名字的情况。arXiv:1208.0576[物理学.soc-ph](2012)·Zbl 1256.91050号
[30] Foote,M.,Crampton,J.S.,Beu,A.G.,Cooper,R.A.:关于地理范围和分类持续时间之间的双向关系。古生物学34,421-433(2008)·doi:10.1666/08023.1
[31] Wilson,R.J.、Thomas,C.D.、Fox,R.、Roy,D.B.、Kunin,W.E.:物种分布的空间模式揭示了生物多样性的变化。《自然》432393-396(2004)·doi:10.1038/nature03031
[32] Meyer,M.,Havlin,S.,Bunde,A.:通过出生和死亡过程独立扩散个体的集群。物理。版本E 54,5567-5570(1996)·doi:10.1103/PhysRevE.54.5567
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。