×

应用于基于语料库的词频类的平均数比率的置信区间。 (英语) Zbl 07716693号

小结:当我们相互交流时,我们选择的词语传达了意义和信息。在书面或口头语言中,我们倾向于重复使用相对较少的单词,而词汇中的大量单词很少使用。通过考虑文本主体(或语料库)中最流行单词的平均数与相关单词的平均值的比率,可以量化相关单词的流行程度。此外,词类或分组词的概念具有相似的流行程度,这使研究人员能够比较这些词。使用语料库中具有不同长度的文本样本,单词的样本平均相对频率和使用零膨胀β分布的最大似然估计值作为单词流行率的两个度量。我们构建并比较了英国国家语料库(British National Corpus)中一些单词的平均值比率的渐近置信区间,该语料库是一个包含大量英国英语书面和口语的1亿单词的集合。我们还研究了满足单词类别和平均数比率等特定目标所需的样本量。

理学硕士:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 布雷齐纳,V。;Gablasova,D.,有核心通用词汇吗?介绍新的一般服务列表,应用程序。语言学,36,1-22(2015)
[2] Browne,C.、Culligan,B.和Phillips,J.,《新的一般事务人员名单》,2013年。可在http://www.newgeneralservicelist.org。
[3] 伯奇,B。;Egbert,J.,零膨胀贝塔分布应用于语料库语言学中的词频和词汇分散,J.Appl。统计,47,337-353(2020年)·Zbl 1521.62266号
[4] Burkhardt,D。;帕塔纳,S。;Nazemi,K。;Kuijper,A.,大数据应用中以任务和用户为中心的可视化搜索意图分析,Procedia。计算。科学。,104, 539-547 (2017)
[5] 陈,H。;陈,J。;Chen,S.,非等概率抽样下包含多个零值的总体平均值的置信区间,Canad。J.统计。,38, 582-597 (2010) ·Zbl 1349.62023号
[6] 陈,J。;陈,S。;Rao,J.N.K.,包含许多零值的总体平均值的经验似然置信区间,Canad。J.统计。,31, 53-68 (2003) ·Zbl 1035.62007号
[7] Chen,S.X。;秦,J.,具有可能零观测值的数据基于经验似然的置信区间,统计量。普罗巴伯。莱特。,65, 29-37 (2003) ·Zbl 1116.62345号
[8] Chernick,M.R.,Bootstrap Methods:A Guide for Practicers and Research(2007),威利:威利,纽约·Zbl 1136.62029号
[9] 库克,D。;基施尼克,R。;McCullough,B.,金融比例的回归分析与自我选择,J.实证金融,15860-867(2008)
[10] 克里巴里·内托,F。;桑托斯,J.,《通货膨胀的库马拉斯瓦米分布》,美国科学院。胸罩。城市。,91,e20180955(2019)·Zbl 1442.62042号 ·doi:10.1590/0001-3765201920180955
[11] 克罗斯利,S.A。;科布,T。;McNamara,D.S.,比较基于计数和基于频带的词频指数:对积极词汇研究和教学应用的启示,System,41965-981(2013)
[12] 戴维森,A.C。;Hinkley,D.V.,Bootstrap方法及其应用(1997),剑桥大学出版社:剑桥大学出版社,剑桥·兹比尔0886.62001
[13] 爱德华兹,R。;Collins,L.,词汇频率分布和Zipf定律,Lang.Learn。,61, 1-30 (2011)
[14] Efron,B.,《更好的引导置信区间》,J.Amer。统计人员。协会,82,171-185(1987)·兹比尔062262039
[15] 埃夫隆,B。;Tibshirani,R.,标准误差、置信区间和其他统计准确性度量的Bootstrap方法,Statist。科学。,1, 54-77 (1986) ·Zbl 0587.62082号
[16] 埃夫隆,B。;Narasimhan,B.,引导置信区间的自动构造,J.Compute。图表。统计人员。,29, 608-619 (2020) ·Zbl 07499300号
[17] Grühn,D。;Smith,J.,《由年轻人和老年人评定的200个单词的特征:德语形容词的年龄依赖性评价》,Behav。研究方法。,40, 1088-1097 (2008)
[18] Keim,J。;DeWitt,P。;菲茨帕特里克,J。;Jenni,N.,《使用膨胀的β分布估算植物丰度:从地衣-核糖生态系统中的应用学习》,Ecol。演变。,7, 486-493 (2017)
[19] Kremmel,B.,《词汇测试中的词族和频段:挑战性惯例》,《TESOL季刊》,50976-987(2016)
[20] Kvanli,A.H。;沈永凯。;Deng,L.Y.,包含多个零值的总体平均值的置信区间的构建,J.Bus。经济。统计人员。,16362-368(1998年)
[21] 韭菜,G。;Rayson,P。;Wilson,A.,《英语书面和口语中的词频:基于英国国家语料库》(2001),Routledge:Routledge,伦敦
[22] Lei,L。;Liu,D.,《一个新的医学学术词汇表:一项增强方法论的基于身体的研究》,《学术英语杂志》,22,42-53(2016)
[23] Lin,L.,评估再现性的一致性相关系数,生物统计学,45255-268(1989)·Zbl 0715.62114号
[24] Lin,L.,关于一致性相关系数的注释,生物统计学,56,324-325(2000)
[25] 林,L。;Hedayat,A。;辛哈,B。;Yang,M.,《评估一致性的统计方法》,J.Amer。统计人员。协会,97,257-270(2002)·Zbl 1073.62583号
[26] 林,L。;Hedayat,A。;Wu,W.,《计量协议的统计工具》(2012),施普林格出版社:纽约施普林格·Zbl 1256.62063号
[27] 奥斯皮纳,R。;Ferrari,S.,充气贝塔分布,统计师。论文,5111-126(2010)·Zbl 1247.62043号
[28] 奥斯皮纳,R。;Ferrari,S.,一类一般的零阶膨胀贝塔回归模型,计算。统计人员。数据分析。,56, 1609-1623 (2012) ·Zbl 1243.62099号
[29] Paquot,M.,《走向一个富有成效的学术词汇表》,载于《语言与计算机的实际应用》2005年,J.Walinski,K.Kredens&S.Gozdz-Roszkowski,eds.,Peter Lang,Frankfurt and Main,2007年,第127-140页。
[30] 奎罗斯,F。;Lemonte,A.,关于利率和比例的一大类零或一膨胀回归模型,Canad。J.统计。,49, 566-590 (2021) ·Zbl 07759591号
[31] 里格比,R。;Stasinopoulos,D.,位置、规模和形状的广义加性模型(含讨论),J.R.Stat.Soc.Ser。C.申请。《统计》,54,507-554(2005)·Zbl 1490.62201号
[32] 施密特,N。;Schmitt,D.,《二语词汇教学中频率和词汇量的再评估》,《语言教学》,47484-503(2014)
[33] Stasinopoulos,D。;Rigby,R.,《R,J.Stat.Softw中位置尺度和形状的广义加性模型》(GAMLSS)。,23, 1-46 (2007)
[34] Stasinopoulos,D。;里格比,R。;海勒,G。;Voudouris,V。;De Bastiani,F.,《灵活回归和平滑:在R中使用GAMLSS》(2017),Chapman和Hall/CRC:Chapman和Hall/CRC,博卡拉顿
[35] Stewart,C.,用于定量脂肪酸特征分析中比例建模的零膨胀β分布,J.Appl。统计,40,985-992(2013)·Zbl 1514.62882号
[36] 田,L。;Wu,J.,带多余零的对数正态数据平均值的置信区间,Biom。J.,48,149-156(2006)·Zbl 1442.62654号
[37] 周,X。;Tu,W.,零值对数正态分布医疗费用平均值比率的区间估计,计算。统计人员。数据分析。,35, 201-210 (2000) ·Zbl 1115.62302号
[38] Zipf,G.K.,《人类行为与最小努力原则》(1949),艾迪森·韦斯利:艾迪森·韦斯利,剑桥
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。