文件Zbl 07716693-zbMATH Open

应用于基于语料库的词频类的平均数比率的置信区间。（英语） Zbl 07716693号

J.应用。斯达。 50，编号7，1592-1610（2023）.

小结：当我们相互交流时，我们选择的词语传达了意义和信息。在书面或口头语言中，我们倾向于重复使用相对较少的单词，而词汇中的大量单词很少使用。通过考虑文本主体（或语料库）中最流行单词的平均数与相关单词的平均值的比率，可以量化相关单词的流行程度。此外，词类或分组词的概念具有相似的流行程度，这使研究人员能够比较这些词。使用语料库中具有不同长度的文本样本，单词的样本平均相对频率和使用零膨胀β分布的最大似然估计值作为单词流行率的两个度量。我们构建并比较了英国国家语料库（British National Corpus）中一些单词的平均值比率的渐近置信区间，该语料库是一个包含大量英国英语书面和口语的1亿单词的集合。我们还研究了满足单词类别和平均数比率等特定目标所需的样本量。

理学硕士：

62至XX

统计

关键词：

\（\mathrm｛不列颠哥伦比亚省｝_ a\)引导数据库;英国国家语料库;大样本理论;最大似然估计;零膨胀β分布

软件：

引导库;GAMLSS公司;bcaboot公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	布雷齐纳，V。；Gablasova，D.，有核心通用词汇吗？介绍新的一般服务列表，应用程序。语言学，36，1-22（2015）
[2]	Browne，C.、Culligan，B.和Phillips，J.，《新的一般事务人员名单》，2013年。可在http://www.newgeneralservicelist.org。
[3]	伯奇，B。；Egbert，J.，零膨胀贝塔分布应用于语料库语言学中的词频和词汇分散，J.Appl。统计，47，337-353（2020年）·Zbl 1521.62266号
[4]	Burkhardt，D。；帕塔纳，S。；Nazemi，K。；Kuijper，A.，大数据应用中以任务和用户为中心的可视化搜索意图分析，Procedia。计算。科学。，104, 539-547 (2017)
[5]	陈，H。；陈，J。；Chen，S.，非等概率抽样下包含多个零值的总体平均值的置信区间，Canad。J.统计。，38, 582-597 (2010) ·Zbl 1349.62023号
[6]	陈，J。；陈，S。；Rao，J.N.K.，包含许多零值的总体平均值的经验似然置信区间，Canad。J.统计。，31, 53-68 (2003) ·Zbl 1035.62007号
[7]	Chen，S.X。；秦，J.，具有可能零观测值的数据基于经验似然的置信区间，统计量。普罗巴伯。莱特。，65, 29-37 (2003) ·Zbl 1116.62345号
[8]	Chernick，M.R.，Bootstrap Methods:A Guide for Practicers and Research（2007），威利：威利，纽约·Zbl 1136.62029号
[9]	库克，D。；基施尼克，R。；McCullough，B.，金融比例的回归分析与自我选择，J.实证金融，15860-867（2008）
[10]	克里巴里·内托，F。；桑托斯，J.，《通货膨胀的库马拉斯瓦米分布》，美国科学院。胸罩。城市。，91，e20180955（2019）·Zbl 1442.62042号 ·doi:10.1590/0001-3765201920180955
[11]	克罗斯利，S.A。；科布，T。；McNamara，D.S.，比较基于计数和基于频带的词频指数：对积极词汇研究和教学应用的启示，System，41965-981（2013）
[12]	戴维森，A.C。；Hinkley，D.V.，Bootstrap方法及其应用（1997），剑桥大学出版社：剑桥大学出版社，剑桥·兹比尔0886.62001
[13]	爱德华兹，R。；Collins，L.，词汇频率分布和Zipf定律，Lang.Learn。，61, 1-30 (2011)
[14]	Efron，B.，《更好的引导置信区间》，J.Amer。统计人员。协会，82，171-185（1987）·兹比尔062262039
[15]	埃夫隆，B。；Tibshirani，R.，标准误差、置信区间和其他统计准确性度量的Bootstrap方法，Statist。科学。，1, 54-77 (1986) ·Zbl 0587.62082号
[16]	埃夫隆，B。；Narasimhan，B.，引导置信区间的自动构造，J.Compute。图表。统计人员。，29, 608-619 (2020) ·Zbl 07499300号
[17]	Grühn，D。；Smith，J.，《由年轻人和老年人评定的200个单词的特征：德语形容词的年龄依赖性评价》，Behav。研究方法。，40, 1088-1097 (2008)
[18]	Keim，J。；DeWitt，P。；菲茨帕特里克，J。；Jenni，N.，《使用膨胀的β分布估算植物丰度：从地衣-核糖生态系统中的应用学习》，Ecol。演变。，7, 486-493 (2017)
[19]	Kremmel，B.，《词汇测试中的词族和频段：挑战性惯例》，《TESOL季刊》，50976-987（2016）
[20]	Kvanli，A.H。；沈永凯。；Deng，L.Y.，包含多个零值的总体平均值的置信区间的构建，J.Bus。经济。统计人员。，16362-368（1998年）
[21]	韭菜，G。；Rayson，P。；Wilson，A.，《英语书面和口语中的词频：基于英国国家语料库》（2001），Routledge:Routledge，伦敦
[22]	Lei，L。；Liu，D.，《一个新的医学学术词汇表：一项增强方法论的基于身体的研究》，《学术英语杂志》，22，42-53（2016）
[23]	Lin，L.，评估再现性的一致性相关系数，生物统计学，45255-268（1989）·Zbl 0715.62114号
[24]	Lin，L.，关于一致性相关系数的注释，生物统计学，56，324-325（2000）
[25]	林，L。；Hedayat，A。；辛哈，B。；Yang，M.，《评估一致性的统计方法》，J.Amer。统计人员。协会，97，257-270（2002）·Zbl 1073.62583号
[26]	林，L。；Hedayat，A。；Wu，W.，《计量协议的统计工具》（2012），施普林格出版社：纽约施普林格·Zbl 1256.62063号
[27]	奥斯皮纳，R。；Ferrari，S.，充气贝塔分布，统计师。论文，5111-126（2010）·Zbl 1247.62043号
[28]	奥斯皮纳，R。；Ferrari，S.，一类一般的零阶膨胀贝塔回归模型，计算。统计人员。数据分析。，56, 1609-1623 (2012) ·Zbl 1243.62099号
[29]	Paquot，M.，《走向一个富有成效的学术词汇表》，载于《语言与计算机的实际应用》2005年，J.Walinski，K.Kredens&S.Gozdz-Roszkowski，eds.，Peter Lang，Frankfurt and Main，2007年，第127-140页。
[30]	奎罗斯，F。；Lemonte，A.，关于利率和比例的一大类零或一膨胀回归模型，Canad。J.统计。，49, 566-590 (2021) ·Zbl 07759591号
[31]	里格比，R。；Stasinopoulos，D.，位置、规模和形状的广义加性模型（含讨论），J.R.Stat.Soc.Ser。C.申请。《统计》，54，507-554（2005）·Zbl 1490.62201号
[32]	施密特，N。；Schmitt，D.，《二语词汇教学中频率和词汇量的再评估》，《语言教学》，47484-503（2014）
[33]	Stasinopoulos，D。；Rigby，R.，《R，J.Stat.Softw中位置尺度和形状的广义加性模型》（GAMLSS）。，23, 1-46 (2007)
[34]	Stasinopoulos，D。；里格比，R。；海勒，G。；Voudouris，V。；De Bastiani，F.，《灵活回归和平滑：在R中使用GAMLSS》（2017），Chapman和Hall/CRC：Chapman和Hall/CRC，博卡拉顿
[35]	Stewart，C.，用于定量脂肪酸特征分析中比例建模的零膨胀β分布，J.Appl。统计，40，985-992（2013）·Zbl 1514.62882号
[36]	田，L。；Wu，J.，带多余零的对数正态数据平均值的置信区间，Biom。J.，48，149-156（2006）·Zbl 1442.62654号
[37]	周，X。；Tu，W.，零值对数正态分布医疗费用平均值比率的区间估计，计算。统计人员。数据分析。，35, 201-210 (2000) ·Zbl 1115.62302号
[38]	Zipf，G.K.，《人类行为与最小努力原则》（1949），艾迪森·韦斯利：艾迪森·韦斯利，剑桥

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

应用于基于语料库的词频类的平均数比率的置信区间。（英语） Zbl 07716693号

理学硕士：

关键词：

软件：

参考文献：

示例

领域

操作员

应用于基于语料库的词频类的平均数比率的置信区间。 （英语） Zbl 07716693号

理学硕士：

关键词：

软件：

参考文献：

应用于基于语料库的词频类的平均数比率的置信区间。（英语） Zbl 07716693号