文件Zbl 07751816-zbMATH打开

广义良好图灵改进了质量缺失估计。（英语） Zbl 07751816号

美国统计协会。 118，编号5431890-1899（2023）.

小结：考虑一个来自可数字母表上未知分布的有限样本。缺失质量指的是样本中未出现符号的概率。估计缺失质量是统计学和相关领域的一个基本问题，它可以追溯到拉普拉斯的早期工作，以及Good和Turing的最新开创性贡献。在本文中，我们引入了一个广义Good-Turing（GT）框架来估计缺失质量。我们推导出了风险的上限（以均方误差表示），并在我们的框架参数上将其最小化。我们的分析根据（未知）字母表大小区分了两种设置。当字母表大小从上面限定时，与当前已知结果（通常不考虑字母表大小）相比，我们的风险边界显示出显著的改进。基于这一界，我们引入了一个改进GT的数值估计量。当字母表大小没有限制时，我们应用我们建议的风险界，并引入一个封闭形式的估计量，再次改进GT性能保证。我们建议的框架易于应用，不需要额外的建模假设。这使得它成为实际应用的一个有利选择。本文的补充材料可在网上获得。

MSC公司：

62至XX

统计

关键词：

分类数据分析;频率的频率;极小极大估计;继承规则

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Acharya，J。；Bao，Y。；Kang，Y。；Sun，Z.，估计缺失质量的最小最大风险改进界限，326-330（2018）
[2]	Ayed，F。；巴蒂斯顿，M。；Camerlenghi，F。；Favaro，S.，“特征分配模型的可靠估计，电子统计杂志，13，3775-3804（2019）·Zbl 1429.62114号 ·doi:10.1214/19-EJS1614
[3]	巴蒂斯顿，M。；Ayed，F。；Camerlenghi，F。；Favaro，S.，关于缺失质量的一致性和速率最优估计（2020年）
[4]	Ben-Hamou，A。；Boucheron，S。；Ohannessian，M.I.，“占用计数和缺失质量的无限深槽方案中的浓度不等式及其应用”，Bernoulli，23，249-287（2017）·Zbl 1366.60016号 ·doi:10.3150/15-BEJ743
[5]	贝伦德，D。；Kontorovich，A.，“质量缺失问题”，《统计学与概率快报》，821102-1110（2012）·Zbl 1239.62012号
[6]	博伊德，S。；Vandenberghe，L.，凸优化（2004），剑桥：剑桥出版社，剑桥·Zbl 1058.90049号
[7]	美国人口普查局（2014），“2000年人口普查中频繁出现的姓氏”
[8]	Drukh，E。；Mansour，Y.，“Unigram语言模型的集中界限”，《机器学习研究杂志》，61231-1264（2005）·Zbl 1222.68393号
[9]	埃夫隆，B。；Thisted，R.，“估计未知物种的数量：莎士比亚知道多少单词？”，《生物统计学》，63435-447（1976）·Zbl 0344.62088号 ·doi:10.1093/biomet/63.3.435
[10]	Favaro，S。；A·李高。；Prünster，I.，“发现概率的新估算器，生物统计学，68，1188-1196（2012）·Zbl 1259.62110号 ·文件编号：10.1111/j.1541-0420.2012.01793.x
[11]	Favaro，S。；尼波蒂，B。；Teh，Y.W.，“通过贝叶斯非参数法重新发现长期有效估计量，生物计量学，72，136-145（2016）·Zbl 1393.62062号 ·doi:10.1111/biom.12366
[12]	Fisher，R.A。；科尔贝，A.S。；Williams，C.B.，“动物种群随机样本中物种数量和个体数量之间的关系，动物生态学杂志，42-58（1943）·doi:10.2307/1411
[13]	加尔，W。；Church，K.，《加一有什么错，基于语料库的语言研究：纪念扬·阿尔茨》，189-200（1994）
[14]	加尔，W.A。；Sampson，G.，“没有眼泪的良好频率估计，定量语言学杂志，2217-237（1995）·doi:10.1080/09296179508590051
[15]	Gao，F.，“样本覆盖率的非参数估计的中等偏差”，《统计年鉴》，41641-669（2013）·Zbl 1267.62047号 ·doi:10.1214/13-AOS1091
[16]	高，Z。；曾，C.-h。；裴，Z。；Blaser，M.J.，“人类前臂浅表皮肤细菌生物群的分子分析，国家科学院学报，104，2927-2932（2007）·doi:10.1073/pnas.0607077104
[18]	很好，I.J。；Toulmin，G.H.，“当样本增加时，新物种的数量和人口覆盖率的增加，生物特征，43，45-63（1956）·Zbl 0070.14403号 ·doi:10.1093/biomet/43.1-2.45
[19]	Good，I.J.，“物种的种群频率和种群参数的估计，生物特征，40237-264（1953）·兹比尔0051.37103 ·doi:10.1093/biomet/40.3-4.237
[20]	格拉布查克，M。；Zhang，“相对误差下图灵公式的渐近性质，机器学习，1061771-1785（2017）·Zbl 1440.62120号 ·doi:10.1007/s10994-016-5620-6
[21]	Krichevsky，R。；Trofimov，V.，“通用编码的性能，IEEE信息理论汇刊，27199-207（1981）·Zbl 0469.94004号 ·doi:10.1109/TIT.11981.1056331
[22]	拉普拉斯，P.-S.，皮尔雷·西蒙·拉普拉斯概率哲学论文：1825年第五版法文译本，译者注释，13（1825），斯普林格科学与商业媒体
[23]	A·李高。；梅纳，R.H。；普伦斯特，I.，“发现新物种概率的贝叶斯非参数估计，生物特征，94769-786（2007）·Zbl 1156.62374号 ·doi:10.1093/biomet/asm061
[24]	McAllester，D.A。；Schapire，R.E.，《关于良好期估计的收敛速度》，1-6（2000）
[25]	Mossel，大肠杆菌。；Ohannessian，M.，“关于学习缺失质量的不可能性，熵，21，28（2019）·doi:10.3390/e21010028
[26]	Ohannessian，M.I。；Dahle，M.A.，规则变化重尾下的罕见概率估计，21-1（2012）
[27]	奥利茨基，A。；Santhanam，N.P。；Zhang，J.，“始终良好的图灵：渐近最优概率估计”，《科学》，302，427-431（2003）·Zbl 1226.01008号 ·doi:10.1126/science.1088284
[28]	奥利茨基，A。；Suresh，A.T.，《竞争性分布估计：为什么善始善终》，2143-2151（2015）
[29]	奥尔利茨基，A。；苏雷什，T。；Wu，Y.，“未知物种数量的最佳预测，国家科学院学报，113，13283-13288（2016）·Zbl 1407.62409号 ·doi:10.1073/pnas.1607774113
[30]	Rajaraman，N。；Thangaraj，A。；Suresh，A.T.，缺失质量估算的最小风险，3025-3029（2017）
[31]	Saichev，A.I。；马勒弗涅，Y。；Sornette，D.，《Zipf定律及其以外的理论》，632（2009），Springer科学与商业媒体

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

广义良好图灵改进了质量缺失估计。（英语） Zbl 07751816号

MSC公司：

关键词：

参考文献：

示例

字段

操作员

广义良好图灵改进了质量缺失估计。 （英语） Zbl 07751816号

MSC公司：

关键词：

参考文献：

广义良好图灵改进了质量缺失估计。（英语） Zbl 07751816号