×

广义良好图灵改进了质量缺失估计。 (英语) Zbl 07751816号

小结:考虑一个来自可数字母表上未知分布的有限样本。缺失质量指的是样本中未出现符号的概率。估计缺失质量是统计学和相关领域的一个基本问题,它可以追溯到拉普拉斯的早期工作,以及Good和Turing的最新开创性贡献。在本文中,我们引入了一个广义Good-Turing(GT)框架来估计缺失质量。我们推导出了风险的上限(以均方误差表示),并在我们的框架参数上将其最小化。我们的分析根据(未知)字母表大小区分了两种设置。当字母表大小从上面限定时,与当前已知结果(通常不考虑字母表大小)相比,我们的风险边界显示出显著的改进。基于这一界,我们引入了一个改进GT的数值估计量。当字母表大小没有限制时,我们应用我们建议的风险界,并引入一个封闭形式的估计量,再次改进GT性能保证。我们建议的框架易于应用,不需要额外的建模假设。这使得它成为实际应用的一个有利选择。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Acharya,J。;Bao,Y。;Kang,Y。;Sun,Z.,估计缺失质量的最小最大风险改进界限,326-330(2018)
[2] Ayed,F。;巴蒂斯顿,M。;Camerlenghi,F。;Favaro,S.,“特征分配模型的可靠估计,电子统计杂志,13,3775-3804(2019)·Zbl 1429.62114号 ·doi:10.1214/19-EJS1614
[3] 巴蒂斯顿,M。;Ayed,F。;Camerlenghi,F。;Favaro,S.,关于缺失质量的一致性和速率最优估计(2020年)
[4] Ben-Hamou,A。;Boucheron,S。;Ohannessian,M.I.,“占用计数和缺失质量的无限深槽方案中的浓度不等式及其应用”,Bernoulli,23,249-287(2017)·Zbl 1366.60016号 ·doi:10.3150/15-BEJ743
[5] 贝伦德,D。;Kontorovich,A.,“质量缺失问题”,《统计学与概率快报》,821102-1110(2012)·Zbl 1239.62012号
[6] 博伊德,S。;Vandenberghe,L.,凸优化(2004),剑桥:剑桥出版社,剑桥·Zbl 1058.90049号
[7] 美国人口普查局(2014),“2000年人口普查中频繁出现的姓氏”
[8] Drukh,E。;Mansour,Y.,“Unigram语言模型的集中界限”,《机器学习研究杂志》,61231-1264(2005)·Zbl 1222.68393号
[9] 埃夫隆,B。;Thisted,R.,“估计未知物种的数量:莎士比亚知道多少单词?”,《生物统计学》,63435-447(1976)·Zbl 0344.62088号 ·doi:10.1093/biomet/63.3.435
[10] Favaro,S。;A·李高。;Prünster,I.,“发现概率的新估算器,生物统计学,68,1188-1196(2012)·Zbl 1259.62110号 ·文件编号:10.1111/j.1541-0420.2012.01793.x
[11] Favaro,S。;尼波蒂,B。;Teh,Y.W.,“通过贝叶斯非参数法重新发现长期有效估计量,生物计量学,72,136-145(2016)·Zbl 1393.62062号 ·doi:10.1111/biom.12366
[12] Fisher,R.A。;科尔贝,A.S。;Williams,C.B.,“动物种群随机样本中物种数量和个体数量之间的关系,动物生态学杂志,42-58(1943)·doi:10.2307/1411
[13] 加尔,W。;Church,K.,《加一有什么错,基于语料库的语言研究:纪念扬·阿尔茨》,189-200(1994)
[14] 加尔,W.A。;Sampson,G.,“没有眼泪的良好频率估计,定量语言学杂志,2217-237(1995)·doi:10.1080/09296179508590051
[15] Gao,F.,“样本覆盖率的非参数估计的中等偏差”,《统计年鉴》,41641-669(2013)·Zbl 1267.62047号 ·doi:10.1214/13-AOS1091
[16] 高,Z。;曾,C.-h。;裴,Z。;Blaser,M.J.,“人类前臂浅表皮肤细菌生物群的分子分析,国家科学院学报,104,2927-2932(2007)·doi:10.1073/pnas.0607077104
[18] 很好,I.J。;Toulmin,G.H.,“当样本增加时,新物种的数量和人口覆盖率的增加,生物特征,43,45-63(1956)·Zbl 0070.14403号 ·doi:10.1093/biomet/43.1-2.45
[19] Good,I.J.,“物种的种群频率和种群参数的估计,生物特征,40237-264(1953)·兹比尔0051.37103 ·doi:10.1093/biomet/40.3-4.237
[20] 格拉布查克,M。;Zhang,“相对误差下图灵公式的渐近性质,机器学习,1061771-1785(2017)·Zbl 1440.62120号 ·doi:10.1007/s10994-016-5620-6
[21] Krichevsky,R。;Trofimov,V.,“通用编码的性能,IEEE信息理论汇刊,27199-207(1981)·Zbl 0469.94004号 ·doi:10.1109/TIT.11981.1056331
[22] 拉普拉斯,P.-S.,皮尔雷·西蒙·拉普拉斯概率哲学论文:1825年第五版法文译本,译者注释,13(1825),斯普林格科学与商业媒体
[23] A·李高。;梅纳,R.H。;普伦斯特,I.,“发现新物种概率的贝叶斯非参数估计,生物特征,94769-786(2007)·Zbl 1156.62374号 ·doi:10.1093/biomet/asm061
[24] McAllester,D.A。;Schapire,R.E.,《关于良好期估计的收敛速度》,1-6(2000)
[25] Mossel,大肠杆菌。;Ohannessian,M.,“关于学习缺失质量的不可能性,熵,21,28(2019)·doi:10.3390/e21010028
[26] Ohannessian,M.I。;Dahle,M.A.,规则变化重尾下的罕见概率估计,21-1(2012)
[27] 奥利茨基,A。;Santhanam,N.P。;Zhang,J.,“始终良好的图灵:渐近最优概率估计”,《科学》,302,427-431(2003)·Zbl 1226.01008号 ·doi:10.1126/science.1088284
[28] 奥利茨基,A。;Suresh,A.T.,《竞争性分布估计:为什么善始善终》,2143-2151(2015)
[29] 奥尔利茨基,A。;苏雷什,T。;Wu,Y.,“未知物种数量的最佳预测,国家科学院学报,113,13283-13288(2016)·Zbl 1407.62409号 ·doi:10.1073/pnas.1607774113
[30] Rajaraman,N。;Thangaraj,A。;Suresh,A.T.,缺失质量估算的最小风险,3025-3029(2017)
[31] Saichev,A.I。;马勒弗涅,Y。;Sornette,D.,《Zipf定律及其以外的理论》,632(2009),Springer科学与商业媒体
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。