×

针对数据挖掘,从小样本中重新审视最优概率估计。 (英语) Zbl 1430.62023号

摘要:根据经验数据样本估计概率在科学界引起了密切关注,并被确定为许多机器学习和知识发现研究项目和应用的关键阶段。除了使用相对频率进行简单易行的估计外,还提出了更精细的小样本概率估计方法,并将其应用于实践中(例如,拉普拉斯法则,m估计)。A.皮埃加特M.Landowski先生【国际数学应用计算科学杂志22,第3期,629-645(2012;Zbl 1302.93206号)]提出了一种新的基于小样本(Ep{h\sqrt{2}})的概率估计方法,该方法根据估计结果的平均绝对误差最优。在本文中,我们表明,尽管Piegat公式的表述似乎不同,但它实际上是(m)-估计的特例,其中(p_a=1/2)和(m=sqrt{2})。在实验框架的背景下,我们对几种概率估计方法的平均绝对误差进行了深入分析,并证明了它们的潜在优缺点。我们将分析从单实例样本扩展到具有中等数量实例的样本。为了估计概率,我们将小样本定义为包含少于四次成功或少于四次失败的样本,并通过分析不同样本大小的概率估计误差来证明该定义的合理性。

理学硕士:

62立方厘米10 贝叶斯问题;贝叶斯过程的特征
62升10 顺序统计分析
62-02 与统计有关的研究展览(专著、调查文章)
62A01型 统计学基础和哲学主题
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Berger,J.O.(1985)。统计决策理论和贝叶斯分析,纽约州斯普林格·Zbl 0572.62008号
[2] 布吉拉,N.(2013)。关于使用Liouville混合模型和应用平滑多项式估计,模式分析和应用16(3):349-363·Zbl 1284.68510号
[3] Breiman,L.、Friedman,J.H.、Olshen,R.A.和Stone,C.J.(1984)。分类和回归树,华兹华斯,贝尔蒙特·Zbl 0541.62042号
[4] Calvo,B.和Santafé,G.(2016年)。SCMAMP:多个问题中多个算法的统计比较,R期刊8(1):248-256。
[5] Cestnik,B.(1990年)。估计概率:机器学习中的一项关键任务,《第九届欧洲人工智能会议论文集》,英国伦敦,第147-149页。
[6] Cestnik,B.(2018年)。R中用于实验小样本概率估计的实验框架。
[7] Cestnik,B.和Bratko,I.(1991年)。关于估计树木修剪的概率,《欧洲学习工作会议论文集》,葡萄牙波尔图,第138-150页。
[8] Chan,J.C.C.和Kroese,D.P.(2011年)。用条件蒙特卡罗进行Rareevent概率估计,《运筹学年鉴》189(1):43-61·Zbl 1279.60064号
[9] Chandra,B.和Gupta,M.(2011年)。基因表达数据的朴素贝叶斯分类器中估计概率的稳健方法,应用专家系统38(3):1293-1298。
[10] DasGupta,A.(2011年)。统计学和机器学习的概率:基础和高级主题,纽约州斯普林格·Zbl 1233.62001
[11] DeGroot,M.和Schervish,M.(2012年)。概率与统计,马萨诸塞州波士顿Addison-Wesley。
[12] Demšar,J.(2006)。多数据集上分类器的统计比较,机器学习研究杂志7(1):1-30·Zbl 1222.68184号
[13] Domingos,P.和Pazzani,M.(1997年)。关于简单贝叶斯分类器在零损失下的最优性,机器学习29(2):103-130·Zbl 0892.68076号
[14] Díeroski,S.、Cestnik,B.和Petrovski,I.(1993)。在规则归纳中使用m估计,《计算与信息技术杂志》1(1):37-46。
[15] Feller,W.(1968年)。《概率论及其应用导论》,新泽西州霍博肯威利出版社·Zbl 0155.23101号
[16] Fienberg,S.E.和Holland,P.W.(1972年)。关于估计多项式概率的平坦常数的选择,《多变量分析杂志》2(1):127-134·Zbl 0236.62047号
[17] Flach,P.(2012)。《机器学习:理解数据的算法的艺术与科学》,剑桥大学出版社,纽约州纽约市·Zbl 1267.68010号
[18] Fürnkranz,J.和Flach,P.A.(2005年)。ROC“n”规则学习-更好地理解覆盖算法,机器学习58(1):39-77·Zbl 1075.68071号
[19] García,S.、Fernández,a.、Luengo,J.和Herrera,F.(2010年)。计算智能和数据挖掘实验设计中多重比较的高级非参数测试:权力的实验分析,《信息科学》180(10):2044-2064。
[20] García,S.和Herrera,F.(2008)。所有成对比较的多个数据集上分类器统计比较的扩展,机器学习研究杂志9(12):2677-2694·Zbl 1225.68178号
[21] 很好,I.J.(1965)。概率估计:现代贝叶斯方法论文,麻省理工学院出版社,马萨诸塞州剑桥·Zbl 0168.39603号
[22] 好,I.J.(1966)。如何估计概率,IMA应用数学杂志2(4):364-383·Zbl 0171.16501号
[23] Good,P.和Hardin,J.(2012年)。统计中的常见错误(以及如何避免这些错误),新泽西州霍博肯市威利·Zbl 1274.62007年
[24] Grover,J.(2012年)。《战略经济决策:使用贝叶斯信念网络解决复杂问题》,纽约州斯普林格·Zbl 1353.90001号
[25] Gudder,S.(1988)。量子概率,学术出版社,马萨诸塞州波士顿·Zbl 0653.60004号
[26] 拉普拉斯,P.-S.(1814)。《概率论的Essai哲学》,巴黎Courcier出版社。
[27] Larose,D.(2010年)。《发现统计》,W.H.Freeman,纽约州纽约市。
[28] 米切尔,T.M.(1997)。机器学习,麦格劳希尔,梅登黑德·Zbl 0913.68167号
[29] Piegat,A.和Landowski,M.(2012年)。小样本数据挖掘问题假设概率的最优估计,国际应用数学与计算机科学杂志22(3):629-645,DOI:10.2478/v10006-012-0048-z·Zbl 1302.93206号
[30] Piegat,A.和Landowski,M.(2013)。概率的均方误差最优完全性估计器eph2,《理论与应用计算机科学杂志》7(3):3-20。
[31] Piegat,A.和Landowski,M.(2014)。特别适用于机器学习、控制和控制论43(1):133-160·Zbl 1318.93087号
[32] R核心团队(2018年)。R: 统计计算语言和环境,R统计计算基金会,维也纳。
[33] Rudas,T.(2008年)。概率手册:理论与应用,SAGE出版物,加利福尼亚州千橡树·Zbl 1149.60001号
[34] Starbird,M.(2006)。机会是什么?弗吉尼亚州尚蒂利,概率明确。
[35] Sulzmann,J.N.和Fürnkranz,J.(2009)。概率规则概率估计技术的经验比较,J.Gama等人(编辑),《发现科学》,斯普林格,海德堡,第317-331页·Zbl 1502.68264号
[36] Webb,J.(2007)。《博弈论:决策、互动与进化》,斯普林格出版社,伦敦·Zbl 1107.91001号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。