文件Zbl 1430.62023-zbMATH Open

针对数据挖掘，从小样本中重新审视最优概率估计。（英语） Zbl 1430.62023号

国际期刊申请。数学。计算。科学。 29，第4期，783-796（2019）.

摘要：根据经验数据样本估计概率在科学界引起了密切关注，并被确定为许多机器学习和知识发现研究项目和应用的关键阶段。除了使用相对频率进行简单易行的估计外，还提出了更精细的小样本概率估计方法，并将其应用于实践中（例如，拉普拉斯法则，m估计）。A.皮埃加特和M.Landowski先生【国际数学应用计算科学杂志22，第3期，629-645（2012；Zbl 1302.93206号)]提出了一种新的基于小样本（Ep{h\sqrt{2}}）的概率估计方法，该方法根据估计结果的平均绝对误差最优。在本文中，我们表明，尽管Piegat公式的表述似乎不同，但它实际上是（m）-估计的特例，其中（p_a=1/2）和（m=sqrt{2}）。在实验框架的背景下，我们对几种概率估计方法的平均绝对误差进行了深入分析，并证明了它们的潜在优缺点。我们将分析从单实例样本扩展到具有中等数量实例的样本。为了估计概率，我们将小样本定义为包含少于四次成功或少于四次失败的样本，并通过分析不同样本大小的概率估计误差来证明该定义的合理性。

理学硕士：

62立方厘米10	贝叶斯问题；贝叶斯过程的特征
62升10	顺序统计分析
62-02	与统计有关的研究展览（专著、调查文章）
62A01型	统计学基础和哲学主题

PDF格式 BibTeX公司 XML格式引用

全文：内政部

OA许可证

参考文献：

[1]	Berger，J.O.（1985）。统计决策理论和贝叶斯分析，纽约州斯普林格·Zbl 0572.62008号
[2]	布吉拉，N.（2013）。关于使用Liouville混合模型和应用平滑多项式估计，模式分析和应用16（3）：349-363·Zbl 1284.68510号
[3]	Breiman，L.、Friedman，J.H.、Olshen，R.A.和Stone，C.J.（1984）。分类和回归树，华兹华斯，贝尔蒙特·Zbl 0541.62042号
[4]	Calvo，B.和Santafé，G.（2016年）。SCMAMP：多个问题中多个算法的统计比较，R期刊8（1）：248-256。
[5]	Cestnik，B.（1990年）。估计概率：机器学习中的一项关键任务，《第九届欧洲人工智能会议论文集》，英国伦敦，第147-149页。
[6]	Cestnik，B.（2018年）。R中用于实验小样本概率估计的实验框架。
[7]	Cestnik，B.和Bratko，I.（1991年）。关于估计树木修剪的概率，《欧洲学习工作会议论文集》，葡萄牙波尔图，第138-150页。
[8]	Chan，J.C.C.和Kroese，D.P.（2011年）。用条件蒙特卡罗进行Rareevent概率估计，《运筹学年鉴》189（1）：43-61·Zbl 1279.60064号
[9]	Chandra，B.和Gupta，M.（2011年）。基因表达数据的朴素贝叶斯分类器中估计概率的稳健方法，应用专家系统38（3）：1293-1298。
[10]	DasGupta，A.（2011年）。统计学和机器学习的概率：基础和高级主题，纽约州斯普林格·Zbl 1233.62001
[11]	DeGroot，M.和Schervish，M.（2012年）。概率与统计，马萨诸塞州波士顿Addison-Wesley。
[12]	Demšar，J.（2006）。多数据集上分类器的统计比较，机器学习研究杂志7（1）：1-30·Zbl 1222.68184号
[13]	Domingos，P.和Pazzani，M.（1997年）。关于简单贝叶斯分类器在零损失下的最优性，机器学习29（2）：103-130·Zbl 0892.68076号
[14]	Díeroski，S.、Cestnik，B.和Petrovski，I.（1993）。在规则归纳中使用m估计，《计算与信息技术杂志》1（1）：37-46。
[15]	Feller，W.（1968年）。《概率论及其应用导论》，新泽西州霍博肯威利出版社·Zbl 0155.23101号
[16]	Fienberg，S.E.和Holland，P.W.（1972年）。关于估计多项式概率的平坦常数的选择，《多变量分析杂志》2（1）：127-134·Zbl 0236.62047号
[17]	Flach，P.（2012）。《机器学习：理解数据的算法的艺术与科学》，剑桥大学出版社，纽约州纽约市·Zbl 1267.68010号
[18]	Fürnkranz，J.和Flach，P.A.（2005年）。ROC“n”规则学习-更好地理解覆盖算法，机器学习58（1）：39-77·Zbl 1075.68071号
[19]	García，S.、Fernández，a.、Luengo，J.和Herrera，F.（2010年）。计算智能和数据挖掘实验设计中多重比较的高级非参数测试：权力的实验分析，《信息科学》180（10）：2044-2064。
[20]	García，S.和Herrera，F.（2008）。所有成对比较的多个数据集上分类器统计比较的扩展，机器学习研究杂志9（12）：2677-2694·Zbl 1225.68178号
[21]	很好，I.J.（1965）。概率估计：现代贝叶斯方法论文，麻省理工学院出版社，马萨诸塞州剑桥·Zbl 0168.39603号
[22]	好，I.J.（1966）。如何估计概率，IMA应用数学杂志2（4）：364-383·Zbl 0171.16501号
[23]	Good，P.和Hardin，J.（2012年）。统计中的常见错误（以及如何避免这些错误），新泽西州霍博肯市威利·Zbl 1274.62007年
[24]	Grover，J.（2012年）。《战略经济决策：使用贝叶斯信念网络解决复杂问题》，纽约州斯普林格·Zbl 1353.90001号
[25]	Gudder，S.（1988）。量子概率，学术出版社，马萨诸塞州波士顿·Zbl 0653.60004号
[26]	拉普拉斯，P.-S.（1814）。《概率论的Essai哲学》，巴黎Courcier出版社。
[27]	Larose，D.（2010年）。《发现统计》，W.H.Freeman，纽约州纽约市。
[28]	米切尔，T.M.（1997）。机器学习，麦格劳希尔，梅登黑德·Zbl 0913.68167号
[29]	Piegat，A.和Landowski，M.（2012年）。小样本数据挖掘问题假设概率的最优估计，国际应用数学与计算机科学杂志22（3）：629-645，DOI:10.2478/v10006-012-0048-z·Zbl 1302.93206号
[30]	Piegat，A.和Landowski，M.（2013）。概率的均方误差最优完全性估计器eph2，《理论与应用计算机科学杂志》7（3）：3-20。
[31]	Piegat，A.和Landowski，M.（2014）。特别适用于机器学习、控制和控制论43（1）：133-160·Zbl 1318.93087号
[32]	R核心团队（2018年）。R：统计计算语言和环境，R统计计算基金会，维也纳。
[33]	Rudas，T.（2008年）。概率手册：理论与应用，SAGE出版物，加利福尼亚州千橡树·Zbl 1149.60001号
[34]	Starbird，M.（2006）。机会是什么？弗吉尼亚州尚蒂利，概率明确。
[35]	Sulzmann，J.N.和Fürnkranz，J.（2009）。概率规则概率估计技术的经验比较，J.Gama等人（编辑），《发现科学》，斯普林格，海德堡，第317-331页·Zbl 1502.68264号
[36]	Webb，J.（2007）。《博弈论：决策、互动与进化》，斯普林格出版社，伦敦·Zbl 1107.91001号

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

针对数据挖掘，从小样本中重新审视最优概率估计。（英语） Zbl 1430.62023号

理学硕士：

关键词：

引文：

软件：

参考文献：

示例

领域

操作员

针对数据挖掘，从小样本中重新审视最优概率估计。 （英语） Zbl 1430.62023号

理学硕士：

关键词：

引文：

软件：

参考文献：

针对数据挖掘，从小样本中重新审视最优概率估计。（英语） Zbl 1430.62023号