×

控制单调博弈中的失败概率。 (英语) Zbl 1138.91360号

小结:我们处理的是Alice和Bob之间的一个复杂游戏,其中每个竞争者的获胜概率随着所使用的资源以未知数量单调增长。对于爱丽丝的固定努力,鲍勃根据每一轮的结果(胜利、平局或失败)增加资源,目的是将失败的概率降低到给定的阈值以下。我们通过计算输球概率的置信区间来理解这个目标,并意识到某些比赛中的动作可能会带来不确定性陷阱:在某些比赛中,鲍勃不能同时具有低输球概率测度和窄置信区间。我们使用称为扭转参数的推理机制,在两个联合统计的基础上计算上述间隔。仔细使用这些统计数据可以避免不确定性。

MSC公司:

91A60型 概率博弈;赌博
62层25 参数公差和置信区域
68问题32 计算学习理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 布莱克威尔,D。;Girshick,M.A.,《博弈论与统计决策》(1979),多佛出版公司:纽约多佛出版有限公司·Zbl 0439.62008号
[2] D.Gale,《积极溢出的单调游戏》,纽约大学经济系技术报告,可从<;D.Gale,《积极溢出的单调游戏》,《技术报告》,纽约大学经济系,可从<·Zbl 1021.91006号
[3] Garey,M.R。;Johnson,D.S.,《计算机与难处理性:NP-完全性理论指南》(1978),W.H.Freeman:W.H.Freeman San Francisco·Zbl 0379.68035号
[4] (Nemhauser,G.;Rinnooy Kan,A.;Todd,M.,《优化,运筹学和管理科学手册》(1989),北荷兰:北荷兰阿姆斯特丹)·Zbl 0688.90034号
[5] Sahni,S.,《0/1背包问题的近似算法》,计算机协会杂志,22,1,115-124(1975)·Zbl 0362.90066号
[6] Valiant,L.G.,可学习理论,美国计算机学会通讯,11,27,1134-1142(1984)·Zbl 0587.68077号
[7] 阿波洛尼,B。;Malchiodi博士。;Gaito,S.,《机器学习中的算法推理》(2003),《高级知识国际:高级知识国际》,阿德莱德,马吉尔
[8] 阿波罗尼,B。;埃斯波西托,A。;Malchiodi,D。;Orovas,C。;帕尔马斯,G。;Taylor,J.G.,《从数据中学习规则的一般框架》,IEEE神经网络汇刊,15,6,1333-1349(2004)
[9] 阿波罗尼,B。;Malchiodi,D。;Orovas,C。;Palmas,G.,《从突触到规则》,认知系统研究,3/2167-201(2002)
[10] Foster,D。;Vohra,R.,在线决策问题中的后悔,游戏与经济行为,21,40-55(1997)·Zbl 0894.90188号
[11] 卡莱,E。;Lehrer,E.,《理性学习导致纳什均衡》,《计量经济学》,611019-1045(1993)·Zbl 0793.90106号
[12] Roth,A。;Erev,I.,《广泛形式游戏中的学习:中期实验数据和简单动态模型》,游戏与经济行为,8164-212(1995)·Zbl 0833.90144号
[13] T.Borgers,R.Sarin,通过强化和复制因子动力学学习,Mimeo,1997年。;T.Borgers,R.Sarin,通过强化和复制因子动力学学习,Mimeo,1997年·Zbl 0892.90198号
[14] 波兹尼亚克,A.S。;Najim,K.,《N人重复约束游戏的强化学习》,《IEEE系统、人与控制论汇刊》。B部分:控制论,32,6,759-771(2002)
[15] Nash,J.,《非合作游戏》,《数学年鉴》,54,286-295(1951)·Zbl 0045.08202号
[16] 拉普拉斯,P.S.,《概率哲学论文》(1995),施普林格-弗拉格出版社,最初出版于1825年
[17] Fisher,M.A.,《统计推断中的基准论点》,《优生学年鉴》,6391-398(1935)
[18] Tukey,J.,非参数估计。二、。统计等效块和多元公差区域,连续案例,《数理统计年鉴》,18529-539(1947)·Zbl 0029.15502号
[19] De Finetti,B.,《概率论》。概率论,一种关键的入门治疗,第2卷(1975年),John Wiley&Sons:John Wiley&Sons纽约·Zbl 0328.60003号
[20] Rohatgi,V.K.,《概率论与数理统计导论》,《概率与数理统计中的威利系列》(1976),John Wiley&Sons:John Wiley&Sons纽约·兹比尔0354.62001
[21] 弗雷泽,D.A.S.,《统计学中的非参数方法》(1965),约翰·威利:约翰·威利纽约·Zbl 0141.35501号
[22] Martello,S。;Toth,P.,《0-1背包问题》,(组合优化(1979),威利),237-279·Zbl 0409.90063号
[23] S.Sahni,来自网络流、博弈论和整数规划的一些相关问题,收录于:第13届IEEE交换与自动机理论研讨会论文集,1972年,第130-138页。;S.Sahni,《来自网络流、博弈论和整数规划的一些相关问题》,载于:第13届IEEE交换与自动机理论研讨会论文集,1972年,第130-138页。
[24] Papadimitriou,C.H.,《计算复杂性》(1994),艾迪森·韦斯利:艾迪森·韦斯利阅读,马萨诸塞州·Zbl 0557.68033号
[25] Ausiello,G.,《复杂性和近似:组合问题及其近似性》(1999),Springer-Verlag:Springer-Verlag Berlin·Zbl 0937.68002号
[26] Feller,W.,《概率论及其应用导论》,第1卷(1950),John Wiley&Sons·Zbl 0039.13201号
[27] Pawlak,Z.,《粗糙集——数据推理的理论方面》(Rough Sets-Theory Aspects of Reasoning about Data)(1991年),Kluwer Academic Publishers:Kluwer-Academical Publishers Boston·Zbl 0758.68054号
[28] Pedrycz,W.,数据挖掘中的粒度计算,(Last,M.;Kandel,A.,数据挖掘和计算智能,Physica-Verlag,Fuzziness and Soft computing研究,第68卷(2001),Springer-Verlag),37-62·Zbl 1022.68034号
[29] Dietterich,T.(Arbib,M.A.,《大脑理论和神经网络手册》(2002年),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。