{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部分”:[[2024,6,20]],“日期-时间”:“2024-06-20T22:37:10Z”,“时间戳”:1718923030014},“引用-计数”:27,“发布者”:“运筹学与管理科学研究所(INFORMS)”,“问题”:“4”,“内容-域”:{:“域”:[],“交叉标记-限制”:false},“short-container-title”:[“OR数学”],“published-print”:{“date-parts”:[[2014,11]]},”抽象“:”在部分监控游戏中,学习者反复选择一个动作,环境以结果作出响应,然后学习者遭受损失并收到反馈信号,这两者都是动作和结果的固定函数。学习者的目标是最小化他的后悔,这是他总的累积损失和事后最佳固定行为的总损失之间的差异。本文刻画了具有有限多个动作和结果的部分监控博弈的极小极大后悔。事实证明,任何此类游戏的最小最大遗憾要么为零,要么标为T1\/2<\/jats:sup>,T2\/3<\/jats:sup>或T到常数和对数因子。我们提供了计算效率高的学习算法,可以在任何游戏的对数因子内实现最小最大遗憾。除了最小最大后悔的边界外,如果我们假设结果是以身份验证方式生成的,我们还证明了预期后悔的个体上限<\/jats:p>“,”DOI“:”10.1287\/moor.2014.0663“,”type“:”journal-article“,”created“:{”date-parts“:[[2014,6,27]],”date-time“:”2014-06-27T16:50:08Z“,”timestamp“:1403887808000},”page“:“967-997”,”source“:“,”卷“:”39“,”author“:[{”given“:”G\u00e1bor“,”family“:”Bart\u00f3k“,”sequence“:”first“,”affiliation“:”[{“name”:“Department of Computer Science,ETH Z\u00fcrich,CH-8092 Z\u100fcrich、Switzerland“}]},”givent“:”Dean P.“,”家人“:”Foster“,”序列“:”additional“,”从属关系“:[}”name“:”Yahoo Labs,New York 10018“}]{”,{“given”:“D\u 00e1vid“,”family“:”P\u00e11“,”sequence“:”additional“,”affiliation“:[{”name“:”Google,New York,New Yor 10011“}]},{”given“:”Alexander“,”family“:”Rakhlin“,“sequence”:“additional”,“affiliation:”[{“name”:“Department of Statistics,University of Pennsylvania,Philadelphia,19104”}]}.,{“given”:“Csaba”,“family”:“Szepesv\u00e1ri”,“se序列”:“附加”,“从属关系”:name“:”加拿大艾伯塔省埃德蒙顿市艾伯塔大学计算科学系“}]}],“成员”:“109”,“参考”:[{“key”:“B1”,“doi-asserted-by”:“publisher”,”doi“:”10.1109\/ITA.2009.5044958“},{“key”:”B2“,”首页“:”263“volume-title”:“Proc.21st Conf.Learn.Theory COLT'08”,“author”:“Abernethy J”,“year”:“”2008“},{”键“:”B3“,”第一页“:”9“,”volume-title“:”Proc。第13国际。Conf.人工智能统计师。AISTATS'10“,“author”:“Agarwal A”,“year”:“2010”},{“key”:“B4”,“doi-asserted-by”:“publisher”,“doi”:“10.1016\/j.tcs.2012.10.008”}、{“key”:”B5“,“volume-title”:“Proc.22nd Conf.Learn.Theory,COLT'09”,“author”:“Audibert j-Y”,“年份”:“2009”};{“密钥”:“B6”,“doi-assertd-by”:“publisher”,“doi”:“10.1137\/S0097539701398375”},{“key”:“B7”,“首页”:“696”,“volume-title“:”程序。第26届Conf.学习。Theory,COLT’13”,“author”:“Bart\u00f3k G”,“year”:“2013”},{“key”:“B8”,“doi由”断言:“publisher”,“doi”:“10.1007\/978-3-642-34106-9_25”},{“key”:“B9”,“doi由”断言:“publisher”,“doi”:“10.1007\/978-3-642-16108-7_20”},{“key”:“B10”,“首页”:“133”,“卷标题”:“Proc.24th Conf.Learn”。理论,COLT‘11”,“作者”:“Bart\u00f3k G”,“年份”:“2011”},{“key”:“B11”,“volume-title”:“Proc.29th Internat.Conf.Machine Learn.,ICML'12”,“author”:“Bart\u00f3k G”,“year”:“2012”},{”key“:”B12“,“first page”:”1307“,”volume“:,“doi”:“10.1109\/TIT.2005.847729”},{“key”:“B14”,“doi-asserted-by”:“publisher”,“DOI”:“10.1287\/moor.1060.0206”},{“key”:“B15”,“volume-title”:“信息理论的要素”,“author”:“Cover-TM”,“year”:“2006”,“edition”:“2”}、{“key”:”B16“,“first page”:《385》,“volum-title“:”Proc.16th ACM-SIAM Sympos.Discrete Algorithms,SODA'05“,”author“:”Flaxman AD“,”year“:”2005“},}”key“:”B17“,”首页“:”382“,”卷“:”22“,“author”:“Foster DP”,“year”:“2012”,“journal-title”:“J.Machine Learn.Res.\u2014Proc.Track(AISTATS)”},{“key”:“B18”,“doi-serted-by”:“publisher”,“doi”:“10.1006\/gamer.1997.0595”}ted-by“:”publisher“,”doi“:”10.1006\/inco.1994.1009“},{”key“:”B21“,“volume-title”:“预测、学习和游戏”,“author”:“Lugosi G”,“year”:“2006”},{“key”:“B22”,“doi-asserted-by”:“publisher”,“doi”:“10.1287\/moor.1080.0312”}:“B24”,“doi-asserted-by”:“publisher”,“doi”:“10.1007\/3-540-44581-1_14”},{“key”:“B25”,“doi-asserted-by”:“publisher”,“doi”:“10.1006\/game.1998.0690”}.,ICML'03“,“作者”:“Zinkevich M”,“年份”:“2003”}],“container-title”:[“运筹学数学”],“original-title“:[],“language”:“en”,“link”:[{“URL”:“https:\/\/pubsonline.notifies.org\/doi\/pdf\/10.1287\/moor.2014.0663”,“content-type”:“unspecified”,“content-version”:“vor”,“intended-application”:“similarity-checking”}],“deposed”:{“date-parts”:[2023,4,2]],“date-time”:“2023-04-02T13:38:01Z”,“timestamp”:1680442681000},“score”:1,“resource”:{“primary”:{“URL”:“https:\/\/pubsonline.notifies.org\/doi\/10.1287\/moor.2014.0663”}},《副标题》:[],“短标题”:[]prerint“:{“date-parts”:[[2014,11]]}},“alternative-id”用法:[“10.1287\/moor.2014.0663”],“URL”:“http://\/dx.doi.org\/10.1287\/mooor.2014.0663”,“relationship”:{},“ISSN”:[“0364-765X”,“1526-5471”],”ISSN-type“:[{”value“:”0364-7650X“,”type“:”print“},{”value“:”1526-5471}“,”类型“:”electronic“}],“subject”:[],“published”:{“date”部分”:[[2014,11]]}}}