@收款{zbMATH05222906,作者={Tewari,Ambuj和Bartlett,Peter L.},标题={有界参数{Markov}平均报酬准则决策过程},BookTitle={学习理论。第20届学习理论年会,COLT 2007,圣地亚哥,加利福尼亚州,美国,2007年6月13-15日。会议记录。},国际标准图书编号={978-3-540-72925-9},页码={263--277},年份={2007},出版商={柏林:施普林格},语言={英语},DOI={10.1007/978-3-540-72927-3_20},关键词={90C40},zbMATH={5222906},Zbl={1203.90175}}