提供商：Schloss Dagstuhl-莱布尼茨信息中心数据库：dblp计算机科学书目内容：文本/纯文本；charset=“utf-8”TY-CPAPER公司ID-DBLP:conf/iconip/YangLCL17AU-Yang，佳元AU-李彦杰AU-Chen、HaoyaoAU-李建刚半马尔可夫决策过程的TI-平均奖励强化学习。BT-神经信息处理-第24届国际会议，ICONIP 2017，中国广州，2017年11月14-18日，会议记录，第一部分SP-768EP-7772017年上半年//DO-2007年10月10日/978-3-319-70087-8_79UR-（欧元）https://doi.org/10.1007/978-3-319-70087-8_79急诊室-