胡宇晨;Stefan Wager 序列可忽略条件下部分可观测马尔可夫决策过程的非策略评估。 (英语) Zbl 07783510号 Ann.统计。 51,第4期,1561-1585(2023).MSC公司:2009年6月26日 62D20型 PDF格式BibTeX公司 XML格式引用 \textit{Y.Hu}和\textit{S.Wager},Ann.Stat.51,No.4,1561--1585(2023;Zbl 07783510) 全文: 内政部 arXiv公司 链接
汤姆·埃弗里特;马库斯·赫特;拉马纳·库马尔;维多利亚州克拉科夫纳 强化学习中的奖励篡改问题和解决方案:因果影响图视角。 (英语) Zbl 1529.68309号 合成 198,增刊27,S6435-S6467(2021).MSC公司:68T42型 62C05型 62D20型 68T05型 PDF格式BibTeX公司 XML格式引用 \textit{T.Everitt}等人,综合198,S6435--S6467(2021;Zbl 1529.68309) 全文: 内政部 arXiv公司
爱德华·巴克;查尔·拉斯特 强化学习的无监督基函数自适应。 (英语) Zbl 1434.68394号 J.马赫。学习。物件。 20,第128号文件,第73页(2019).MSC公司:68T05型 62升10 90立方厘米 PDF格式BibTeX公司 XML格式引用 \textit{E.Barker}和\textit{C.Ras},J.Mach。学习。第20号决议,第128号论文,73页(2019年;Zbl 1434.68394) 全文: arXiv公司 链接
曾毅峰;马,泌阳;陈碧莲;唐靖;何梦达 用于学习预测状态表示的组稀疏优化。 (英语) Zbl 1435.68288号 信息科学。 412-413, 1-13 (2017).MSC公司:68T05型 62J07型 68T20型 68T42型 90C22型 PDF格式BibTeX公司 XML格式引用 \textit{Y.Zeng}等人,《信息科学》。412--413、1-13(2017年;Zbl 1435.68288) 全文: 内政部 链接
Jean-François帕特里;朱利安·迪亚德;帕斯卡·佩里尔 最佳语音运动控制和标记对标记可变性:贝叶斯建模方法。 (英语) Zbl 1345.92049号 生物、网络。 109,第6号,611-626(2015).MSC公司:92C30型 62页第10页 2015年1月62日 PDF格式BibTeX公司 XML格式引用 \textit{J.-F.Patri}等人,《生物学》。赛博。109,第6号,611--626(2015;Zbl 1345.92049) 全文: 内政部 哈尔
基里尔·特拉佩兹尼科夫;文卡特斯·萨利格拉马;戴维·卡斯塔尼翁 多级分类器设计。 (英语) 兹比尔1273.68306 机器。学习。 92,编号2-3,479-502(2013).MSC公司:68T05型 62H30型 PDF格式BibTeX公司 XML格式引用 \textit{K.Trapeznikov}等人,马赫。学习。92,编号2--3,479--502(2013;Zbl 1273.68306) 全文: 内政部 arXiv公司
冯,齐;周学忠;黄厚宽;张小平 一种基于不确定性的POMDP值迭代信念选择方法。 (英语) Zbl 1245.68213号 Sossai,Claudio(编辑)等人,《不确定性推理的符号和定量方法》。第十届欧洲会议,ECSQARU 2009,意大利维罗纳,2009年7月1日至3日。诉讼程序。柏林:施普林格出版社(ISBN 978-3-642-02905-9/pbk)。计算机科学课堂讲稿5590。人工智能课堂讲稿,841-849(2009)。MSC公司:68层37 2005年6月2日 PDF格式BibTeX公司 XML格式引用 \textit{Q.Feng}等人,Lect。注释计算。科学。5590、841--849(2009年;Zbl 1245.68213) 全文: 内政部