约翰内斯·范克兰兹;埃克·Hüllermier;程伟伟;桑亨公园 基于偏好的强化学习:形式化框架和策略迭代算法。 (英语) Zbl 1260.68328号 机器。学习。 89,编号1-2,123-156(2012).MSC公司:68T05年 PDF格式BibTeX公司 XML格式引用 \textit{J.Fürnkranz}等人,马赫。学习。89,编号1--2,123-156(2012;Zbl 1260.68328) 全文: 内政部
Hüllermeier,艾克;约翰内斯·范克兰兹;程伟伟;Brinker,克劳斯 通过学习成对偏好进行排名。 (英语) Zbl 1184.68403号 Artif公司。智力。 172,第16-17号,1897-1916(2008).MSC公司:68T05年 68分10秒 PDF格式BibTeX公司 XML格式引用 \textit{E.Hüllermier}等人,Artif。智力。172,编号16--17,1897--1916(2008;Zbl 1184.68403) 全文: 内政部