“基于偏好的强化学习:正式框架和政策……”
约翰内斯·富恩克兰兹(Johannes Fürnkranz) , 埃克·Hüllermier , 程伟伟(Weiwei Cheng) , 桑和云公园 :
基于偏好的强化学习:形式化框架和策略迭代算法。 机器。 学习。 89 ( 1-2 ) : 123-156 ( 2012 )
由于引用数据不可用,以下列表可能不完整, 引用字符串可能未成功映射到dblp中列出的项,并且 我们没有针对这些列表中给出的所有项目的完整和精心策划的元数据。